- Η Google Research παρουσίασε στις 24 Μαρτίου τον TurboQuant, αλγόριθμο που μειώνει τουλάχιστον κατά 6x τη μνήμη KV cache των μεγάλων γλωσσικών μοντέλων, χωρίς απώλεια ακρίβειας στα δικά της τεστ.
- Η αγορά αντέδρασε με πτώση στις μετοχές εταιρειών μνήμης, καθώς οι επενδυτές φοβήθηκαν ότι φθηνότερο inference μπορεί να περιορίσει μέρος της μελλοντικής ζήτησης.
- Ο TurboQuant αφορά το inference και όχι την εκπαίδευση μοντέλων, όπου οι ανάγκες σε HBM και υποδομές παραμένουν πολύ μεγάλες.
Η Google Research δημοσίευσε στις 24 Μαρτίου 2026 τον TurboQuant, έναν αλγόριθμο συμπίεσης για την κρυφή μνήμη κλειδιού-τιμής, το γνωστό KV cache, που χρησιμοποιούν τα μεγάλα γλωσσικά μοντέλα κατά το inference. Σύμφωνα με την εταιρεία, ο TurboQuant μειώνει το αποτύπωμα αυτής της μνήμης τουλάχιστον κατά 6x χωρίς απώλεια ακρίβειας στα δικά της benchmarks. Το σχετικό paper έχει προγραμματιστεί να παρουσιαστεί στο ICLR 2026.
Τι ακριβώς βελτιώνει ο TurboQuant
Ο TurboQuant στοχεύει ένα συγκεκριμένο bottleneck. Κατά το inference, τα μοντέλα αποθηκεύουν ενδιάμεσα δεδομένα στο KV cache ώστε να μην επαναϋπολογίζουν τα ίδια βήματα για κάθε νέο token. Όσο μεγαλώνει το context window, αυτή η μνήμη αυξάνεται γρήγορα και τρώει σημαντικό μέρος της διαθέσιμης VRAM.
Η Google αναφέρει ότι ο TurboQuant ποσοτικοποιεί το KV cache στα 3 bits χωρίς να απαιτεί training ή fine-tuning. Η μέθοδος συνδυάζει τα PolarQuant και Quantized Johnson-Lindenstrauss, που η εταιρεία παρουσιάζει ως βασικά δομικά στοιχεία της προσέγγισης. Οι δοκιμές της έγιναν σε ανοικτά μοντέλα όπως Gemma και Mistral, καθώς και σε σύνολα δοκιμών όπως LongBench και Needle In A Haystack.
Το «έως 8x» έχει στενότερο πεδίο από όσο δείχνει ο τίτλος
Το πιο εντυπωσιακό νούμερο της ανακοίνωσης είναι το «έως 8x», αλλά δεν αφορά όλο το inference. Η σύγκριση της Google αφορά τον υπολογισμό attention logits σε Nvidia H100, όταν 4-bit TurboQuant συγκρίνεται με 32-bit unquantized keys.
Αντίστοιχα, το «6x» αφορά το KV cache και όχι συνολικά τη μνήμη συμπερασμού όλου του συστήματος. Είναι ισχυρό αποτέλεσμα, αλλά πιο συγκεκριμένο από όσο αφήνει να εννοηθεί μια γενική διατύπωση περί «μνήμης μοντέλου».
Η αγορά αντέδρασε, αλλά όχι όλοι με τον ίδιο τρόπο
Μετά την ανακοίνωση, μετοχές εταιρειών μνήμης βρέθηκαν υπό πίεση. Αμερικανικές μετοχές όπως της Micron και της Sandisk υποχώρησαν, ενώ η κίνηση επεκτάθηκε και στην Ασία, με απώλειες για SK Hynix, Samsung και Kioxia. Η βασική ανησυχία είναι προφανής, αν το inference χρειάζεται λιγότερη μνήμη, τότε η ζήτηση για ορισμένες κατηγορίες memory chips ίσως να αυξηθεί πιο αργά από όσο προεξοφλούσε η αγορά.
Δεν διάβασαν όλοι την είδηση με τον ίδιο τρόπο. Αναλυτές που επικαλούνται αμερικανικά μέσα σημειώνουν ότι τέτοιες βελτιώσεις λογισμικού δεν μεταφράζονται αυτόματα σε ισόποση μείωση ζήτησης για υλικό. Ο λόγος είναι απλός, η μνήμη είναι μόνο ένα μέρος του κόστους, ενώ τα ίδια τα μοντέλα συνεχίζουν να μεγαλώνουν.
Η εκπαίδευση δεν αλλάζει
Ο TurboQuant αφορά τη φάση του inference, όχι την εκπαίδευση. Αυτό έχει βάρος, γιατί η εκπαίδευση μεγάλων μοντέλων παραμένει η πιο απαιτητική διαδικασία σε μνήμη και εύρος ζώνης και συνεχίζει να στηρίζεται σε μεγάλες ποσότητες HBM μέσα σε GPU clusters.
Γι’ αυτό και η ανακοίνωση δεν αλλάζει άμεσα τη μεγάλη εικόνα για την εκπαίδευση μοντέλων. Μπορεί να μειώσει το κόστος και τη μνήμη στην εκτέλεση, ειδικά σε μεγάλα context windows, αλλά δεν αγγίζει το πιο βαρύ κομμάτι της κατανάλωσης υποδομών.
Τι μένει να επιβεβαιωθεί
Προς το παρόν, τα εντυπωσιακά νούμερα προέρχονται από την ίδια τη Google. Δεν υπάρχει ακόμη ευρεία ανεξάρτητη αξιολόγηση του TurboQuant σε παραγωγικά περιβάλλοντα, ούτε σαφής εικόνα για το πόσο εύκολα μεταφέρεται σε ευρύτερα deployment σενάρια.
Αυτό είναι το βασικό όριο της σημερινής είδησης. Η Google έδειξε μια μέθοδο που χτυπά ένα υπαρκτό bottleneck των μεγάλων γλωσσικών μοντέλων. Το αν θα αλλάξει ουσιαστικά το κόστος και την αρχιτεκτονική του inference θα φανεί όταν δοκιμαστεί έξω από τα εσωτερικά benchmarks της εταιρείας.
Πηγές
- Google Research: TurboQuant, Redefining AI efficiency with extreme compression
- ICLR 2026 / OpenReview: TurboQuant, Online Vector Quantization with Near-optimal Distortion Rate
- The Wall Street Journal: Micron stock slumps after Google unveils new memory technology
- MarketWatch: Micron’s stock is dropping. Is Google partly to blame?
- VentureBeat: Google’s new TurboQuant algorithm speeds up AI memory 8x

Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now