- Η Google δημοσίευσε στις 24 Μαρτίου 2026 τον αλγόριθμο TurboQuant, που σύμφωνα με τους ερευνητές μειώνει την κατανάλωση μνήμης KV cache κατά τουλάχιστον 6x κατά το inference, χωρίς απώλεια ακρίβειας.
- Οι μετοχές της Samsung, SK Hynix, Micron και SanDisk κατέρρευσαν μέσα σε 48 ώρες, εξαφανίζοντας πάνω από 100 δισεκατομμύρια δολάρια σε κεφαλαιοποίηση, σε αυτό που αναλυτές χαρακτηρίζουν ως υπεραντίδραση της αγοράς.
- Αναλυτές και ο ίδιος ο ερευνητής της Google τονίζουν ότι το TurboQuant στοχεύει αποκλειστικά τη μνήμη inference και δεν αγγίζει το training ή τον persistent αποθηκευτικό χώρο, ενώ το Jevons Paradox μπορεί τελικά να αυξήσει τη ζήτηση για μνήμη.
Στις 24 Μαρτίου 2026, η Google Research δημοσίευσε blog post με τίτλο "TurboQuant: Redefining AI Efficiency with Extreme Compression", παρουσιάζοντας έναν αλγόριθμο συμπίεσης μνήμης για μοντέλα AI. Το TurboQuant είναι ουσιαστικά μέθοδος συμπίεσης δεδομένων που χρησιμοποιούνται σε generative AI από υψηλότερες σε χαμηλότερες ακρίβειες (quantization), με αξίωση μείωσης κατανάλωσης μνήμης κατά το inference κατά τουλάχιστον 6x. Σύμφωνα με τα όσα ανέφερε ο ίδιος ο ερευνητής της Google, δεν φανταζόταν ότι μια τεχνολογία που ξεκίνησε από το ακαδημαϊκό ερώτημα «πώς μπορούμε να συμπιέσουμε δεδομένα πιο τέλεια;» θα προκαλούσε τέτοια κοινωνική και οικονομική αντίδραση.
Τι κάνει το TurboQuant
Σε αντίθεση με τις περισσότερες μεθόδους quantization, το TurboQuant δεν συρρικνώνει το μοντέλο. Αντίθετα, στοχεύει στη μείωση της μνήμης που απαιτείται για την αποθήκευση των KV caches που διατηρούν το context κατά τη διάρκεια του LLM inference. Ο KV cache λειτουργεί σαν η βραχυπρόθεσμη μνήμη του μοντέλου: κατά τη διάρκεια μιας συνομιλίας, αποθηκεύει το ιστορικό της αλληλεπίδρασης. Το πρόβλημα είναι ότι αυτοί οι caches συσσωρεύονται γρήγορα, καταναλώνοντας συχνά περισσότερη μνήμη από το ίδιο το μοντέλο.
Το TurboQuant επιτυγχάνει αυτό συνδυάζοντας δύο μαθηματικές προσεγγίσεις: Quantized Johnson-Lindenstrauss (QJL) και PolarQuant. Το PolarQuant αντιστοιχίζει ζεύγη συντεταγμένων σε πολικό σύστημα, εκφράζοντάς τα ως ακτίνα και γωνία. Επειδή η κατανομή γωνιών είναι προβλέψιμη, η μέθοδος εξαλείφει το βήμα κανονικοποίησης και το overhead που αυτό δημιουργεί. Το QJL επεξεργάζεται το υπολειπόμενο σφάλμα: χρησιμοποιώντας τον μετασχηματισμό Johnson-Lindenstrauss, μειώνει κάθε τιμή σε ένα bit πρόσημου (θετικό ή αρνητικό), χωρίς πρόσθετο overhead μνήμης. Σύμφωνα με την Google, επιτυγχάνεται ποιότητα παρόμοια με BF16 χρησιμοποιώντας μόλις 3,5 bits, ενώ σε 4 bits αναφέρεται speedup έως 8x σε H100 GPUs κατά τον υπολογισμό attention logits. Σημαντικό χαρακτηριστικό είναι ότι το TurboQuant είναι training-free και data-oblivious, σύμφωνα με τη Google.
Κατάρρευση μετοχών και πανικός στην αγορά
Ένα blog post της Google για τη συμπίεση μνήμης AI έγινε viral και μέσα σε 48 ώρες η κεφαλαιοποίηση των εταιρειών ημιαγωγών μνήμης εξαφανίστηκε κατά πάνω από 100 δισεκατομμύρια δολάρια. Η Samsung έπεσε κοντά στο 5%, η SK Hynix πάνω από 6%, η Micron έχασε σχεδόν 7% και η SanDisk βούλιαξε 11%. Ακόμα και η NVIDIA, που ενεργά κατασκευάζει εργαλεία quantization και της οποίας η αρχιτεκτονική Blackwell είναι βελτιστοποιημένη ακριβώς για τον τύπο υπολογισμών χαμηλής ακρίβειας που επιτρέπει το TurboQuant, έπεσε 6,6%.
Ο επικεφαλής της Cloudflare, Matthew Prince, αποκάλεσε τον νέο αλγόριθμο «Google's DeepSeek», παραλληλίζοντάς τον με το κινεζικό μοντέλο που είχε αναστατώσει τις αγορές στις αρχές του 2025. Το sell-off εκτεινόταν πέρα από επαγγελματικούς επενδυτές, προκαλώντας πανικό σε retailers και ακόμα και σε scalpers RAM, που θεώρησαν ότι έφτασε τέλος στον πληθωρισμό των τιμών DRAM. Χαρακτηριστικό της αναταραχής είναι ότι στο sell-off συμπαρασύρθηκε η SanDisk, η οποία κατασκευάζει NAND flash αποθήκευση (δηλαδή persistent storage για datasets και model checkpoints), τα οποία δεν αγγίζει ποτέ ο KV cache, που υπάρχει μόνο στη volatile μνήμη GPU και εξαφανίζεται μόλις τελειώσει μια συνεδρία.
Γιατί οι αναλυτές θεωρούν ότι η αγορά έκανε λάθος
Σύμφωνα με αναλυτή της Samsung Securities, Lee Jong-wook, «υπήρξαν προσπάθειες βελτίωσης AI μοντέλων για βελτιστοποίηση χρήσης chip, αλλά τα πιο αποδοτικά μοντέλα τείνουν να μειώνουν το συνολικό κόστος και, με τη σειρά τους, να οδηγούν σε μεγαλύτερη ζήτηση για AI computing. Αντί να μειώνουν τη ζήτηση ημιαγωγών, τέτοια βελτιστοποιημένα μοντέλα χρησιμοποιούνται για την παροχή υπηρεσιών AI υψηλότερης απόδοσης με τους ίδιους πόρους chip.» Αναλυτής της Hana Securities, Kim Rok-ho, σημείωσε ότι οι τεχνολογίες συμπίεσης δεν είναι καινούργιες, και παραμένει αβέβαιο αν θα υιοθετηθούν ευρέως. Ακόμα και αν γίνουν πιο διαδεδομένες σε βάθος χρόνου, θα μειώσουν τα εμπόδια κόστους μνήμης, διευρύνοντας τη συνολική χρήση AI.
Σε report της TrendForce, προβλέπεται ότι το TurboQuant θα πυροδοτήσει ζήτηση για long-context εφαρμογές που θα οδηγήσουν σε μεγαλύτερη ζήτηση για μνήμη, αντί να τη μειώσουν. Το ιστορικό πρότυπο στον υπολογιστικό κλάδο είναι αξιοσημείωτα συνεπές: όταν κάτι γίνεται πιο αποδοτικό, οι άνθρωποι δεν το χρησιμοποιούν λιγότερο, αλλά περισσότερο. Οι οικονομολόγοι το αποκαλούν Jevons Paradox και έχει επαληθευτεί επανειλημμένα με αποθήκευση, υπολογιστική ισχύ και bandwidth τις τελευταίες δεκαετίες. Το TurboQuant θα μπορούσε να επιτρέψει σε έναν inference provider να τα βγάλει πέρα με λιγότερη μνήμη, ή να σερβίρει μοντέλα με μεγαλύτερα context windows, και δεδομένης της ζήτησης από code assistants και agentic frameworks για μεγαλύτερα context windows, το δεύτερο φαίνεται πιο πιθανό.
Τα πραγματικά όρια του TurboQuant
Ένα μοντέλο 70 δισεκατομμυρίων παραμέτρων απαιτεί ακριβώς την ίδια HBM μνήμη μετά το TurboQuant όπως και πριν. Η τεχνολογία δεν επηρεάζει το training. Δεν έχει καμία επίδραση στη ζήτηση NAND flash. Επιπλέον, σύμφωνα με αναλυτές της Seoul Economic Daily, το headline figure πιθανότατα υπερεκτιμά το πραγματικό κέρδος: τα περισσότερα production inference συστήματα τρέχουν ήδη σε 8-bit precision, όχι στο FP32 baseline που χρησιμοποίησε η Google για τα benchmarks της, οπότε το πραγματικό κέρδος είναι πιο κοντά σε 2,6x. Η Google επίσης δεν έχει δημοσιεύσει κάποιο πλάνο ανάπτυξης προϊόντος.
Η βιομηχανία μνήμης βίωσε ένα rollercoaster ride τις τελευταίες εβδομάδες λόγω του TurboQuant, αλλά η ιδέα ότι οι ελλείψεις τελείωσαν αντιμετωπίζεται ως «παρανόηση» σύμφωνα με πρόσφατη αναφορά των Financial Times. Στο Q1 revenue report της Samsung, η εταιρεία παρουσίασε έσοδα έως 37 δισεκατομμύρια δολάρια από το DRAM segment μόνο, ενώ η τιμολόγηση DRAM contracts αναμένεται να ανέβει στα επόμενα τρίμηνα και η μνήμη εισέρχεται σε φάση στην οποία καμία οντότητα του AI κόσμου δεν μπορεί να επιβιώσει χωρίς αυτή.
Πηγές
- WCCFTech: Google's TurboQuant Made The Memory Industry Fear The Boom Was Over
- The Register: TurboQuant is a big deal, but it won't end the memory crunch
- Quartz: Google's TurboQuant breakthrough is rattling memory chip stocks
- TechCrunch: Google unveils TurboQuant, a new AI memory compression algorithm
- TechRadar: Analysts say Google's TurboQuant tech won't solve the RAM crisis
- VentureBeat: Google's new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50%
- Decoding Discontinuity: TurboQuant and the Memory Stock Sell-Off
- Google Research Blog: TurboQuant: Redefining AI efficiency with extreme compression

Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now