Jump to content
  • astrolabos
    astrolabos

    Google TurboQuant: Ο αλγόριθμος που τρόμαξε τη βιομηχανία μνήμης, και ο ερευνητής πίσω από αυτόν έμεινε άναυδος

    • Η Google δημοσίευσε στις 24 Μαρτίου 2026 τον αλγόριθμο TurboQuant, που σύμφωνα με τους ερευνητές μειώνει την κατανάλωση μνήμης KV cache κατά τουλάχιστον 6x κατά το inference, χωρίς απώλεια ακρίβειας.
    • Οι μετοχές της Samsung, SK Hynix, Micron και SanDisk κατέρρευσαν μέσα σε 48 ώρες, εξαφανίζοντας πάνω από 100 δισεκατομμύρια δολάρια σε κεφαλαιοποίηση, σε αυτό που αναλυτές χαρακτηρίζουν ως υπεραντίδραση της αγοράς.
    • Αναλυτές και ο ίδιος ο ερευνητής της Google τονίζουν ότι το TurboQuant στοχεύει αποκλειστικά τη μνήμη inference και δεν αγγίζει το training ή τον persistent αποθηκευτικό χώρο, ενώ το Jevons Paradox μπορεί τελικά να αυξήσει τη ζήτηση για μνήμη.

    Στις 24 Μαρτίου 2026, η Google Research δημοσίευσε blog post με τίτλο "TurboQuant: Redefining AI Efficiency with Extreme Compression", παρουσιάζοντας έναν αλγόριθμο συμπίεσης μνήμης για μοντέλα AI. Το TurboQuant είναι ουσιαστικά μέθοδος συμπίεσης δεδομένων που χρησιμοποιούνται σε generative AI από υψηλότερες σε χαμηλότερες ακρίβειες (quantization), με αξίωση μείωσης κατανάλωσης μνήμης κατά το inference κατά τουλάχιστον 6x. Σύμφωνα με τα όσα ανέφερε ο ίδιος ο ερευνητής της Google, δεν φανταζόταν ότι μια τεχνολογία που ξεκίνησε από το ακαδημαϊκό ερώτημα «πώς μπορούμε να συμπιέσουμε δεδομένα πιο τέλεια;» θα προκαλούσε τέτοια κοινωνική και οικονομική αντίδραση.

    Τι κάνει το TurboQuant

    Σε αντίθεση με τις περισσότερες μεθόδους quantization, το TurboQuant δεν συρρικνώνει το μοντέλο. Αντίθετα, στοχεύει στη μείωση της μνήμης που απαιτείται για την αποθήκευση των KV caches που διατηρούν το context κατά τη διάρκεια του LLM inference. Ο KV cache λειτουργεί σαν η βραχυπρόθεσμη μνήμη του μοντέλου: κατά τη διάρκεια μιας συνομιλίας, αποθηκεύει το ιστορικό της αλληλεπίδρασης. Το πρόβλημα είναι ότι αυτοί οι caches συσσωρεύονται γρήγορα, καταναλώνοντας συχνά περισσότερη μνήμη από το ίδιο το μοντέλο.

    Το TurboQuant επιτυγχάνει αυτό συνδυάζοντας δύο μαθηματικές προσεγγίσεις: Quantized Johnson-Lindenstrauss (QJL) και PolarQuant. Το PolarQuant αντιστοιχίζει ζεύγη συντεταγμένων σε πολικό σύστημα, εκφράζοντάς τα ως ακτίνα και γωνία. Επειδή η κατανομή γωνιών είναι προβλέψιμη, η μέθοδος εξαλείφει το βήμα κανονικοποίησης και το overhead που αυτό δημιουργεί. Το QJL επεξεργάζεται το υπολειπόμενο σφάλμα: χρησιμοποιώντας τον μετασχηματισμό Johnson-Lindenstrauss, μειώνει κάθε τιμή σε ένα bit πρόσημου (θετικό ή αρνητικό), χωρίς πρόσθετο overhead μνήμης. Σύμφωνα με την Google, επιτυγχάνεται ποιότητα παρόμοια με BF16 χρησιμοποιώντας μόλις 3,5 bits, ενώ σε 4 bits αναφέρεται speedup έως 8x σε H100 GPUs κατά τον υπολογισμό attention logits. Σημαντικό χαρακτηριστικό είναι ότι το TurboQuant είναι training-free και data-oblivious, σύμφωνα με τη Google.

    Κατάρρευση μετοχών και πανικός στην αγορά

    Ένα blog post της Google για τη συμπίεση μνήμης AI έγινε viral και μέσα σε 48 ώρες η κεφαλαιοποίηση των εταιρειών ημιαγωγών μνήμης εξαφανίστηκε κατά πάνω από 100 δισεκατομμύρια δολάρια. Η Samsung έπεσε κοντά στο 5%, η SK Hynix πάνω από 6%, η Micron έχασε σχεδόν 7% και η SanDisk βούλιαξε 11%. Ακόμα και η NVIDIA, που ενεργά κατασκευάζει εργαλεία quantization και της οποίας η αρχιτεκτονική Blackwell είναι βελτιστοποιημένη ακριβώς για τον τύπο υπολογισμών χαμηλής ακρίβειας που επιτρέπει το TurboQuant, έπεσε 6,6%.

    Ο επικεφαλής της Cloudflare, Matthew Prince, αποκάλεσε τον νέο αλγόριθμο «Google's DeepSeek», παραλληλίζοντάς τον με το κινεζικό μοντέλο που είχε αναστατώσει τις αγορές στις αρχές του 2025. Το sell-off εκτεινόταν πέρα από επαγγελματικούς επενδυτές, προκαλώντας πανικό σε retailers και ακόμα και σε scalpers RAM, που θεώρησαν ότι έφτασε τέλος στον πληθωρισμό των τιμών DRAM. Χαρακτηριστικό της αναταραχής είναι ότι στο sell-off συμπαρασύρθηκε η SanDisk, η οποία κατασκευάζει NAND flash αποθήκευση (δηλαδή persistent storage για datasets και model checkpoints), τα οποία δεν αγγίζει ποτέ ο KV cache, που υπάρχει μόνο στη volatile μνήμη GPU και εξαφανίζεται μόλις τελειώσει μια συνεδρία.

    Γιατί οι αναλυτές θεωρούν ότι η αγορά έκανε λάθος

    Σύμφωνα με αναλυτή της Samsung Securities, Lee Jong-wook, «υπήρξαν προσπάθειες βελτίωσης AI μοντέλων για βελτιστοποίηση χρήσης chip, αλλά τα πιο αποδοτικά μοντέλα τείνουν να μειώνουν το συνολικό κόστος και, με τη σειρά τους, να οδηγούν σε μεγαλύτερη ζήτηση για AI computing. Αντί να μειώνουν τη ζήτηση ημιαγωγών, τέτοια βελτιστοποιημένα μοντέλα χρησιμοποιούνται για την παροχή υπηρεσιών AI υψηλότερης απόδοσης με τους ίδιους πόρους chip.» Αναλυτής της Hana Securities, Kim Rok-ho, σημείωσε ότι οι τεχνολογίες συμπίεσης δεν είναι καινούργιες, και παραμένει αβέβαιο αν θα υιοθετηθούν ευρέως. Ακόμα και αν γίνουν πιο διαδεδομένες σε βάθος χρόνου, θα μειώσουν τα εμπόδια κόστους μνήμης, διευρύνοντας τη συνολική χρήση AI.

    Σε report της TrendForce, προβλέπεται ότι το TurboQuant θα πυροδοτήσει ζήτηση για long-context εφαρμογές που θα οδηγήσουν σε μεγαλύτερη ζήτηση για μνήμη, αντί να τη μειώσουν. Το ιστορικό πρότυπο στον υπολογιστικό κλάδο είναι αξιοσημείωτα συνεπές: όταν κάτι γίνεται πιο αποδοτικό, οι άνθρωποι δεν το χρησιμοποιούν λιγότερο, αλλά περισσότερο. Οι οικονομολόγοι το αποκαλούν Jevons Paradox και έχει επαληθευτεί επανειλημμένα με αποθήκευση, υπολογιστική ισχύ και bandwidth τις τελευταίες δεκαετίες. Το TurboQuant θα μπορούσε να επιτρέψει σε έναν inference provider να τα βγάλει πέρα με λιγότερη μνήμη, ή να σερβίρει μοντέλα με μεγαλύτερα context windows, και δεδομένης της ζήτησης από code assistants και agentic frameworks για μεγαλύτερα context windows, το δεύτερο φαίνεται πιο πιθανό.

    Τα πραγματικά όρια του TurboQuant

    Ένα μοντέλο 70 δισεκατομμυρίων παραμέτρων απαιτεί ακριβώς την ίδια HBM μνήμη μετά το TurboQuant όπως και πριν. Η τεχνολογία δεν επηρεάζει το training. Δεν έχει καμία επίδραση στη ζήτηση NAND flash. Επιπλέον, σύμφωνα με αναλυτές της Seoul Economic Daily, το headline figure πιθανότατα υπερεκτιμά το πραγματικό κέρδος: τα περισσότερα production inference συστήματα τρέχουν ήδη σε 8-bit precision, όχι στο FP32 baseline που χρησιμοποίησε η Google για τα benchmarks της, οπότε το πραγματικό κέρδος είναι πιο κοντά σε 2,6x. Η Google επίσης δεν έχει δημοσιεύσει κάποιο πλάνο ανάπτυξης προϊόντος.

    Η βιομηχανία μνήμης βίωσε ένα rollercoaster ride τις τελευταίες εβδομάδες λόγω του TurboQuant, αλλά η ιδέα ότι οι ελλείψεις τελείωσαν αντιμετωπίζεται ως «παρανόηση» σύμφωνα με πρόσφατη αναφορά των Financial Times. Στο Q1 revenue report της Samsung, η εταιρεία παρουσίασε έσοδα έως 37 δισεκατομμύρια δολάρια από το DRAM segment μόνο, ενώ η τιμολόγηση DRAM contracts αναμένεται να ανέβει στα επόμενα τρίμηνα και η μνήμη εισέρχεται σε φάση στην οποία καμία οντότητα του AI κόσμου δεν μπορεί να επιβιώσει χωρίς αυτή.

    Πηγές


×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.