Η Google ανακοινώνει τον TurboQuant για μικρότερο KV cache στα μοντέλα ΤΝ

Από astrolabos

1 ώρα πριν
Από astrolabos • 1 ώρα πριν

Η Google ανακοινώνει τον TurboQuant για μικρότερο KV cache στα μοντέλα ΤΝ

Followers 2
Η Google Research παρουσίασε στις 24 Μαρτίου τον TurboQuant, αλγόριθμο που μειώνει τουλάχιστον κατά 6x τη μνήμη KV cache των μεγάλων γλωσσικών μοντέλων, χωρίς απώλεια ακρίβειας στα δικά της τεστ.

Η αγορά αντέδρασε με πτώση στις μετοχές εταιρειών μνήμης, καθώς οι επενδυτές φοβήθηκαν ότι φθηνότερο inference μπορεί να περιορίσει μέρος της μελλοντικής ζήτησης.

Ο TurboQuant αφορά το inference και όχι την εκπαίδευση μοντέλων, όπου οι ανάγκες σε HBM και υποδομές παραμένουν πολύ μεγάλες.

Η Google Research δημοσίευσε στις 24 Μαρτίου 2026 τον TurboQuant, έναν αλγόριθμο συμπίεσης για την κρυφή μνήμη κλειδιού-τιμής, το γνωστό KV cache, που χρησιμοποιούν τα μεγάλα γλωσσικά μοντέλα κατά το inference. Σύμφωνα με την εταιρεία, ο TurboQuant μειώνει το αποτύπωμα αυτής της μνήμης τουλάχιστον κατά 6x χωρίς απώλεια ακρίβειας στα δικά της benchmarks. Το σχετικό paper έχει προγραμματιστεί να παρουσιαστεί στο ICLR 2026.

Τι ακριβώς βελτιώνει ο TurboQuant

Ο TurboQuant στοχεύει ένα συγκεκριμένο bottleneck. Κατά το inference, τα μοντέλα αποθηκεύουν ενδιάμεσα δεδομένα στο KV cache ώστε να μην επαναϋπολογίζουν τα ίδια βήματα για κάθε νέο token. Όσο μεγαλώνει το context window, αυτή η μνήμη αυξάνεται γρήγορα και τρώει σημαντικό μέρος της διαθέσιμης VRAM.

Η Google αναφέρει ότι ο TurboQuant ποσοτικοποιεί το KV cache στα 3 bits χωρίς να απαιτεί training ή fine-tuning. Η μέθοδος συνδυάζει τα PolarQuant και Quantized Johnson-Lindenstrauss, που η εταιρεία παρουσιάζει ως βασικά δομικά στοιχεία της προσέγγισης. Οι δοκιμές της έγιναν σε ανοικτά μοντέλα όπως Gemma και Mistral, καθώς και σε σύνολα δοκιμών όπως LongBench και Needle In A Haystack.

Το «έως 8x» έχει στενότερο πεδίο από όσο δείχνει ο τίτλος

Το πιο εντυπωσιακό νούμερο της ανακοίνωσης είναι το «έως 8x», αλλά δεν αφορά όλο το inference. Η σύγκριση της Google αφορά τον υπολογισμό attention logits σε Nvidia H100, όταν 4-bit TurboQuant συγκρίνεται με 32-bit unquantized keys.

Αντίστοιχα, το «6x» αφορά το KV cache και όχι συνολικά τη μνήμη συμπερασμού όλου του συστήματος. Είναι ισχυρό αποτέλεσμα, αλλά πιο συγκεκριμένο από όσο αφήνει να εννοηθεί μια γενική διατύπωση περί «μνήμης μοντέλου».

Η αγορά αντέδρασε, αλλά όχι όλοι με τον ίδιο τρόπο

Μετά την ανακοίνωση, μετοχές εταιρειών μνήμης βρέθηκαν υπό πίεση. Αμερικανικές μετοχές όπως της Micron και της Sandisk υποχώρησαν, ενώ η κίνηση επεκτάθηκε και στην Ασία, με απώλειες για SK Hynix, Samsung και Kioxia. Η βασική ανησυχία είναι προφανής, αν το inference χρειάζεται λιγότερη μνήμη, τότε η ζήτηση για ορισμένες κατηγορίες memory chips ίσως να αυξηθεί πιο αργά από όσο προεξοφλούσε η αγορά.

Δεν διάβασαν όλοι την είδηση με τον ίδιο τρόπο. Αναλυτές που επικαλούνται αμερικανικά μέσα σημειώνουν ότι τέτοιες βελτιώσεις λογισμικού δεν μεταφράζονται αυτόματα σε ισόποση μείωση ζήτησης για υλικό. Ο λόγος είναι απλός, η μνήμη είναι μόνο ένα μέρος του κόστους, ενώ τα ίδια τα μοντέλα συνεχίζουν να μεγαλώνουν.

Η εκπαίδευση δεν αλλάζει

Ο TurboQuant αφορά τη φάση του inference, όχι την εκπαίδευση. Αυτό έχει βάρος, γιατί η εκπαίδευση μεγάλων μοντέλων παραμένει η πιο απαιτητική διαδικασία σε μνήμη και εύρος ζώνης και συνεχίζει να στηρίζεται σε μεγάλες ποσότητες HBM μέσα σε GPU clusters.

Γι’ αυτό και η ανακοίνωση δεν αλλάζει άμεσα τη μεγάλη εικόνα για την εκπαίδευση μοντέλων. Μπορεί να μειώσει το κόστος και τη μνήμη στην εκτέλεση, ειδικά σε μεγάλα context windows, αλλά δεν αγγίζει το πιο βαρύ κομμάτι της κατανάλωσης υποδομών.

Τι μένει να επιβεβαιωθεί

Προς το παρόν, τα εντυπωσιακά νούμερα προέρχονται από την ίδια τη Google. Δεν υπάρχει ακόμη ευρεία ανεξάρτητη αξιολόγηση του TurboQuant σε παραγωγικά περιβάλλοντα, ούτε σαφής εικόνα για το πόσο εύκολα μεταφέρεται σε ευρύτερα deployment σενάρια.

Αυτό είναι το βασικό όριο της σημερινής είδησης. Η Google έδειξε μια μέθοδο που χτυπά ένα υπαρκτό bottleneck των μεγάλων γλωσσικών μοντέλων. Το αν θα αλλάξει ουσιαστικά το κόστος και την αρχιτεκτονική του inference θα φανεί όταν δοκιμαστεί έξω από τα εσωτερικά benchmarks της εταιρείας.

Πηγές

Google Research: TurboQuant, Redefining AI efficiency with extreme compression

ICLR 2026 / OpenReview: TurboQuant, Online Vector Quantization with Near-optimal Distortion Rate

The Wall Street Journal: Micron stock slumps after Google unveils new memory technology

MarketWatch: Micron’s stock is dropping. Is Google partly to blame?

VentureBeat: Google’s new TurboQuant algorithm speeds up AI memory 8x
google

kv cache

turboquant

τεχνητή νοημοσύνη
1
Κοινοποίηση
https://www.thelab.gr/news/%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7/%CE%B7-google-%CE%B1%CE%BD%CE%B1%CE%BA%CE%BF%CE%B9%CE%BD%CF%8E%CE%BD%CE%B5%CE%B9-%CF%84%CE%BF%CE%BD-turboquant-%CE%B3%CE%B9%CE%B1-%CE%BC%CE%B9%CE%BA%CF%81%CF%8C%CF%84%CE%B5%CF%81%CE%BF-kv-cache-%CF%83%CF%84%CE%B1-%CE%BC%CE%BF%CE%BD%CF%84%CE%AD%CE%BB%CE%B1-%CF%84%CE%BD-r11394/
Followers 2
Ακολουθήστε το TheLab στο Viber για να λαμβάνετε πρώτοι όλες τις τεχνολογικές μας ειδήσεις καθώς και τις τελευταίες μας κριτικές προϊόντων.

Go to ειδήσεις

User Feedback
0 Comments
Recommended Comments

There are no comments to display.

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!
Register a new account

Sign in

Already have an account? Sign in here.
Sign In Now

Similar Content
- Ανοικτό λογισμικό, ελλιπής στήριξη, γιατί οι maintainers πιέζονται όλο και περισσότερο
  
  By astrolabos, 2 ώρες πριν
  - anthropic
  - aws
  - (και 9 επιπλέον)
    
    Tagged with:
    
    anthropic
    
    aws
    
    github
    
    google
    
    linux foundation
    
    maintainer
    
    microsoft
    
    openai
    
    open source
    
    ανοικτό λογισμικό
    
    στήριξη
  - 0 comments
  - 145 views
- Πρώτο μεγάλο ρήγμα για τις πλατφόρμες κοινωνικής δικτύωσης, ετυμηγορία ενόρκων συνδέει τον σχεδιασμό τους με βλάβη ανήλικης χρήστριας
  
  By astrolabos, Παρασκευή at 07:18 μμ
  - google
  - instagram
  - (και 6 επιπλέον)
    
    Tagged with:
    
    google
    
    instagram
    
    meta
    
    youtube
    
    δικαστήριο
    
    δικαστική διαμάχη
    
    εθισμός
    
    κοινωνική δικτύωση
  - 0 comments
  - 270 views
- Γιατί Samsung και SK hynix δεν επιταχύνουν την παραγωγή DRAM παρά την έκρηξη της ζήτησης από AI
  
  By astrolabos, Τετάρτη at 11:41 πμ
  - dram
  - dram chips
  - (και 5 επιπλέον)
    
    Tagged with:
    
    dram
    
    dram chips
    
    dram crisis
    
    dram prices
    
    samsung
    
    sk hynix
    
    τεχνητή νοημοσύνη
  - 1 comment
  - 587 views
- Η Sony επιβεβαιώνει μελλοντική χρήση frame generation με τεχνητή νοημοσύνη στο PlayStation
  
  By astrolabos, Μάρτιος 23
  - amd
  - frame generation
  - (και 6 επιπλέον)
    
    Tagged with:
    
    amd
    
    frame generation
    
    playstation
    
    ps4
    
    ps5
    
    pssr
    
    sony
    
    τεχνητή νοημοσύνη
  - 1 comment
  - 535 views
- Η Google εισάγει το «vibe design» και ανανεώνει ριζικά το Stitch
  
  By astrolabos, Μάρτιος 19
  - google
  - google labs
  - (και 5 επιπλέον)
    
    Tagged with:
    
    google
    
    google labs
    
    stitch
    
    vibe design
    
    wireframe
    
    καμβάς
    
    τεχνητή νοημοσύνη
  - 0 comments
  - 914 views

Sign In

Η Google ανακοινώνει τον TurboQuant για μικρότερο KV cache στα μοντέλα ΤΝ

Τι ακριβώς βελτιώνει ο TurboQuant

Το «έως 8x» έχει στενότερο πεδίο από όσο δείχνει ο τίτλος

Η αγορά αντέδρασε, αλλά όχι όλοι με τον ίδιο τρόπο

Η εκπαίδευση δεν αλλάζει

Τι μένει να επιβεβαιωθεί

Πηγές

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Ανοικτό λογισμικό, ελλιπής στήριξη, γιατί οι maintainers πιέζονται όλο και περισσότερο

Πρώτο μεγάλο ρήγμα για τις πλατφόρμες κοινωνικής δικτύωσης, ετυμηγορία ενόρκων συνδέει τον σχεδιασμό τους με βλάβη ανήλικης χρήστριας

Γιατί Samsung και SK hynix δεν επιταχύνουν την παραγωγή DRAM παρά την έκρηξη της ζήτησης από AI

Η Sony επιβεβαιώνει μελλοντική χρήση frame generation με τεχνητή νοημοσύνη στο PlayStation

Η Google εισάγει το «vibe design» και ανανεώνει ριζικά το Stitch

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information