Train-to-Test Scaling: Πώς να βελτιστοποιήσεις ολόκληρο το AI compute budget από training ως inference

Από Newsbot

Απρίλιος 19
Από Newsbot • Απρίλιος 19

Train-to-Test Scaling: Πώς να βελτιστοποιήσεις ολόκληρο το AI compute budget από training ως inference

Followers 0
Ερευνητές από University of Wisconsin-Madison και Stanford εισήγαγαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα μέγεθος μοντέλου, όγκο training data και test-time inference budget.

Το πλαίσιο αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα, εξοικονομώντας compute για repeated sampling κατά το inference.

Ο κανόνας Chinchilla που ορίζει ~20 training tokens ανά parameter θεωρείται ανεπαρκής όταν το inference cost μπαίνει στην εξίσωση.

Ερευνητές από το University of Wisconsin-Madison και το Stanford University παρουσίασαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα το μέγεθος parameters ενός μοντέλου, τον όγκο των training data και τον αριθμό των test-time inference samples. Το paper δημοσιεύθηκε στις 17 Απριλίου 2026 και επιχειρεί να λύσει ένα πρόβλημα που απασχολεί την κοινότητα από τότε που το test-time compute ανεδείχθη ως βασικός μοχλός βελτίωσης απόδοσης LLM.

Το πρόβλημα: training και inference μιλούν διαφορετικές γλώσσες

Τα υπάρχοντα guidelines για την κατασκευή LLM βελτιστοποιούν μόνο για training costs, αγνοώντας πλήρως το inference cost. Αυτό σημαίνει ότι δεν υπήρχε μέχρι τώρα κάποιος τύπος που να βελτιστοποιεί από κοινού μέγεθος μοντέλου, όγκο training data και test-time inference budget, καθώς pretraining και test-time scaling μιλούν δύο διαφορετικές μαθηματικές γλώσσες. Κατά το pretraining, η απόδοση ενός μοντέλου μετράται με "loss", μια ομαλή και συνεχή μετρική, ενώ κατά το test time οι developers χρησιμοποιούν real-world metrics όπως το pass@k, που μετρά την πιθανότητα το μοντέλο να παράγει τουλάχιστον μία σωστή απάντηση σε k ανεξάρτητες προσπάθειες.

Οι pretraining scaling laws ορίζουν τον βέλτιστο τρόπο κατανομής compute κατά τη δημιουργία ενός μοντέλου, ενώ οι test-time scaling laws καθοδηγούν την κατανομή compute κατά το deployment, όπως το "extended thinking" ή η παραγωγή πολλαπλών reasoning samples. Ωστόσο, αυτά τα δύο σώματα γνώσης αναπτύχθηκαν εντελώς ανεξάρτητα, παρόλο που είναι θεμελιωδώς συνδεδεμένα.

T2 Scaling Laws: τρεις μεταβλητές σε μία εξίσωση

Για να γεφυρωθεί αυτό το χάσμα, οι ερευνητές εισάγουν τους Train-to-Test (T2) scaling laws. Σε υψηλό επίπεδο, το framework αυτό προβλέπει την απόδοση reasoning ενός μοντέλου αντιμετωπίζοντας τρεις μεταβλητές ως μία ενιαία εξίσωση: το μέγεθος του μοντέλου (N), τον όγκο των training tokens (D) και τον αριθμό των inference samples. Στην πράξη, η προσέγγισή τους αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα από ό,τι τα παραδοσιακά πρότυπα ορίζουν, και έπειτα να χρησιμοποιείς την εξοικονομηθείσα υπολογιστική επιβάρυνση για να παράγεις επαναλαμβανόμενα samples κατά το inference.

Το σημερινό industry standard για το pretraining είναι ο κανόνας Chinchilla, που υποδηλώνει έναν compute-optimal λόγο περίπου 20 training tokens για κάθε model parameter. Ωστόσο, δημιουργοί σύγχρονων οικογενειών μοντέλων, όπως τα Llama, Gemma και Qwen, σπάνε κανονικά αυτόν τον κανόνα εκπαιδεύοντας σκόπιμα τα μικρότερα μοντέλα τους σε τεράστιες ποσότητες δεδομένων. Οι T2 scaling laws δίνουν τώρα θεωρητική βάση σε αυτή την πρακτική, επεκτείνοντάς την ώστε να συμπεριλαμβάνει και το inference budget.

Agentic workflows και το κόστος του repeated sampling

Όπως δήλωσε ο Nicholas Roberts, συν-συγγραφέας του paper, στο VentureBeat, η παραδοσιακή προσέγγιση αποτυγχάνει στην κατασκευή σύνθετων agentic workflows: "Κατά τη γνώμη μου, το inference stack καταρρέει όταν κάθε μεμονωμένη inference κλήση είναι ακριβή. Αυτό συμβαίνει όταν τα μοντέλα είναι μεγάλα και χρειάζεται να κάνεις πολύ repeated sampling." Αντί να βασίζονται σε τεράστια μοντέλα, οι developers μπορούν να χρησιμοποιούν overtrained compact μοντέλα για να εκτελέσουν αυτό το repeated sampling σε ένα κλάσμα του κόστους. Αυτό είναι ιδιαίτερα κρίσιμο δεδομένου ότι, σύμφωνα με ανάλυση της Gartner τον Μάρτιο του 2026, τα agentic AI μοντέλα απαιτούν 5-30x περισσότερα tokens ανά task σε σχέση με τα standard chatbots.

Το inference-time scaling, γνωστό και ως test-time compute (TTC), σημαίνει ότι αποκτάς καλύτερες απαντήσεις δαπανώντας περισσότερο compute τη στιγμή που τίθεται η ερώτηση, αντί να εκπαιδεύεις ένα μεγαλύτερο μοντέλο. Πρακτικά, αφήνεις το μοντέλο να "σκεφτεί" περισσότερο, να δοκιμάσει περισσότερες υποψήφιες λύσεις ή να επαληθεύσει τα αποτελέσματά του πριν παράγει την τελική έξοδο. Αυτή η λογική αντικαθιστά την προσέγγιση "train a bigger model" ως κύρια μέθοδο βελτίωσης LLM, με μοντέλα όπως τα o1, o3 και DeepSeek R1 να κερδίζουν χάρη στο extended thinking κατά το inference, όχι στην αύξηση parameters.

Πρακτικές συνέπειες για enterprise AI

Για enterprise developers που εκπαιδεύουν τα δικά τους μοντέλα, η έρευνα παρέχει ένα αποδεδειγμένο blueprint για τη μεγιστοποίηση της απόδοσης της επένδυσης. Αποδεικνύει ότι το AI reasoning δεν απαιτεί κατ' ανάγκη τεράστιες δαπάνες σε frontier μοντέλα. Αντ' αυτού, μικρότερα μοντέλα μπορούν να αποδώσουν καλύτερα σε σύνθετα tasks, διατηρώντας παράλληλα διαχειρίσιμα τα per-query inference costs εντός πραγματικών deployment budgets. Το εύρημα αυτό έχει άμεσο αντίκτυπο σε μια αγορά όπου, σύμφωνα με την Deloitte, τα inference workloads θα αντιπροσωπεύουν περίπου τα δύο τρίτα του συνολικού AI compute το 2026, με την αγορά για inference-optimized chips να αναμένεται να ξεπεράσει τα 50 δισ. δολάρια.

Αξίζει να σημειωθεί ότι το T2 framework δεν έχει ακόμα αξιολογηθεί εκτενώς από ανεξάρτητες ομάδες, και τα αποτελέσματα αφορούν κυρίως reasoning tasks. Το trade-off μεταξύ test-time compute και pretraining compute ισχύει για εύκολα και μεσαία προβλήματα, ενώ για πολύ δύσκολα προβλήματα το pretraining παραμένει πιθανώς πιο αποτελεσματικό. Επιπλέον, έρευνα στον τομέα της ιατρικής reasoning εντόπισε ένα optimal reasoning token budget περίπου στα 4K tokens, πέραν του οποίου η απόδοση μπορεί να υποβαθμιστεί λόγω "overthinking".

Πηγές

VentureBeat: Train-to-Test scaling explained

SambaNova: AI Is No Longer About Training Bigger Models — It's About Inference at Scale

Deloitte Insights: More compute for AI, not less

BuildML: Test-Time Compute Scaling — A Practical Guide for LLM & Agentic System Builders

Jon Vet: Scaling LLM Test Time Compute

Oplexa: AI Inference Cost Crisis 2026
ai

inference

llm

scaling laws

test-time compute
Κοινοποίηση
https://www.thelab.gr/news/%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7/train-to-test-scaling-%CF%80%CF%8E%CF%82-%CE%BD%CE%B1-%CE%B2%CE%B5%CE%BB%CF%84%CE%B9%CF%83%CF%84%CE%BF%CF%80%CE%BF%CE%B9%CE%AE%CF%83%CE%B5%CE%B9%CF%82-%CE%BF%CE%BB%CF%8C%CE%BA%CE%BB%CE%B7%CF%81%CE%BF-%CF%84%CE%BF-ai-compute-budget-%CE%B1%CF%80%CF%8C-training-%CF%89%CF%82-inference-r11522/
Followers 0
Ακολουθήστε το TheLab στο Viber για να λαμβάνετε πρώτοι όλες τις τεχνολογικές μας ειδήσεις καθώς και τις τελευταίες μας κριτικές προϊόντων.

TheLab Weekly Digest

Άρθρα, reviews και ό,τι κινήθηκε στο forum. Κάθε Κυριακή.

Go to ειδήσεις

User Feedback
0 Comments
Recommended Comments

There are no comments to display.

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!
Register a new account

Sign in

Already have an account? Sign in here.
Sign In Now

Similar Content
- Ο CEO της TSMC προειδοποιεί: «Θα περάσει πολύς καιρός μέχρι να καλύψουμε τη ζήτηση»
  
  By Newsbot, Πέμπτη at 05:03 μμ
  - ai
  - chip manufacturing
  - (και 3 επιπλέον)
    
    Tagged with:
    
    ai
    
    chip manufacturing
    
    semiconductors
    
    tech industry
    
    tsmc
  - 0 comments
  - 323 views
- Η Goldman Sachs προειδοποιεί: οι AI agents θα πολλαπλασιάσουν 24 φορές τη ζήτηση — και Uber και Microsoft ήδη «καίγονται»
  
  By Newsbot, Μάϊος 28
  - ai
  - ai agents
  - (και 3 επιπλέον)
    
    Tagged with:
    
    ai
    
    ai agents
    
    goldman sachs
    
    microsoft
    
    tech industry
  - 3 comments
  - 640 views
- Tau Scaling Law: το σχέδιο της Huawei για τσιπ ισοδύναμα με 1,4 nm χωρίς EUV
  
  By Newsbot, Μάϊος 25
  - ai
  - hardware
  - (και 3 επιπλέον)
    
    Tagged with:
    
    ai
    
    hardware
    
    huawei
    
    sanctions
    
    semiconductors
  - 0 comments
  - 562 views
- Το AI βρίσκει κενά ασφαλείας στον πυρήνα Linux πιο γρήγορα από ό,τι μπορούν να επιδιορθωθούν
  
  By Newsbot, Μάϊος 24
  - ai
  - kernel
  - (και 3 επιπλέον)
    
    Tagged with:
    
    ai
    
    kernel
    
    linux
    
    privilege escalation
    
    security
  - 0 comments
  - 452 views
- Memory Godboxes και CXL: η λύση στην κρίση DRAM του AI
  
  By Newsbot, Μάϊος 10
  - ai
  - cxl
  - (και 3 επιπλέον)
    
    Tagged with:
    
    ai
    
    cxl
    
    datacenter
    
    dram
    
    memory
  - 0 comments
  - 509 views

Sign In

Train-to-Test Scaling: Πώς να βελτιστοποιήσεις ολόκληρο το AI compute budget από training ως inference

Το πρόβλημα: training και inference μιλούν διαφορετικές γλώσσες

T2 Scaling Laws: τρεις μεταβλητές σε μία εξίσωση

Agentic workflows και το κόστος του repeated sampling

Πρακτικές συνέπειες για enterprise AI

Πηγές

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Ο CEO της TSMC προειδοποιεί: «Θα περάσει πολύς καιρός μέχρι να καλύψουμε τη ζήτηση»

Η Goldman Sachs προειδοποιεί: οι AI agents θα πολλαπλασιάσουν 24 φορές τη ζήτηση — και Uber και Microsoft ήδη «καίγονται»

Tau Scaling Law: το σχέδιο της Huawei για τσιπ ισοδύναμα με 1,4 nm χωρίς EUV

Το AI βρίσκει κενά ασφαλείας στον πυρήνα Linux πιο γρήγορα από ό,τι μπορούν να επιδιορθωθούν

Memory Godboxes και CXL: η λύση στην κρίση DRAM του AI

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information

Sign In

Train-to-Test Scaling: Πώς να βελτιστοποιήσεις ολόκληρο το AI compute budget από training ως inference

Το πρόβλημα: training και inference μιλούν διαφορετικές γλώσσες

T2 Scaling Laws: τρεις μεταβλητές σε μία εξίσωση

Agentic workflows και το κόστος του repeated sampling

Πρακτικές συνέπειες για enterprise AI

Πηγές

TheLab Weekly Digest

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Important Information