- Ερευνητές από University of Wisconsin-Madison και Stanford εισήγαγαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα μέγεθος μοντέλου, όγκο training data και test-time inference budget.
- Το πλαίσιο αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα, εξοικονομώντας compute για repeated sampling κατά το inference.
- Ο κανόνας Chinchilla που ορίζει ~20 training tokens ανά parameter θεωρείται ανεπαρκής όταν το inference cost μπαίνει στην εξίσωση.
Ερευνητές από το University of Wisconsin-Madison και το Stanford University παρουσίασαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα το μέγεθος parameters ενός μοντέλου, τον όγκο των training data και τον αριθμό των test-time inference samples. Το paper δημοσιεύθηκε στις 17 Απριλίου 2026 και επιχειρεί να λύσει ένα πρόβλημα που απασχολεί την κοινότητα από τότε που το test-time compute ανεδείχθη ως βασικός μοχλός βελτίωσης απόδοσης LLM.
Το πρόβλημα: training και inference μιλούν διαφορετικές γλώσσες
Τα υπάρχοντα guidelines για την κατασκευή LLM βελτιστοποιούν μόνο για training costs, αγνοώντας πλήρως το inference cost. Αυτό σημαίνει ότι δεν υπήρχε μέχρι τώρα κάποιος τύπος που να βελτιστοποιεί από κοινού μέγεθος μοντέλου, όγκο training data και test-time inference budget, καθώς pretraining και test-time scaling μιλούν δύο διαφορετικές μαθηματικές γλώσσες. Κατά το pretraining, η απόδοση ενός μοντέλου μετράται με "loss", μια ομαλή και συνεχή μετρική, ενώ κατά το test time οι developers χρησιμοποιούν real-world metrics όπως το pass@k, που μετρά την πιθανότητα το μοντέλο να παράγει τουλάχιστον μία σωστή απάντηση σε k ανεξάρτητες προσπάθειες.
Οι pretraining scaling laws ορίζουν τον βέλτιστο τρόπο κατανομής compute κατά τη δημιουργία ενός μοντέλου, ενώ οι test-time scaling laws καθοδηγούν την κατανομή compute κατά το deployment, όπως το "extended thinking" ή η παραγωγή πολλαπλών reasoning samples. Ωστόσο, αυτά τα δύο σώματα γνώσης αναπτύχθηκαν εντελώς ανεξάρτητα, παρόλο που είναι θεμελιωδώς συνδεδεμένα.
T2 Scaling Laws: τρεις μεταβλητές σε μία εξίσωση
Για να γεφυρωθεί αυτό το χάσμα, οι ερευνητές εισάγουν τους Train-to-Test (T2) scaling laws. Σε υψηλό επίπεδο, το framework αυτό προβλέπει την απόδοση reasoning ενός μοντέλου αντιμετωπίζοντας τρεις μεταβλητές ως μία ενιαία εξίσωση: το μέγεθος του μοντέλου (N), τον όγκο των training tokens (D) και τον αριθμό των inference samples. Στην πράξη, η προσέγγισή τους αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα από ό,τι τα παραδοσιακά πρότυπα ορίζουν, και έπειτα να χρησιμοποιείς την εξοικονομηθείσα υπολογιστική επιβάρυνση για να παράγεις επαναλαμβανόμενα samples κατά το inference.
Το σημερινό industry standard για το pretraining είναι ο κανόνας Chinchilla, που υποδηλώνει έναν compute-optimal λόγο περίπου 20 training tokens για κάθε model parameter. Ωστόσο, δημιουργοί σύγχρονων οικογενειών μοντέλων, όπως τα Llama, Gemma και Qwen, σπάνε κανονικά αυτόν τον κανόνα εκπαιδεύοντας σκόπιμα τα μικρότερα μοντέλα τους σε τεράστιες ποσότητες δεδομένων. Οι T2 scaling laws δίνουν τώρα θεωρητική βάση σε αυτή την πρακτική, επεκτείνοντάς την ώστε να συμπεριλαμβάνει και το inference budget.
Agentic workflows και το κόστος του repeated sampling
Όπως δήλωσε ο Nicholas Roberts, συν-συγγραφέας του paper, στο VentureBeat, η παραδοσιακή προσέγγιση αποτυγχάνει στην κατασκευή σύνθετων agentic workflows: "Κατά τη γνώμη μου, το inference stack καταρρέει όταν κάθε μεμονωμένη inference κλήση είναι ακριβή. Αυτό συμβαίνει όταν τα μοντέλα είναι μεγάλα και χρειάζεται να κάνεις πολύ repeated sampling." Αντί να βασίζονται σε τεράστια μοντέλα, οι developers μπορούν να χρησιμοποιούν overtrained compact μοντέλα για να εκτελέσουν αυτό το repeated sampling σε ένα κλάσμα του κόστους. Αυτό είναι ιδιαίτερα κρίσιμο δεδομένου ότι, σύμφωνα με ανάλυση της Gartner τον Μάρτιο του 2026, τα agentic AI μοντέλα απαιτούν 5-30x περισσότερα tokens ανά task σε σχέση με τα standard chatbots.
Το inference-time scaling, γνωστό και ως test-time compute (TTC), σημαίνει ότι αποκτάς καλύτερες απαντήσεις δαπανώντας περισσότερο compute τη στιγμή που τίθεται η ερώτηση, αντί να εκπαιδεύεις ένα μεγαλύτερο μοντέλο. Πρακτικά, αφήνεις το μοντέλο να "σκεφτεί" περισσότερο, να δοκιμάσει περισσότερες υποψήφιες λύσεις ή να επαληθεύσει τα αποτελέσματά του πριν παράγει την τελική έξοδο. Αυτή η λογική αντικαθιστά την προσέγγιση "train a bigger model" ως κύρια μέθοδο βελτίωσης LLM, με μοντέλα όπως τα o1, o3 και DeepSeek R1 να κερδίζουν χάρη στο extended thinking κατά το inference, όχι στην αύξηση parameters.
Πρακτικές συνέπειες για enterprise AI
Για enterprise developers που εκπαιδεύουν τα δικά τους μοντέλα, η έρευνα παρέχει ένα αποδεδειγμένο blueprint για τη μεγιστοποίηση της απόδοσης της επένδυσης. Αποδεικνύει ότι το AI reasoning δεν απαιτεί κατ' ανάγκη τεράστιες δαπάνες σε frontier μοντέλα. Αντ' αυτού, μικρότερα μοντέλα μπορούν να αποδώσουν καλύτερα σε σύνθετα tasks, διατηρώντας παράλληλα διαχειρίσιμα τα per-query inference costs εντός πραγματικών deployment budgets. Το εύρημα αυτό έχει άμεσο αντίκτυπο σε μια αγορά όπου, σύμφωνα με την Deloitte, τα inference workloads θα αντιπροσωπεύουν περίπου τα δύο τρίτα του συνολικού AI compute το 2026, με την αγορά για inference-optimized chips να αναμένεται να ξεπεράσει τα 50 δισ. δολάρια.
Αξίζει να σημειωθεί ότι το T2 framework δεν έχει ακόμα αξιολογηθεί εκτενώς από ανεξάρτητες ομάδες, και τα αποτελέσματα αφορούν κυρίως reasoning tasks. Το trade-off μεταξύ test-time compute και pretraining compute ισχύει για εύκολα και μεσαία προβλήματα, ενώ για πολύ δύσκολα προβλήματα το pretraining παραμένει πιθανώς πιο αποτελεσματικό. Επιπλέον, έρευνα στον τομέα της ιατρικής reasoning εντόπισε ένα optimal reasoning token budget περίπου στα 4K tokens, πέραν του οποίου η απόδοση μπορεί να υποβαθμιστεί λόγω "overthinking".
Πηγές
- VentureBeat: Train-to-Test scaling explained
- SambaNova: AI Is No Longer About Training Bigger Models — It's About Inference at Scale
- Deloitte Insights: More compute for AI, not less
- BuildML: Test-Time Compute Scaling — A Practical Guide for LLM & Agentic System Builders
- Jon Vet: Scaling LLM Test Time Compute
- Oplexa: AI Inference Cost Crisis 2026

Recommended Comments
There are no comments to display.