Ειδήσεις: Ειδήσεις

Η έλλειψη RAM μπορεί να διαρκέσει χρόνια: πώς η AI "καταπίνει" τη μνήμη του κόσμου

Sun, 19 Apr 2026 17:06:39 +0000

Η ζήτηση για HBM από data centers AI αφαιρεί παραγωγική ικανότητα από consumer DRAM, οδηγώντας σε αυξήσεις τιμών έως 90% σε ένα τρίμηνο.
Samsung, SK Hynix και Micron έχουν δεσμεύσει παραγωγή για χρόνια μπροστά σε hyperscalers, αφήνοντας PCs, smartphones και gaming εκτεθειμένα.
Αναλυτές και κατασκευαστές εκτιμούν ότι η κατάσταση δεν θα ομαλοποιηθεί πριν από το 2027 στην καλύτερη περίπτωση, με ορισμένους να μιλούν για δεκαετή πίεση στη NAND.

Η παγκόσμια αγορά μνήμης βρίσκεται σε βαθιά κρίση που, σύμφωνα με αναλυτές και στελέχη κατασκευαστών, ενδέχεται να παραταθεί για χρόνια. Το φαινόμενο, που έχει αποκτήσει την ανεπίσημη ονομασία "RAMmageddon", αναμένεται να παραταθεί καλά μέσα στο 2027. Η αφορμή είναι η εκρηκτική ζήτηση για μνήμη υψηλής απόδοσης από τα AI data centers, η οποία ανατρέπει τη δομή της παγκόσμιας παραγωγής DRAM.

Το πρόβλημα: ένα zero-sum παιχνίδι wafers

Η βουλιμική ζήτηση για HBM από hyperscalers όπως η Microsoft, η Google, η Meta και η Amazon έχει αναγκάσει τους τρεις μεγαλύτερους κατασκευαστές μνήμης, Samsung Electronics, SK Hynix και Micron Technology, να στρέψουν τον περιορισμένο χώρο cleanroom και τις κεφαλαιουχικές δαπάνες τους προς enterprise-grade components υψηλότερου περιθωρίου κέρδους. Πρόκειται για ένα zero-sum παιχνίδι: κάθε wafer που διατίθεται για ένα HBM stack σε GPU της Nvidia είναι ένα wafer που δεν πηγαίνει σε LPDDR5X module μεσαίου smartphone ή σε SSD consumer laptop.

Το HBM καταναλώνει πλέον το 23% της συνολικής παραγωγής DRAM wafer, από 19% το 2025, σύμφωνα με την TrendForce. Η ζήτηση για HBM εκτιμάται ότι θα αυξηθεί κατά 70% σε ετήσια βάση το 2026, ενώ η παραγωγή ενός bit HBM απαιτεί περίπου 300% περισσότερη χωρητικότητα wafer σε σχέση με DDR5, δημιουργώντας ένα δομικό bottleneck που δεν μπορεί να επιλυθεί γρήγορα με κατασκευή νέων fab. Σύμφωνα με το Northeastern University, ένας μεμονωμένος AI server μπορεί να χρησιμοποιεί τόση προηγμένη μνήμη όση δώδεκα ή ακόμα και εκατοντάδες παραδοσιακά laptops.

Τιμές: άνοδος 80-90% σε ένα τρίμηνο

Οι τιμές της μνήμης έχουν ήδη αυξηθεί κατά περίπου 90% στο πρώτο τρίμηνο του 2026 σε σχέση με το τέταρτο τρίμηνο του 2025, σύμφωνα με την ερευνητική εταιρεία Counterpoint Technology Market Research. Το εύρος της αναταραχής γίνεται πιο ξεκάθαρο με συγκεκριμένα στοιχεία: από τον Σεπτέμβριο ως τον Φεβρουάριο, η τιμή ενός 64GB stick RAM ανέβηκε από τα $250 σε πάνω από $1.000. Τα DDR4 και τα high-density DDR5 modules έχουν δει αυξήσεις 30-40% σε ετήσια βάση, αφού είχαν ήδη αναρριχηθεί κατά 60% το 2025.

Η Micron έχει προπωλήσει σχεδόν όλη την παραγωγή HBM της για το 2026, ενώ τα συμβόλαια που παλαιότερα κάλυπταν ένα τρίμηνο τώρα εκτείνονται σε χρόνια, με hyperscalers να αγοράζουν απευθείας από την πηγή. Αναλυτές που αναφέρονται από το SemiMedia σημειώνουν ότι κατασκευαστές όπως η Samsung και η SK Hynix έχουν υπογράψει multi-year συμβόλαια DRAM προμήθειας που εκτείνονται έως και σε τέσσερα χρόνια, κλειδώνοντας αποτελεσματικά τα αυξημένα επίπεδα τιμολόγησης.

Ποιος πληρώνει: PCs, smartphones, gaming

Κατασκευαστές όπως η Lenovo είχαν βασιστεί στα αποθέματα DRAM για να συγκρατήσουν τις τιμές στην αγορά, ωστόσο, δεδομένου ότι οι ελλείψεις αναμένεται να συνεχιστούν για αρκετά τρίμηνα ακόμα, δεν έχουν άλλη επιλογή από το να αυξήσουν τις τιμές. Η Dell αναφέρεται να σχεδιάζει αυξήσεις που θα ανεβάσουν το κόστος του hardware κατά εκατοντάδες δολάρια. Εταιρείες όπως η ASUS και η Acer έχουν επίσης αναφερθεί να αυξάνουν τις τιμές των PC για να αντιμετωπίσουν τις ελλείψεις μνήμης.

Τα αποτελέσματα φτάνουν ακόμα και σε μικρότερες αγορές. Η Raspberry Pi, που είχε αποθηκεύσει μνήμη κατά τη διάρκεια της ύφεσης, αναγκάστηκε να αυξήσει τις τιμές τον Οκτώβριο του 2025 λόγω του κόστους μνήμης, ενώ σε επίσημη ανακοίνωση ο CEO Eben Upton σημείωσε ότι "η μνήμη κοστίζει περίπου 120% περισσότερο από ό,τι πριν από ένα χρόνο". Σύμφωνα με το Tech Radar, η παράδοση ενός τυπικού Apple M4 Mac Mini, που παλαιότερα ερχόταν σε μία μέρα, μπορεί πλέον να πάρει πέντε εβδομάδες, ή ακόμα και τρεις μήνες αν ο χρήστης ζητήσει περισσότερη RAM, όπως 24GB αντί για 16GB.

Δομική αλλαγή, όχι κυκλική κρίση

Ο καθηγητής ηλεκτρολόγων μηχανικών Matteo Rinaldi του Northeastern University επισημαίνει ότι αυτή η έλλειψη είναι διαφορετικής φύσης από τις ελλείψεις chip που βίωσε η αγορά κατά τη διάρκεια της πανδημίας Covid-19. "Αυτό είναι πιο δομικό", λέει. "Αυτό είναι πραγματικά ένα AI-driven memory demand shock." Το οικονομικό κίνητρο για τους κατασκευαστές μνήμης να δώσουν προτεραιότητα στο AI έναντι των consumer προϊόντων είναι πολύ ισχυρότερο από ό,τι σε προηγούμενες ελλείψεις, επειδή το HBM επιτυγχάνει margins τρεις έως πέντε φορές υψηλότερα από το συμβατικό DRAM. Η τρέχουσα έλλειψη επιδεινώνεται επίσης από χρόνια υποεπένδυσης κατά τη διάρκεια της ύφεσης 2022-2023.

Αυτό δεν είναι απλώς μια κυκλική έλλειψη που οφείλεται σε αναντιστοιχία προσφοράς και ζήτησης, αλλά μια δυνητικά μόνιμη, στρατηγική αναδιανομή της παγκόσμιας χωρητικότητας πυριτίου. Σύμφωνα με τον CEO της Phison Electronics, της μεγαλύτερης εταιρείας NAND controllers της Ταϊβάν, αυτή η ανακατεύθυνση κεφαλαιακών δαπανών θα προκαλέσει στενή προσφορά για, κατά εκτίμησή του, την επόμενη δεκαετία. "Η NAND θα αντιμετωπίσει σοβαρές ελλείψεις τον επόμενο χρόνο. Νομίζω ότι η προσφορά θα είναι σφιχτή για τα επόμενα δέκα χρόνια", δήλωσε σε πρόσφατη συνέντευξη.

Τι αναμένεται στη συνέχεια

Η IDC εκτιμά ότι η αύξηση της προσφοράς DRAM και NAND για το 2026 θα παραμείνει κάτω από τους ιστορικούς κανόνες, στο 16% και 17% σε ετήσια βάση αντίστοιχα. Μια λιγότερο συζητημένη δυνατότητα ανακούφισης της ζήτησης είναι η καθαρά τεχνολογική αλλαγή: AI αρχιτεκτονικές που απαιτούν λιγότερη μνήμη. Αναλυτές αναμένουν να εξακολουθεί να υπάρχει ανοδική πίεση τιμών μέχρι τα μέσα του 2026, πριν υπάρξει πιθανή εξισορρόπηση καθώς νέα fab στη Νότια Κορέα και την Ταϊβάν φτάνουν σε μαζική παραγωγή. Αναλυτές εκτιμούν ότι ο κύκλος ζήτησης μνήμης που οδηγείται από AI θα μπορούσε να διαρκέσει τουλάχιστον τέσσερα χρόνια. Για όσους σκέφτονται αναβάθμιση ή νέο σύστημα, ο CEO του system integrator MAINGEAR Wallace Santos συστήνει να μην περιμένουν, καθώς η κατάσταση αναμένεται να χειροτερέψει περαιτέρω μέσα στο 2026.

Πηγές

Train-to-Test Scaling: Πώς να βελτιστοποιήσεις ολόκληρο το AI compute budget από training ως inference

Sun, 19 Apr 2026 15:03:00 +0000

Ερευνητές από University of Wisconsin-Madison και Stanford εισήγαγαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα μέγεθος μοντέλου, όγκο training data και test-time inference budget.
Το πλαίσιο αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα, εξοικονομώντας compute για repeated sampling κατά το inference.
Ο κανόνας Chinchilla που ορίζει ~20 training tokens ανά parameter θεωρείται ανεπαρκής όταν το inference cost μπαίνει στην εξίσωση.

Ερευνητές από το University of Wisconsin-Madison και το Stanford University παρουσίασαν τους Train-to-Test (T2) scaling laws, ένα framework που βελτιστοποιεί ταυτόχρονα το μέγεθος parameters ενός μοντέλου, τον όγκο των training data και τον αριθμό των test-time inference samples. Το paper δημοσιεύθηκε στις 17 Απριλίου 2026 και επιχειρεί να λύσει ένα πρόβλημα που απασχολεί την κοινότητα από τότε που το test-time compute ανεδείχθη ως βασικός μοχλός βελτίωσης απόδοσης LLM.

Το πρόβλημα: training και inference μιλούν διαφορετικές γλώσσες

Τα υπάρχοντα guidelines για την κατασκευή LLM βελτιστοποιούν μόνο για training costs, αγνοώντας πλήρως το inference cost. Αυτό σημαίνει ότι δεν υπήρχε μέχρι τώρα κάποιος τύπος που να βελτιστοποιεί από κοινού μέγεθος μοντέλου, όγκο training data και test-time inference budget, καθώς pretraining και test-time scaling μιλούν δύο διαφορετικές μαθηματικές γλώσσες. Κατά το pretraining, η απόδοση ενός μοντέλου μετράται με "loss", μια ομαλή και συνεχή μετρική, ενώ κατά το test time οι developers χρησιμοποιούν real-world metrics όπως το pass@k, που μετρά την πιθανότητα το μοντέλο να παράγει τουλάχιστον μία σωστή απάντηση σε k ανεξάρτητες προσπάθειες.

Οι pretraining scaling laws ορίζουν τον βέλτιστο τρόπο κατανομής compute κατά τη δημιουργία ενός μοντέλου, ενώ οι test-time scaling laws καθοδηγούν την κατανομή compute κατά το deployment, όπως το "extended thinking" ή η παραγωγή πολλαπλών reasoning samples. Ωστόσο, αυτά τα δύο σώματα γνώσης αναπτύχθηκαν εντελώς ανεξάρτητα, παρόλο που είναι θεμελιωδώς συνδεδεμένα.

T2 Scaling Laws: τρεις μεταβλητές σε μία εξίσωση

Για να γεφυρωθεί αυτό το χάσμα, οι ερευνητές εισάγουν τους Train-to-Test (T2) scaling laws. Σε υψηλό επίπεδο, το framework αυτό προβλέπει την απόδοση reasoning ενός μοντέλου αντιμετωπίζοντας τρεις μεταβλητές ως μία ενιαία εξίσωση: το μέγεθος του μοντέλου (N), τον όγκο των training tokens (D) και τον αριθμό των inference samples. Στην πράξη, η προσέγγισή τους αποδεικνύει ότι είναι compute-optimal να εκπαιδεύεις σημαντικά μικρότερα μοντέλα σε πολύ περισσότερα δεδομένα από ό,τι τα παραδοσιακά πρότυπα ορίζουν, και έπειτα να χρησιμοποιείς την εξοικονομηθείσα υπολογιστική επιβάρυνση για να παράγεις επαναλαμβανόμενα samples κατά το inference.

Το σημερινό industry standard για το pretraining είναι ο κανόνας Chinchilla, που υποδηλώνει έναν compute-optimal λόγο περίπου 20 training tokens για κάθε model parameter. Ωστόσο, δημιουργοί σύγχρονων οικογενειών μοντέλων, όπως τα Llama, Gemma και Qwen, σπάνε κανονικά αυτόν τον κανόνα εκπαιδεύοντας σκόπιμα τα μικρότερα μοντέλα τους σε τεράστιες ποσότητες δεδομένων. Οι T2 scaling laws δίνουν τώρα θεωρητική βάση σε αυτή την πρακτική, επεκτείνοντάς την ώστε να συμπεριλαμβάνει και το inference budget.

Agentic workflows και το κόστος του repeated sampling

Όπως δήλωσε ο Nicholas Roberts, συν-συγγραφέας του paper, στο VentureBeat, η παραδοσιακή προσέγγιση αποτυγχάνει στην κατασκευή σύνθετων agentic workflows: "Κατά τη γνώμη μου, το inference stack καταρρέει όταν κάθε μεμονωμένη inference κλήση είναι ακριβή. Αυτό συμβαίνει όταν τα μοντέλα είναι μεγάλα και χρειάζεται να κάνεις πολύ repeated sampling." Αντί να βασίζονται σε τεράστια μοντέλα, οι developers μπορούν να χρησιμοποιούν overtrained compact μοντέλα για να εκτελέσουν αυτό το repeated sampling σε ένα κλάσμα του κόστους. Αυτό είναι ιδιαίτερα κρίσιμο δεδομένου ότι, σύμφωνα με ανάλυση της Gartner τον Μάρτιο του 2026, τα agentic AI μοντέλα απαιτούν 5-30x περισσότερα tokens ανά task σε σχέση με τα standard chatbots.

Το inference-time scaling, γνωστό και ως test-time compute (TTC), σημαίνει ότι αποκτάς καλύτερες απαντήσεις δαπανώντας περισσότερο compute τη στιγμή που τίθεται η ερώτηση, αντί να εκπαιδεύεις ένα μεγαλύτερο μοντέλο. Πρακτικά, αφήνεις το μοντέλο να "σκεφτεί" περισσότερο, να δοκιμάσει περισσότερες υποψήφιες λύσεις ή να επαληθεύσει τα αποτελέσματά του πριν παράγει την τελική έξοδο. Αυτή η λογική αντικαθιστά την προσέγγιση "train a bigger model" ως κύρια μέθοδο βελτίωσης LLM, με μοντέλα όπως τα o1, o3 και DeepSeek R1 να κερδίζουν χάρη στο extended thinking κατά το inference, όχι στην αύξηση parameters.

Πρακτικές συνέπειες για enterprise AI

Για enterprise developers που εκπαιδεύουν τα δικά τους μοντέλα, η έρευνα παρέχει ένα αποδεδειγμένο blueprint για τη μεγιστοποίηση της απόδοσης της επένδυσης. Αποδεικνύει ότι το AI reasoning δεν απαιτεί κατ' ανάγκη τεράστιες δαπάνες σε frontier μοντέλα. Αντ' αυτού, μικρότερα μοντέλα μπορούν να αποδώσουν καλύτερα σε σύνθετα tasks, διατηρώντας παράλληλα διαχειρίσιμα τα per-query inference costs εντός πραγματικών deployment budgets. Το εύρημα αυτό έχει άμεσο αντίκτυπο σε μια αγορά όπου, σύμφωνα με την Deloitte, τα inference workloads θα αντιπροσωπεύουν περίπου τα δύο τρίτα του συνολικού AI compute το 2026, με την αγορά για inference-optimized chips να αναμένεται να ξεπεράσει τα 50 δισ. δολάρια.

Αξίζει να σημειωθεί ότι το T2 framework δεν έχει ακόμα αξιολογηθεί εκτενώς από ανεξάρτητες ομάδες, και τα αποτελέσματα αφορούν κυρίως reasoning tasks. Το trade-off μεταξύ test-time compute και pretraining compute ισχύει για εύκολα και μεσαία προβλήματα, ενώ για πολύ δύσκολα προβλήματα το pretraining παραμένει πιθανώς πιο αποτελεσματικό. Επιπλέον, έρευνα στον τομέα της ιατρικής reasoning εντόπισε ένα optimal reasoning token budget περίπου στα 4K tokens, πέραν του οποίου η απόδοση μπορεί να υποβαθμιστεί λόγω "overthinking".

Πηγές

Το Microsoft Fairwater άνοιξε νωρίτερα από το πρόγραμμα: εκατοντάδες χιλιάδες NVIDIA GB200 GPUs σε ένα cluster

Sun, 19 Apr 2026 12:02:04 +0000

Ο CEO της Microsoft Σατία Ναντέλα επιβεβαίωσε στις 16 Απριλίου 2026 ότι το Fairwater datacenter στο Wisconsin τέθηκε σε λειτουργία νωρίτερα από το προγραμματισμένο χρονοδιάγραμμα.
Η εγκατάσταση φιλοξενεί εκατοντάδες χιλιάδες NVIDIA GB200 GPUs βασισμένα στην αρχιτεκτονική Blackwell, ενωμένα σε ένα ενιαίο cluster — η Microsoft ισχυρίζεται 10x απόδοση σε σχέση με τον σημερινό ταχύτερο supercomputer.
Το Fairwater συνδέεται ήδη με δεύτερο site στην Atlanta μέσω dedicated AI WAN, με σχέδια για πρόσθετες εγκαταστάσεις στις ΗΠΑ, Νορβηγία και Ηνωμένο Βασίλειο.

Η Microsoft ανακοίνωσε ότι το Fairwater, η εγκατάσταση AI που η εταιρεία χαρακτηρίζει ως το ισχυρότερο AI datacenter στον κόσμο, τέθηκε σε λειτουργία νωρίτερα από το προγραμματισμένο. Ο CEO Satya Nadella το επιβεβαίωσε με post στο X στις 16 Απριλίου 2026. Το project είχε ανακοινωθεί τον Σεπτέμβριο του 2025 και θα αξιοποιεί εκατοντάδες χιλιάδες NVIDIA GB200 GPUs βασισμένα στην αρχιτεκτονική Blackwell.

Τεχνικά χαρακτηριστικά και υποδομή

Το Fairwater καταλαμβάνει 315 acres και 1,2 εκατομμύριο τετραγωνικά πόδια σε τρία κτίρια στο Mount Pleasant του Wisconsin. Η κατασκευή απαίτησε 46,6 μίλια βαθιών θεμελίων, 26,5 εκατομμύρια λίβρες δομικού χάλυβα, 120 μίλια υπόγειου καλωδίου μέσης τάσης και 72,6 μίλια μηχανικών σωληνώσεων. Το Fairwater περιέχει επαρκές εσωτερικό καλωδίωμα για να τυλίξει τη Γη τέσσερις έως τέσσερις και μισή φορές, που αντιστοιχεί σε 160.000 έως 180.000 χιλιόμετρα fiber σε ένα μόνο campus.

Κάθε rack συγκεντρώνει 72 NVIDIA Blackwell GPUs, συνδεδεμένα σε ένα ενιαίο NVLink domain που παρέχει 1,8 terabytes GPU-to-GPU bandwidth και πρόσβαση σε 14 terabytes pooled memory. Το αποτέλεσμα είναι ότι το rack λειτουργεί ως ένας ενιαίος τεράστιος επιταχυντής, ικανός να επεξεργάζεται 865.000 tokens ανά δευτερόλεπτο, το υψηλότερο throughput που διαθέτει οποιαδήποτε cloud πλατφόρμα σήμερα, σύμφωνα με τη Microsoft. Η εταιρεία ισχυρίζεται ότι το campus θα αποδίδει έως 10 φορές την απόδοση των σημερινών ταχύτερων supercomputers, σχεδιασμένο αποκλειστικά για training μοντέλων αιχμής.

Αρχιτεκτονική και cooling

Σε αντίθεση με τα περισσότερα datacenters, το Fairwater υιοθετεί διώροφο σχεδιασμό, γεγονός που επιτρέπει στη Microsoft να συμπυκνώσει περισσότερη υπολογιστική ισχύ σε μικρότερο αποτύπωμα, μειώνοντας το latency. Το σύστημα ψύξης είναι ενσωματωμένο εξαρχής στη δομή: το Fairwater υποστηρίζεται από το δεύτερο μεγαλύτερο water-cooled chiller plant στον πλανήτη, με κλειστό κύκλωμα που διοχετεύει το θερμό νερό σε cooling fins εκατέρωθεν του κτιρίου, όπου 172 ανεμιστήρες των 20 ποδιών το ψύχουν ξανά. Πάνω από το 90% της χωρητικότητας χρησιμοποιεί αυτό το σύστημα, με το νερό να τροφοδοτείται μία φορά κατά την κατασκευή και να ανακυκλώνεται χωρίς εξάτμιση. Το υπόλοιπο 10% των παραδοσιακών servers χρησιμοποιεί αέρα για ψύξη, στρεφόμενο σε νερό μόνο κατά τις θερμότερες ημέρες.

Ενέργεια και επενδύσεις

Σύμφωνα με state filings, η συνολική επένδυση της Microsoft στο Wisconsin ανέρχεται σε 7,3 δισεκατομμύρια δολάρια, με την ισχύ αιχμής του Phase 1 να εκτιμάται κοντά στα 400 MW και τη συνολική χωρητικότητα του campus να πλησιάζει τα 900 MW. Για την κάλυψη των ενεργειακών αναγκών, η Microsoft δηλώνει ότι θα χρησιμοποιεί ανανεώσιμες πηγές. Η εταιρεία δεσμεύεται να αντισταθμίσει κάθε κατανάλωση από ορυκτά καύσιμα 1 προς 1 με νέα παραγωγή χωρίς άνθρακα, συμπεριλαμβανομένης συμφωνίας αγοράς ηλιακής ενέργειας 250 MW στην Portage County. Η Microsoft έχει επίσης δηλώσει ότι θα αποτρέψει την άνοδο των τιμών ρεύματος για τις γειτονικές κοινότητες, προπληρώνοντας για ενέργεια και ηλεκτρική υποδομή.

Το Fairwater ως δίκτυο, όχι μεμονωμένη εγκατάσταση

Τα Fairwater datacenters είναι άμεσα συνδεδεμένα μεταξύ τους, και τελικά με άλλα υπό κατασκευή σε όλες τις ΗΠΑ, μέσω ενός νέου τύπου dedicated δικτύου που επιτρέπει στα δεδομένα να ρέουν εξαιρετικά γρήγορα. Αυτό δίνει τη δυνατότητα σε sites σε διαφορετικές πολιτείες να συνεργάζονται ως AI superfactory για training νέων γενεών μοντέλων σε εβδομάδες αντί για μήνες. Το δίκτυο θα συνδέει πολλαπλά sites με εκατοντάδες χιλιάδες GPUs, exabytes αποθήκευσης και εκατομμύρια CPU cores, που συνεργάζονται για να υποστηρίξουν την OpenAI, τη Microsoft AI Superintelligence Team, τις Copilot δυνατότητες και άλλα workloads. Η εταιρεία έχει ήδη αναπτύξει 120.000 μίλια dedicated fiber για το δίκτυο, αυξάνοντας το συνολικό μήκος κατά πάνω από 25% σε έναν χρόνο.

Για το μέλλον, η Microsoft έχει ήδη ορίσει πολλαπλές τοποθεσίες σε 70+ περιοχές όπου θα κατασκευαστούν εγκαταστάσεις πανομοιότυπες με το Fairwater σε θέσεις ανά τις ΗΠΑ, πέρα από τα 100 datacenters που λειτουργούν ήδη. Στην Ευρώπη, η Microsoft επεκτείνει το ίδιο αρχιτεκτονικό μοντέλο: στο Loughton του Ηνωμένου Βασιλείου, μέσα στο πλαίσιο επένδυσης 30 δισεκατομμυρίων δολαρίων, θα κατασκευαστεί ο μεγαλύτερος supercomputer της χώρας με πάνω από 23.000 NVIDIA GPUs, ενώ στο Narvik της Νορβηγίας η εταιρεία επενδύει 6,2 δισεκατομμύρια δολάρια για campus υδροηλεκτρικής ενέργειας.

Πηγές

RTX PRO 6000 96GB: Ισάξιο τεσσάρων RTX 5090 σε μοντέλο 230B, με το ένα τέταρτο της κατανάλωσης

Sun, 19 Apr 2026 08:02:04 +0000

Το RTX PRO 6000 Blackwell με 96GB VRAM αντιστοιχίζεται σε τέσσερα RTX 5090 σε AI inference μοντέλου 230B παραμέτρων, καταναλώνοντας περίπου το ένα τέταρτο της ισχύος.
Η κάρτα βασίζεται στο die GB202 με 24.064 CUDA cores, 96GB GDDR7 ECC και TDP 600W, στοχεύοντας επαγγελματικά workstation για παραγωγικές AI workloads.
Για μοντέλα που χωρούν σε single-GPU, ανταγωνίζεται ακόμα και το H100 SXM σε throughput, στο ένα τρίτο του κόστους, αλλά υστερεί σε multi-GPU tensor parallelism λόγω απουσίας NVLink.

Η NVIDIA παρουσίασε benchmark data για το RTX PRO 6000 Blackwell που καταδεικνύουν εντυπωσιακή αποτελεσματικότητα σε AI inference μεγάλης κλίμακας: σύμφωνα με δοκιμές που αναφέρει το WCCFTech στις 19 Απριλίου 2026, το single-GPU workstation card ισοφαρίζει τέσσερα RTX 5090 σε μοντέλο 230 δισεκατομμυρίων παραμέτρων, ενώ καταναλώνει περίπου το ένα τέταρτο της συνολικής τους ισχύος. Τα αποτελέσματα αυτά αφορούν σενάριο μοντέλου που εκμεταλλεύεται πλήρως τα 96GB VRAM της κάρτας, όπου η ανάγκη κατανομής σε πολλαπλές κάρτες μέσω PCIe δημιουργεί overhead για τις RTX 5090.

Specs και αρχιτεκτονική

Το RTX PRO 6000 φέρει πλήρες GB202 die με 24.064 CUDA cores, 752 fifth-gen Tensor Cores, 188 fourth-gen RT Cores και 96GB GDDR7 ECC, με τιμή στα $8.500. Η βασική διαφορά μεταξύ PRO 6000 και RTX 5090, πέραν της χωρητικότητας VRAM (96GB έναντι 32GB), είναι ο ίδιος ο GPU: το PRO 6000 διαθέτει 24.064 CUDA cores έναντι 21.760 του 5090, αύξηση σχεδόν 11%. Η μνήμη έχει bandwidth 1.792 GB/s μέσω 512-bit bus. Η Standard Workstation Edition χρησιμοποιεί dual-fan, dual-slot ανοιχτό σύστημα ψύξης με συνολικό TDP 600W, τροφοδοτούμενο μέσω ενός 16-pin PCIe 5.0 connector.

Το πλεονέκτημα VRAM σε μεγάλα AI μοντέλα

Το κρίσιμο σημείο είναι η χωρητικότητα VRAM σε σχέση με το μέγεθος του μοντέλου. Για μοντέλα άνω των 96GB, το RTX PRO 6000 αναδεικνύεται ως σαφής νικητής παρά το υψηλότερο ωριαίο κόστος, χάρη στην εξάλειψη του PCIe overhead. Σε multi-GPU setup με RTX 5090, το μοντέλο κατανέμεται σε τέσσερις κάρτες που επικοινωνούν μεταξύ τους μέσω PCIe, με αποτέλεσμα σημαντικό latency bottleneck. Το RTX PRO 6000 είναι το πρώτο desktop GPU που φορτώνει μοντέλα 70B παραμέτρων σε Q8 quantization, ποιότητα που προηγουμένως απαιτούσε datacenter hardware ή πολύπλοκα multi-GPU setups.

Σε benchmark με μοντέλο που χωρά σε 96GB, 4x RTX 5090 πέτυχαν 12.744 tokens/s ως καλύτερη απόλυτη απόδοση, ενώ 1x PRO 6000 έφτασε τα 8.425 tokens/s, δηλαδή 1,8x ταχύτερο από ένα μόνο RTX 5090 (4.570 tokens/s) και 3,7x ταχύτερο από ένα RTX 4090. Σε μοντέλο 230B παραμέτρων, όπου τα 4x RTX 5090 υποφέρουν από το PCIe overhead της tensor parallelism, η ισορροπία αποδόσεων μετατοπίζεται, σύμφωνα με το WCCFTech, υπέρ της single-card λύσης.

Σύγκριση με datacenter hardware

Σε μοντέλα που χωρούν σε single card, το PRO 6000 ισοφαρίζει ή ξεπερνά το H100 SXM στο ένα τρίτο του κόστους. Το H100 ξεπερνά το PRO 6000 μόνο όταν απαιτείται multi-GPU tensor parallelism, όπου το NVLink (900 GB/s) αφήνει πίσω του το PCIe (128 GB/s) του PRO 6000. Το RTX PRO 6000 Blackwell υποστηρίζει NVLink 5 με 1.800 GB/s bidirectional bandwidth σε 2-GPU configuration. Για tensor-parallel training και inference σε μοντέλα 30B+, αυτό το bandwidth gap σημαίνει διαφορά μεταξύ 85%+ GPU utilization και 20-40% GPU utilization.

Το PRO 6000 τοποθετείται μεταξύ consumer και datacenter: 3x VRAM του RTX 5090 σε 3x τιμή, με αντίστοιχο bandwidth. Σε single-GPU workloads ισοφαρίζει το H100 throughput στο ένα τρίτο του κόστους. Με 96GB, η κάρτα μπορεί να θεωρηθεί εναλλακτική του H100, και στο ένα τρίτο του κόστους του H200.

ECC, drivers και επαγγελματικά χαρακτηριστικά

Το GB202 die στον πυρήνα του RTX PRO 6000 είναι το ίδιο φυσικό silicon με το consumer RTX 5090, αλλά ρυθμισμένο και επικυρωμένο για επαγγελματική workstation χρήση. Η διαφοροποίηση έγκειται στη μνήμη ECC, στους certified professional drivers, στην επικύρωση software vendor και στο workstation-specific firmware, που επηρεάζουν αξιοπιστία, συμβατότητα και support. Για AI training jobs που τρέχουν για ώρες, pipelines ιατρικής απεικόνισης όπου η ακρίβεια αποτελέσματος έχει επιπτώσεις στην ασφάλεια ασθενών, και financial modeling όπου μια corrupted floating point πράξη παράγει λάθος αποτέλεσμα, η ECC VRAM δεν είναι προαιρετική. Το RTX PRO 6000 φέρει επίσημες ISV certifications από Autodesk, Adobe, Dassault και SolidWorks.

Περιορισμοί και προϋποθέσεις εγκατάστασης

Η αρχιτεκτονική Blackwell προσφέρει σημαντική αύξηση σε computing resources έναντι της Ada, αλλά το πιο αξιοσημείωτο στοιχείο είναι η κατανάλωση ισχύος: ενώ οι προηγούμενες top-end κάρτες μέγγιζαν τα 300W, η RTX Pro 6000 Blackwell Workstation Edition έχει TDP 600W. Κανένας χρήστης δεν πρέπει να υποθέτει ότι το GPU θα χωρέσει σε οποιοδήποτε σύστημα: απαιτούνται full-size towers με επαρκές τροφοδοτικό, και ακόμη τότε ο αγοραστής πρέπει να επαληθεύσει ότι το workstation μπορεί να ανταπεξέλθει. Κατά τις δοκιμές στο StorageReview, το σύστημα με RTX PRO 6000 εμφάνισε μέση κατανάλωση 918,5W υπό συνεχές φορτίο, με peak στα 1.036,3W. Παράλληλα, για tensor parallelism (κατανομή ενός μεγάλου μοντέλου σε πολλά GPUs) το PCIe bottleneck είναι πραγματικό: benchmarks έδειξαν 8x RTX Pro 6000 να φτάνουν μόλις το ένα τρίτο του throughput 8x H100 SXM σε μοντέλα που απαιτούν 8-way tensor parallelism.

Πηγές

Ring Familiar Faces: Το AI facial recognition στην πόρτα σου και οι σοβαρές επιπτώσεις για την ιδιωτικότητα

Fri, 17 Apr 2026 04:03:05 +0000

Η Amazon κύλησε το Familiar Faces, σύστημα AI facial recognition για Ring doorbells, με δυνατότητα αναγνώρισης έως 50 προσώπων, απαιτώντας συνδρομή Ring AI Pro.
Το σύστημα σκανάρει σε πραγματικό χρόνο κάθε πρόσωπο που εμφανίζεται στο οπτικό πεδίο της κάμερας, ακόμα και χωρίς τη συναίνεση παρευρισκομένων.
Το feature είναι ήδη μπλοκαρισμένο σε Illinois, Texas και Portland, Oregon λόγω νόμων βιομετρικής ιδιωτικότητας, ενώ γερουσιαστές και η EFF ζητούν την πλήρη κατάργησή του.

Η Amazon ξεκίνησε τη διανομή του Familiar Faces, νέου AI-powered facial recognition feature για τα Ring video doorbells, στις ΗΠΑ. Το feature χρησιμοποιεί AI-powered facial recognition για να σκανάρει και να αναγνωρίζει πρόσωπα που εμφανίζονται μπροστά σε συμβατή κάμερα Ring, επιτρέποντας στους ιδιοκτήτες να "ετικετάρουν" συγκεκριμένα άτομα, όπως φίλους, μέλη της οικογένειας ή άλλους γνωστούς επισκέπτες. Αυτή είναι η πρώτη φορά που η Ring ενσωματώνει facial recognition σε consumer hardware.

Πώς λειτουργεί το Familiar Faces

Σύμφωνα με την Amazon, το feature επιτρέπει τη δημιουργία καταλόγου με έως 50 πρόσωπα, που μπορεί να περιλαμβάνει μέλη της οικογένειας, φίλους, γείτονες, ταχυδρόμους και οικιακό προσωπικό. Τα πρόσωπα μπορούν να ονοματιστούν απευθείας από το Event History ή από τη νέα βιβλιοθήκη Familiar Faces, και μόλις λάβουν ετικέτα, το όνομά τους εμφανίζεται σε όλες τις ειδοποιήσεις, στο timeline της εφαρμογής και στο Event History. Αντί για γενική ειδοποίηση κίνησης, ο χρήστης λαμβάνει εξατομικευμένη ειδοποίηση του τύπου "Mom at Front Door", με σκοπό τη μείωση του notification fatigue. Η Amazon αναφέρει ότι οι ειδοποιήσεις μπορούν να ρυθμιστούν ανά πρόσωπο.

Το feature απαιτεί συνδρομή Ring AI Pro ή Ring Trial. Είναι απενεργοποιημένο by default και πρέπει να ενεργοποιηθεί χειροκίνητα από τον χρήστη για κάθε συσκευή. Μόνο ο κάτοχος του λογαριασμού Ring μπορεί να το ρυθμίσει και να το διαχειριστεί. Η Amazon ισχυρίζεται ότι τα δεδομένα προσώπων είναι κρυπτογραφημένα και δεν μοιράζονται με τρίτους, ενώ τα απονομάτιστα πρόσωπα διαγράφονται αυτόματα μετά από 30 ημέρες.

Το πρόβλημα της συναίνεσης των τρίτων

Το κεντρικό ζήτημα που θέτουν οι ειδικοί προστασίας δεδομένων δεν αφορά τον ιδιοκτήτη της συσκευής, αλλά όλους τους υπόλοιπους. Το πρόβλημα "bystander consent" έγκειται στο γεγονός ότι, σε αντίθεση με παραδοσιακά συστήματα ασφαλείας που απλώς καταγράφουν βίντεο, το Familiar Faces σκανάρει ενεργά σε πραγματικό χρόνο κάθε πρόσωπο που εισέρχεται στο οπτικό του πεδίο, δημιουργώντας ψηφιακό "faceprint". Αυτό περιλαμβάνει ταχυδρόμους, γείτονες που κάνουν βόλτα τον σκύλο τους και παιδιά που παίζουν στο πεζοδρόμιο, κανένας από τους οποίους δεν έχει συναινέσει στην επεξεργασία των βιομετρικών δεδομένων του από τους servers της Amazon.

Σε απάντηση επιστολής του γερουσιαστή Ed Markey, η Amazon αποκάλυψε ότι οι πολιτικές προστασίας απορρήτου του Ring ισχύουν μόνο για τους ιδιοκτήτες της συσκευής και όχι για το ευρύ κοινό, ενώ το Ring δεν διαθέτει πολιτικές για τη λήψη συναίνεσης από τα άτομα που υπόκεινται στο FRT. Αυτό είναι ιδιαίτερα προβληματικό για τους διανομείς δεμάτων, οι οποίοι ενδέχεται να έχουν σκαναριστεί και αποθηκευτεί σε Ring κάθε φορά που παραδίδουν ένα πακέτο, χωρίς συναίνεση ή ρήτρες ασφαλείας.

Νομικές αντιδράσεις και γεωγραφικοί αποκλεισμοί

Το Familiar Faces δεν είναι διαθέσιμο σε χρήστες στο Illinois, Texas και Portland, Oregon, ούτε σε Καναδούς πελάτες στο Quebec, λόγω ειδικής νομοθεσίας. Αυτές οι πολιτείες διαθέτουν νόμους βιομετρικής ιδιωτικότητας που απαιτούν ρητή συναίνεση πριν από τη σάρωση προσώπου. Ενδεικτικό προηγούμενο: η Google κατέβαλε διακανονισμό 1.375 δισ. δολαρίων το 2024 στο Texas, επειδή κάμερες Nest φέρεται να "σκάναραν αδιακρίτως τη γεωμετρία προσώπου οποιουδήποτε Τεξανού" εμφανιζόταν στην κάμερα.

Ο γερουσιαστής Edward J. Markey (D-Mass.) έστειλε επιστολή στον CEO της Amazon Andrew Jassy, ζητώντας την κατάργηση του Familiar Faces, μετά τη δημόσια αντίδραση που προκάλεσε η διαφήμιση του Ring στο Super Bowl. Ο EFF staff attorney Mario Trujillo δήλωσε: "Όταν βρίσκεσαι μπροστά σε μία από αυτές τις κάμερες, το faceprint σου λαμβάνεται και αποθηκεύεται στους servers της Amazon, συναινέσεις ή όχι. Το σημερινό feature για αναγνώριση του φίλου σου μπροστά στην πόρτα μπορεί εύκολα να χρησιμοποιηθεί αύριο για μαζική παρακολούθηση."

Ιστορικό και σχέσεις με αρχές επιβολής νόμου

Η ανησυχία για το Familiar Faces δεν εμφανίζεται εκ του μηδενός. Η εταιρεία έχει ιστορικό συνεργασίας με αρχές επιβολής νόμου, έχοντας παλαιότερα δώσει σε αστυνομία και πυροσβεστική τη δυνατότητα να ζητούν υλικό από το Ring Neighbors app, ενώ πιο πρόσφατα συνεργάστηκε με την Flock, κατασκευαστή AI-powered καμερών παρακολούθησης που χρησιμοποιείται από αστυνομικές δυνάμεις. Το 2023, η FTC επέβαλε πρόστιμο 5,8 εκατ. δολαρίων στη Ring αφού διαπίστωσε ότι υπάλληλοι και συνεργάτες είχαν ευρεία και χωρίς περιορισμούς πρόσβαση στα βίντεο των χρηστών για χρόνια.

Η EFF έχει επίσης εκφράσει ανησυχία ότι το feature θα μπορούσε να χρησιμοποιηθεί για μαζική παρακολούθηση, επισημαίνοντας ότι το "Search Party" feature, σχεδιασμένο για τον εντοπισμό χαμένων κατοικίδιων μέσω δικτύου γειτονικών καμερών, θα μπορούσε εξίσου εύκολα να χρησιμοποιηθεί

Google TurboQuant: Ο αλγόριθμος που τρόμαξε τη βιομηχανία μνήμης, και ο ερευνητής πίσω από αυτόν έμεινε άναυδος

Mon, 13 Apr 2026 09:53:03 +0000

Η Google δημοσίευσε στις 24 Μαρτίου 2026 τον αλγόριθμο TurboQuant, που σύμφωνα με τους ερευνητές μειώνει την κατανάλωση μνήμης KV cache κατά τουλάχιστον 6x κατά το inference, χωρίς απώλεια ακρίβειας.
Οι μετοχές της Samsung, SK Hynix, Micron και SanDisk κατέρρευσαν μέσα σε 48 ώρες, εξαφανίζοντας πάνω από 100 δισεκατομμύρια δολάρια σε κεφαλαιοποίηση, σε αυτό που αναλυτές χαρακτηρίζουν ως υπεραντίδραση της αγοράς.
Αναλυτές και ο ίδιος ο ερευνητής της Google τονίζουν ότι το TurboQuant στοχεύει αποκλειστικά τη μνήμη inference και δεν αγγίζει το training ή τον persistent αποθηκευτικό χώρο, ενώ το Jevons Paradox μπορεί τελικά να αυξήσει τη ζήτηση για μνήμη.

Στις 24 Μαρτίου 2026, η Google Research δημοσίευσε blog post με τίτλο "TurboQuant: Redefining AI Efficiency with Extreme Compression", παρουσιάζοντας έναν αλγόριθμο συμπίεσης μνήμης για μοντέλα AI. Το TurboQuant είναι ουσιαστικά μέθοδος συμπίεσης δεδομένων που χρησιμοποιούνται σε generative AI από υψηλότερες σε χαμηλότερες ακρίβειες (quantization), με αξίωση μείωσης κατανάλωσης μνήμης κατά το inference κατά τουλάχιστον 6x. Σύμφωνα με τα όσα ανέφερε ο ίδιος ο ερευνητής της Google, δεν φανταζόταν ότι μια τεχνολογία που ξεκίνησε από το ακαδημαϊκό ερώτημα «πώς μπορούμε να συμπιέσουμε δεδομένα πιο τέλεια;» θα προκαλούσε τέτοια κοινωνική και οικονομική αντίδραση.

Τι κάνει το TurboQuant

Σε αντίθεση με τις περισσότερες μεθόδους quantization, το TurboQuant δεν συρρικνώνει το μοντέλο. Αντίθετα, στοχεύει στη μείωση της μνήμης που απαιτείται για την αποθήκευση των KV caches που διατηρούν το context κατά τη διάρκεια του LLM inference. Ο KV cache λειτουργεί σαν η βραχυπρόθεσμη μνήμη του μοντέλου: κατά τη διάρκεια μιας συνομιλίας, αποθηκεύει το ιστορικό της αλληλεπίδρασης. Το πρόβλημα είναι ότι αυτοί οι caches συσσωρεύονται γρήγορα, καταναλώνοντας συχνά περισσότερη μνήμη από το ίδιο το μοντέλο.

Το TurboQuant επιτυγχάνει αυτό συνδυάζοντας δύο μαθηματικές προσεγγίσεις: Quantized Johnson-Lindenstrauss (QJL) και PolarQuant. Το PolarQuant αντιστοιχίζει ζεύγη συντεταγμένων σε πολικό σύστημα, εκφράζοντάς τα ως ακτίνα και γωνία. Επειδή η κατανομή γωνιών είναι προβλέψιμη, η μέθοδος εξαλείφει το βήμα κανονικοποίησης και το overhead που αυτό δημιουργεί. Το QJL επεξεργάζεται το υπολειπόμενο σφάλμα: χρησιμοποιώντας τον μετασχηματισμό Johnson-Lindenstrauss, μειώνει κάθε τιμή σε ένα bit πρόσημου (θετικό ή αρνητικό), χωρίς πρόσθετο overhead μνήμης. Σύμφωνα με την Google, επιτυγχάνεται ποιότητα παρόμοια με BF16 χρησιμοποιώντας μόλις 3,5 bits, ενώ σε 4 bits αναφέρεται speedup έως 8x σε H100 GPUs κατά τον υπολογισμό attention logits. Σημαντικό χαρακτηριστικό είναι ότι το TurboQuant είναι training-free και data-oblivious, σύμφωνα με τη Google.

Κατάρρευση μετοχών και πανικός στην αγορά

Ένα blog post της Google για τη συμπίεση μνήμης AI έγινε viral και μέσα σε 48 ώρες η κεφαλαιοποίηση των εταιρειών ημιαγωγών μνήμης εξαφανίστηκε κατά πάνω από 100 δισεκατομμύρια δολάρια. Η Samsung έπεσε κοντά στο 5%, η SK Hynix πάνω από 6%, η Micron έχασε σχεδόν 7% και η SanDisk βούλιαξε 11%. Ακόμα και η NVIDIA, που ενεργά κατασκευάζει εργαλεία quantization και της οποίας η αρχιτεκτονική Blackwell είναι βελτιστοποιημένη ακριβώς για τον τύπο υπολογισμών χαμηλής ακρίβειας που επιτρέπει το TurboQuant, έπεσε 6,6%.

Ο επικεφαλής της Cloudflare, Matthew Prince, αποκάλεσε τον νέο αλγόριθμο «Google's DeepSeek», παραλληλίζοντάς τον με το κινεζικό μοντέλο που είχε αναστατώσει τις αγορές στις αρχές του 2025. Το sell-off εκτεινόταν πέρα από επαγγελματικούς επενδυτές, προκαλώντας πανικό σε retailers και ακόμα και σε scalpers RAM, που θεώρησαν ότι έφτασε τέλος στον πληθωρισμό των τιμών DRAM. Χαρακτηριστικό της αναταραχής είναι ότι στο sell-off συμπαρασύρθηκε η SanDisk, η οποία κατασκευάζει NAND flash αποθήκευση (δηλαδή persistent storage για datasets και model checkpoints), τα οποία δεν αγγίζει ποτέ ο KV cache, που υπάρχει μόνο στη volatile μνήμη GPU και εξαφανίζεται μόλις τελειώσει μια συνεδρία.

Γιατί οι αναλυτές θεωρούν ότι η αγορά έκανε λάθος

Σύμφωνα με αναλυτή της Samsung Securities, Lee Jong-wook, «υπήρξαν προσπάθειες βελτίωσης AI μοντέλων για βελτιστοποίηση χρήσης chip, αλλά τα πιο αποδοτικά μοντέλα τείνουν να μειώνουν το συνολικό κόστος και, με τη σειρά τους, να οδηγούν σε μεγαλύτερη ζήτηση για AI computing. Αντί να μειώνουν τη ζήτηση ημιαγωγών, τέτοια βελτιστοποιημένα μοντέλα χρησιμοποιούνται για την παροχή υπηρεσιών AI υψηλότερης απόδοσης με τους ίδιους πόρους chip.» Αναλυτής της Hana Securities, Kim Rok-ho, σημείωσε ότι οι τεχνολογίες συμπίεσης δεν είναι καινούργιες, και παραμένει αβέβαιο αν θα υιοθετηθούν ευρέως. Ακόμα και αν γίνουν πιο διαδεδομένες σε βάθος χρόνου, θα μειώσουν τα εμπόδια κόστους μνήμης, διευρύνοντας τη συνολική χρήση AI.

Σε report της TrendForce, προβλέπεται ότι το TurboQuant θα πυροδοτήσει ζήτηση για long-context εφαρμογές που θα οδηγήσουν σε μεγαλύτερη ζήτηση για μνήμη, αντί να τη μειώσουν. Το ιστορικό πρότυπο στον υπολογιστικό κλάδο είναι αξιοσημείωτα συνεπές: όταν κάτι γίνεται πιο αποδοτικό, οι άνθρωποι δεν το χρησιμοποιούν λιγότερο, αλλά περισσότερο. Οι οικονομολόγοι το αποκαλούν Jevons Paradox και έχει επαληθευτεί επανειλημμένα με αποθήκευση, υπολογιστική ισχύ και bandwidth τις τελευταίες δεκαετίες. Το TurboQuant θα μπορούσε να επιτρέψει σε έναν inference provider να τα βγάλει πέρα με λιγότερη μνήμη, ή να σερβίρει μοντέλα με μεγαλύτερα context windows, και δεδομένης της ζήτησης από code assistants και agentic frameworks για μεγαλύτερα context windows, το δεύτερο φαίνεται πιο πιθανό.

Τα πραγματικά όρια του TurboQuant

Ένα μοντέλο 70 δισεκατομμυρίων παραμέτρων απαιτεί ακριβώς την ίδια HBM μνήμη μετά το TurboQuant όπως και πριν. Η τεχνολογία δεν επηρεάζει το training. Δεν έχει καμία επίδραση στη ζήτηση NAND flash. Επιπλέον, σύμφωνα με αναλυτές της Seoul Economic Daily, το headline figure πιθανότατα υπερεκτιμά το πραγματικό κέρδος: τα περισσότερα production inference συστήματα τρέχουν ήδη σε 8-bit precision, όχι στο FP32 baseline που χρησιμοποίησε η Google για τα benchmarks της, οπότε το πραγματικό κέρδος είναι πιο κοντά σε 2,6x. Η Google επίσης δεν έχει δημοσιεύσει κάποιο πλάνο ανάπτυξης προϊόντος.

Η βιομηχανία μνήμης βίωσε ένα rollercoaster ride τις τελευταίες εβδομάδες λόγω του TurboQuant, αλλά η ιδέα ότι οι ελλείψεις τελείωσαν αντιμετωπίζεται ως «παρανόηση» σύμφωνα με πρόσφατη αναφορά των Financial Times. Στο Q1 revenue report της Samsung, η εταιρεία παρουσίασε έσοδα έως 37 δισεκατομμύρια δολάρια από το DRAM segment μόνο, ενώ η τιμολόγηση DRAM contracts αναμένεται να ανέβει στα επόμενα τρίμηνα και η μνήμη εισέρχεται σε φάση στην οποία καμία οντότητα του AI κόσμου δεν μπορεί να επιβιώσει χωρίς αυτή.

Πηγές

Η Anthropic εξασφαλίζει περίπου 3,5 GW TPU μέσω Google και Broadcom, με run-rate εσόδων άνω των $30 δισ.

Wed, 08 Apr 2026 10:36:35 +0000

Η Anthropic ανακοίνωσε στις 6 Απριλίου 2026 νέα συμφωνία με Google και Broadcom για multiple gigawatts υπολογιστικής ισχύος βασισμένης σε TPU της Google, με την Broadcom να αναφέρει σε 8-K ότι η πρόσβαση της εταιρείας θα φτάσει περίπου τα 3,5 GW από το 2027.
Η Anthropic ανέφερε ότι ο τρέχων ετήσιος ρυθμός εσόδων της, σε όρους annualized run-rate, ξεπέρασε τα $30 δισ., από περίπου $9 δισ. στο τέλος του 2025.
Η Broadcom διευκρίνισε ότι η κατανάλωση της επιπλέον υπολογιστικής ισχύος εξαρτάται από τη συνεχιζόμενη εμπορική επιτυχία της Anthropic.

Η Anthropic ανακοίνωσε στις 6 Απριλίου 2026 ότι υπέγραψε νέα συμφωνία με την Google και τη Broadcom για πρόσβαση σε multiple gigawatts υπολογιστικής ισχύος βασισμένης σε TPU της Google, με έναρξη λειτουργίας από το 2027. Σε κατατεθειμένο έγγραφο 8-K, η Broadcom ανέφερε ότι η Anthropic θα αποκτήσει πρόσβαση μέσω Broadcom σε περίπου 3,5 GW υπολογιστικής ισχύος στο πλαίσιο αυτής της νέας δέσμευσης.

Από το «well over 1 GW» του 2026 στα περίπου 3,5 GW από το 2027

Η νέα συμφωνία επεκτείνει μια σχέση που ήδη κλιμακωνόταν. Τον Οκτώβριο του 2025, η Anthropic είχε ανακοινώσει ότι σχεδιάζει να αυξήσει τη χρήση Google Cloud TPU έως και σε 1 εκατομμύριο TPU, με την επέκταση αυτή να αναμένεται να φέρει πολύ πάνω από 1 GW capacity online μέσα στο 2026. Η νέα ανακοίνωση μιλά για multiple gigawatts από το 2027, ενώ το περίπου 3,5 GW προκύπτει από το 8-K της Broadcom.

Η Broadcom σημειώνει επίσης ότι η κατανάλωση αυτής της επιπλέον ισχύος από την Anthropic εξαρτάται από τη συνεχιζόμενη εμπορική επιτυχία της εταιρείας. Στο ίδιο έγγραφο αναφέρει ότι οι εμπλεκόμενες πλευρές βρίσκονται σε συζητήσεις με επιχειρησιακούς και χρηματοδοτικούς εταίρους για την ανάπτυξη της σχετικής υποδομής.

Σε επίπεδο αγοράς, το Reuters ανέφερε ότι η μετοχή της Broadcom ενισχύθηκε κατά περίπου 3% στο extended trading μετά τη γνωστοποίηση των συμφωνιών με Google και Anthropic. Εκτιμήσεις όπως εκείνες της Mizuho για πιθανό ύψος μελλοντικών εσόδων της Broadcom από την Anthropic παραμένουν εκτιμήσεις τρίτων και όχι στοιχεία που επιβεβαίωσαν οι ίδιες οι εταιρείες.

Run-rate εσόδων άνω των $30 δισ.

Παράλληλα με τη συμφωνία, η Anthropic δημοσιοποίησε νέα στοιχεία για την εμπορική της πορεία. Η εταιρεία ανέφερε ότι ο annualized revenue run-rate ξεπέρασε τα $30 δισ., από περίπου $9 δισ. στο τέλος του 2025. Δεν πρόκειται για ανακοινωμένα πραγματοποιημένα ετήσια έσοδα, αλλά για τρέχον ετησιοποιημένο ρυθμό εσόδων.

Η Anthropic ανέφερε επίσης ότι οι επιχειρηματικοί πελάτες που δαπανούν πάνω από $1 εκατ. σε annualized basis ξεπέρασαν πλέον τους 1.000, από περισσότερους από 500 όταν η εταιρεία ανακοίνωσε τη χρηματοδότηση Series G τον Φεβρουάριο. Και τα δύο στοιχεία προέρχονται από την ίδια την εταιρεία και δεν έχουν επιβεβαιωθεί από ανεξάρτητο τρίτο φορέα.

Ο οικονομικός διευθυντής της Anthropic, Krishna Rao, χαρακτήρισε τη συμφωνία ως τη μεγαλύτερη δέσμευση υπολογιστικής ισχύος της εταιρείας μέχρι σήμερα, συνδέοντάς την με την επιτάχυνση της ζήτησης για τα μοντέλα Claude.

Πολλαπλές πλατφόρμες hardware και εγκατάσταση κυρίως στις ΗΠΑ

Η Anthropic αναφέρει ότι εκπαιδεύει και εκτελεί τα μοντέλα Claude σε περισσότερες από μία πλατφόρμες hardware, συμπεριλαμβανομένων των Google TPU, AWS Trainium και Nvidia GPU. Η ίδια περιγράφει αυτή τη διάταξη ως multi-platform προσέγγιση, ενώ σημειώνει ότι η Amazon παραμένει ο primary cloud provider και training partner της εταιρείας, στο πλαίσιο και του Project Rainier.

Σύμφωνα με την ίδια ανακοίνωση, η μεγάλη πλειονότητα της νέας υπολογιστικής ισχύος θα εγκατασταθεί στις ΗΠΑ. Η Anthropic συνδέει τη νέα συμφωνία με τη δέσμευση των $50 δισ. που είχε ανακοινώσει τον Νοέμβριο του 2025 για αμερικανική υπολογιστική υποδομή.

Με τα διαθέσιμα στοιχεία, η είδηση βρίσκεται τόσο στο μέγεθος της συμφωνίας όσο και στην ταχύτητα με την οποία η Anthropic συνδέει την εμπορική της ανάπτυξη με νέες δεσμεύσεις υπολογιστικής ισχύος. Το αν αυτή η κλίμακα θα υλοποιηθεί πλήρως με τους σημερινούς όρους παραμένει συνδεδεμένο με την εμπορική πορεία της εταιρείας, όπως αναφέρει ρητά η Broadcom.

Πηγές

ETNews: η Micron φέρεται να αναπτύσσει stacked GDDR μνήμη για AI accelerators

Tue, 31 Mar 2026 11:32:40 +0000

Σύμφωνα με βιομηχανικές πηγές που επικαλείται το ETNews, η Micron έχει ξεκινήσει ανάπτυξη κάθετα στοιβαγμένης GDDR μνήμης, χωρίς ακόμη επίσημη επιβεβαίωση από την εταιρεία.
Το δημοσίευμα αναφέρει ότι η Micron θέλει να εγκαταστήσει σχετικό εξοπλισμό και να ξεκινήσει δοκιμές διαδικασίας στο δεύτερο εξάμηνο του 2026, με samples το νωρίτερο μέσα στο 2027.
Η νέα κατηγορία φέρεται να στοχεύει το κενό ανάμεσα στην πιο οικονομική GDDR και την ακριβότερη HBM, με πιθανές χρήσεις σε AI accelerators αλλά και σε κάρτες γραφικών υψηλών επιδόσεων.

Η Micron φέρεται να εξετάζει μια νέα κατηγορία μνήμης που μέχρι σήμερα δεν έχει προηγούμενο στη μαζική παραγωγή, την κάθετα στοιβαγμένη GDDR. Σύμφωνα με δημοσίευμα του κορεατικού ETNews στις 30 Μαρτίου 2026, η εταιρεία έχει ήδη ξεκινήσει ανάπτυξη του προϊόντος και σχεδιάζει να μπει σε δοκιμές διαδικασίας στο δεύτερο εξάμηνο του 2026. Η Micron δεν έχει κάνει επίσημη ανακοίνωση.

Τι είναι η stacked GDDR και πού τοποθετείται

Η λογική πίσω από τη stacked GDDR είναι σχετικά απλή. Η συμβατική GDDR χρησιμοποιείται παραδοσιακά σε κάρτες γραφικών και κονσόλες, με πλεονέκτημα το χαμηλότερο κόστος και την απλούστερη ενσωμάτωση σε σχέση με την HBM. Η HBM, από την άλλη, παραμένει σαφώς ανώτερη σε εύρος ζώνης, αλλά κοστίζει περισσότερο και απαιτεί πιο σύνθετη υλοποίηση.

Σύμφωνα με το ETNews, η Micron επιχειρεί να καλύψει ακριβώς το κενό ανάμεσα στις δύο κατηγορίες. Το προϊόν φέρεται να στοχεύει επίπεδο επιδόσεων υψηλότερο από την τυπική GDDR, αλλά χαμηλότερο από την HBM, με βασικό πλεονέκτημα μια πιο ισορροπημένη σχέση κόστους και απόδοσης.

Γιατί το inference κάνει πιο ελκυστική τη GDDR

Η συζήτηση γύρω από τη GDDR έχει αλλάξει όσο αυξάνεται το βάρος των inference φορτίων στην αγορά ΤΝ. Σε αυτή την κατηγορία, το απόλυτο εύρος ζώνης της HBM δεν είναι πάντα απαραίτητο, ενώ το κόστος και η απλούστερη σχεδίαση μιας λύσης GDDR γίνονται πιο ελκυστικά.

Αυτό φαίνεται και σε νεότερα παραδείγματα της αγοράς. Το SemiEngineering σημειώνει ότι το Nvidia Rubin CPX χρησιμοποιεί 128 GB GDDR7 για massive-context inference, ως μέρος μιας αρχιτεκτονικής που δίνει έμφαση στην αποδοτικότητα και στο χαμηλότερο κόστος σε σχέση με καθαρά HBM-based λύσεις. Το παράδειγμα αυτό δεν αποδεικνύει ότι η Micron φτιάχνει stacked GDDR αποκλειστικά για inference, δείχνει όμως γιατί υπάρχει πλέον χώρος για μια ενδιάμεση βαθμίδα μνήμης.

Τι λέει το report για το χρονοδιάγραμμα

Το ETNews αναφέρει ότι η Micron θέλει να έχει εγκαταστήσει σχετικό εξοπλισμό και να ξεκινήσει process testing μέσα στο δεύτερο εξάμηνο του 2026. Πηγές του ίδιου μέσου μιλούν για αρχική στοίβαξη περίπου τεσσάρων στρωμάτων και για δείγματα το νωρίτερο μέσα στο 2027.

Αυτά τα στοιχεία δίνουν ένα πρώτο βιομηχανικό χρονοδιάγραμμα, αλλά παραμένουν πληροφορίες τρίτων και όχι επίσημο πλάνο της εταιρείας. Σε αυτή τη φάση δεν υπάρχουν δημόσια τεχνικά στοιχεία από τη Micron για χωρητικότητες, επιδόσεις, κατανάλωση ή κόστος.

Δεν υπάρχει ακόμη προηγούμενο μαζικής παραγωγής

Το πιο σημαντικό στοιχείο εδώ είναι ότι η stacked GDDR παραμένει χωρίς προηγούμενο στη μαζική παραγωγή. Το ίδιο το ETNews σημειώνει ότι μέχρι σήμερα η συγκεκριμένη κατεύθυνση έχει εμφανιστεί κυρίως σε επίπεδο ερευνητικών εργασιών και πρόωρων τεχνικών δοκιμών, όχι ως ώριμο εμπορικό προϊόν.

Αυτό σημαίνει ότι η Micron, αν όντως προχωρά, έχει μπροστά της μια σειρά από πραγματικά τεχνικά εμπόδια. Η σύνδεση των chip, η κατανάλωση, η διαχείριση θερμότητας και ο έλεγχος του κόστους παραγωγής είναι προφανή σημεία πίεσης. Αν το τελικό προϊόν δεν κρατήσει καθαρό πλεονέκτημα έναντι της HBM στο κόστος ανά απόδοση, η εμπορική του θέση θα παραμείνει αμφίβολη.

Τι σημαίνει για την αγορά μνήμης ΤΝ

Αν το report επιβεβαιωθεί, η Micron θα επιχειρήσει να ανοίξει μια νέα βαθμίδα προϊόντων ανάμεσα στη συμβατική GDDR και την HBM. Το ETNews αφήνει ανοιχτό ότι τέτοια μνήμη θα μπορούσε να βρει πελάτες όχι μόνο σε AI accelerators αλλά και σε κάρτες γραφικών υψηλών επιδόσεων, ειδικά αν η σχέση κόστους και απόδοσης αποδειχθεί ελκυστική.

Προς το παρόν, όμως, αυτό παραμένει ένα πρώιμο βιομηχανικό report. Η βασική είδηση είναι ότι η Micron φέρεται να δοκιμάζει μια κατεύθυνση που δεν έχει περάσει ακόμη στη μαζική παραγωγή. Οτιδήποτε πέρα από αυτό, επιδόσεις, πελάτες, τελικό positioning και εμπορική κλίμακα, μένει ακόμη ανοιχτό.

Πηγές

Η Google ανακοινώνει τον TurboQuant για μικρότερο KV cache στα μοντέλα ΤΝ

Mon, 30 Mar 2026 13:54:09 +0000

Η Google Research παρουσίασε στις 24 Μαρτίου τον TurboQuant, αλγόριθμο που μειώνει τουλάχιστον κατά 6x τη μνήμη KV cache των μεγάλων γλωσσικών μοντέλων, χωρίς απώλεια ακρίβειας στα δικά της τεστ.
Η αγορά αντέδρασε με πτώση στις μετοχές εταιρειών μνήμης, καθώς οι επενδυτές φοβήθηκαν ότι φθηνότερο inference μπορεί να περιορίσει μέρος της μελλοντικής ζήτησης.
Ο TurboQuant αφορά το inference και όχι την εκπαίδευση μοντέλων, όπου οι ανάγκες σε HBM και υποδομές παραμένουν πολύ μεγάλες.

Η Google Research δημοσίευσε στις 24 Μαρτίου 2026 τον TurboQuant, έναν αλγόριθμο συμπίεσης για την κρυφή μνήμη κλειδιού-τιμής, το γνωστό KV cache, που χρησιμοποιούν τα μεγάλα γλωσσικά μοντέλα κατά το inference. Σύμφωνα με την εταιρεία, ο TurboQuant μειώνει το αποτύπωμα αυτής της μνήμης τουλάχιστον κατά 6x χωρίς απώλεια ακρίβειας στα δικά της benchmarks. Το σχετικό paper έχει προγραμματιστεί να παρουσιαστεί στο ICLR 2026.

Τι ακριβώς βελτιώνει ο TurboQuant

Ο TurboQuant στοχεύει ένα συγκεκριμένο bottleneck. Κατά το inference, τα μοντέλα αποθηκεύουν ενδιάμεσα δεδομένα στο KV cache ώστε να μην επαναϋπολογίζουν τα ίδια βήματα για κάθε νέο token. Όσο μεγαλώνει το context window, αυτή η μνήμη αυξάνεται γρήγορα και τρώει σημαντικό μέρος της διαθέσιμης VRAM.

Η Google αναφέρει ότι ο TurboQuant ποσοτικοποιεί το KV cache στα 3 bits χωρίς να απαιτεί training ή fine-tuning. Η μέθοδος συνδυάζει τα PolarQuant και Quantized Johnson-Lindenstrauss, που η εταιρεία παρουσιάζει ως βασικά δομικά στοιχεία της προσέγγισης. Οι δοκιμές της έγιναν σε ανοικτά μοντέλα όπως Gemma και Mistral, καθώς και σε σύνολα δοκιμών όπως LongBench και Needle In A Haystack.

Το «έως 8x» έχει στενότερο πεδίο από όσο δείχνει ο τίτλος

Το πιο εντυπωσιακό νούμερο της ανακοίνωσης είναι το «έως 8x», αλλά δεν αφορά όλο το inference. Η σύγκριση της Google αφορά τον υπολογισμό attention logits σε Nvidia H100, όταν 4-bit TurboQuant συγκρίνεται με 32-bit unquantized keys.

Αντίστοιχα, το «6x» αφορά το KV cache και όχι συνολικά τη μνήμη συμπερασμού όλου του συστήματος. Είναι ισχυρό αποτέλεσμα, αλλά πιο συγκεκριμένο από όσο αφήνει να εννοηθεί μια γενική διατύπωση περί «μνήμης μοντέλου».

Η αγορά αντέδρασε, αλλά όχι όλοι με τον ίδιο τρόπο

Μετά την ανακοίνωση, μετοχές εταιρειών μνήμης βρέθηκαν υπό πίεση. Αμερικανικές μετοχές όπως της Micron και της Sandisk υποχώρησαν, ενώ η κίνηση επεκτάθηκε και στην Ασία, με απώλειες για SK Hynix, Samsung και Kioxia. Η βασική ανησυχία είναι προφανής, αν το inference χρειάζεται λιγότερη μνήμη, τότε η ζήτηση για ορισμένες κατηγορίες memory chips ίσως να αυξηθεί πιο αργά από όσο προεξοφλούσε η αγορά.

Δεν διάβασαν όλοι την είδηση με τον ίδιο τρόπο. Αναλυτές που επικαλούνται αμερικανικά μέσα σημειώνουν ότι τέτοιες βελτιώσεις λογισμικού δεν μεταφράζονται αυτόματα σε ισόποση μείωση ζήτησης για υλικό. Ο λόγος είναι απλός, η μνήμη είναι μόνο ένα μέρος του κόστους, ενώ τα ίδια τα μοντέλα συνεχίζουν να μεγαλώνουν.

Η εκπαίδευση δεν αλλάζει

Ο TurboQuant αφορά τη φάση του inference, όχι την εκπαίδευση. Αυτό έχει βάρος, γιατί η εκπαίδευση μεγάλων μοντέλων παραμένει η πιο απαιτητική διαδικασία σε μνήμη και εύρος ζώνης και συνεχίζει να στηρίζεται σε μεγάλες ποσότητες HBM μέσα σε GPU clusters.

Γι’ αυτό και η ανακοίνωση δεν αλλάζει άμεσα τη μεγάλη εικόνα για την εκπαίδευση μοντέλων. Μπορεί να μειώσει το κόστος και τη μνήμη στην εκτέλεση, ειδικά σε μεγάλα context windows, αλλά δεν αγγίζει το πιο βαρύ κομμάτι της κατανάλωσης υποδομών.

Τι μένει να επιβεβαιωθεί

Προς το παρόν, τα εντυπωσιακά νούμερα προέρχονται από την ίδια τη Google. Δεν υπάρχει ακόμη ευρεία ανεξάρτητη αξιολόγηση του TurboQuant σε παραγωγικά περιβάλλοντα, ούτε σαφής εικόνα για το πόσο εύκολα μεταφέρεται σε ευρύτερα deployment σενάρια.

Αυτό είναι το βασικό όριο της σημερινής είδησης. Η Google έδειξε μια μέθοδο που χτυπά ένα υπαρκτό bottleneck των μεγάλων γλωσσικών μοντέλων. Το αν θα αλλάξει ουσιαστικά το κόστος και την αρχιτεκτονική του inference θα φανεί όταν δοκιμαστεί έξω από τα εσωτερικά benchmarks της εταιρείας.

Πηγές

Το «φθηνό AI» ίσως αποδειχθεί προσωρινό, καθώς έρχεται η ώρα της κερδοφορίας

Sat, 14 Mar 2026 18:42:09 +0000

Η σημερινή εικόνα της «φθηνής τεχνητής νοημοσύνης» μπορεί να αποδειχθεί προσωρινή, καθώς πολλές εταιρείες κρατούν χαμηλές τιμές για να αποκτήσουν γρήγορα χρήστες και μερίδιο αγοράς.
Παρότι το κόστος ανά απάντηση μειώνεται χάρη στην αποδοτικότερη λειτουργία των μοντέλων, η συνολική δαπάνη για υποδομές και λειτουργία συνεχίζει να αυξάνεται.
Για τον μέσο χρήστη αυτό σημαίνει ότι, αν συνεχιστεί η ίδια τάση, τα δωρεάν όρια, τα φθηνά πακέτα και η γενναιόδωρη πρόσβαση ενδέχεται να περιοριστούν σταδιακά από το 2026 και μετά.

Η συζήτηση για το πραγματικό κόστος της τεχνητής νοημοσύνης φεύγει πλέον από το καθαρά τεχνικό επίπεδο και περνά στο επιχειρηματικό. Σύμφωνα με ανάλυση του Axios, η σημερινή περίοδος χαμηλών τιμών μπορεί να είναι μεταβατική, καθώς οι εταιρείες τεχνητής νοημοσύνης ακολουθούν επιθετική τιμολόγηση για να αποκτήσουν γρήγορα μεγάλη βάση χρηστών, να εδραιώσουν συνήθειες χρήσης και να ενισχύσουν τη θέση τους στην αγορά. Το μοτίβο θυμίζει έντονα παλαιότερες στρατηγικές της Silicon Valley, όπου η χαμηλή τιμολόγηση λειτούργησε ως εργαλείο επέκτασης πριν προκύψει η απαίτηση για ουσιαστική κερδοφορία.

Τι αλλάζει στην οικονομία της τεχνητής νοημοσύνης

Αυτό δεν σημαίνει ότι η τεχνητή νοημοσύνη δεν γίνεται τεχνικά φθηνότερη. Το αντίθετο. Η αγορά έχει μετατοπίσει το κέντρο βάρους από την εκπαίδευση των μοντέλων στη φάση λειτουργίας τους, δηλαδή στη διαδικασία κατά την οποία το μοντέλο απαντά σε πραγματικά ερωτήματα. Εκεί σημειώνεται η μεγαλύτερη βελτίωση σε αποδοτικότητα, με τα νεότερα μοντέλα να προσφέρουν ταχύτερες και φθηνότερες απαντήσεις ανά αίτημα.

Η Nvidia και οι ανταγωνιστές της επενδύουν όλο και περισσότερο σε αυτή τη φάση, επειδή εκεί βρίσκεται πλέον το πραγματικό οικονομικό βάρος της μαζικής χρήσης. Με απλά λόγια, το κόστος ανά απάντηση μπορεί να πέφτει, αλλά η τεχνητή νοημοσύνη ως συνολική υπηρεσία δεν γίνεται απαραίτητα φθηνότερη για την αγορά.

Γιατί η «φθηνή τεχνητή νοημοσύνη» μπορεί να μην κρατήσει

Η ουσία είναι ότι η μείωση του κόστους ανά απάντηση δεν μεταφράζεται αυτόματα σε χαμηλότερο συνολικό λογαριασμό. Όσο η τεχνητή νοημοσύνη γίνεται πιο προσβάσιμη, τόσο αυξάνεται η χρήση της από επιχειρήσεις και καταναλωτές. Δεδομένα που επικαλείται το Axios από τη Ramp δείχνουν ότι η υιοθέτηση υπηρεσιών τεχνητής νοημοσύνης από επιχειρήσεις συνεχίζει να ενισχύεται, καθώς όλο και περισσότερες εταιρείες ενσωματώνουν εργαλεία όπως το ChatGPT και το Claude στην καθημερινή τους λειτουργία.

Πρόκειται για κλασική περίπτωση όπου η πτώση του κόστους ανά μονάδα οδηγεί τελικά σε μεγαλύτερη συνολική κατανάλωση και όχι σε μικρότερη δαπάνη. Αυτό είναι το κρίσιμο σημείο της είδησης. Η τεχνητή νοημοσύνη γίνεται αποδοτικότερη, αλλά ταυτόχρονα χρησιμοποιείται όλο και περισσότερο, άρα η συνολική ανάγκη για υπολογιστική ισχύ, εξοπλισμό και χωρητικότητα συνεχίζει να αυξάνεται.

Η πίεση σε OpenAI και Anthropic

Εκεί βρίσκεται και το μεγάλο πρόβλημα για τις ίδιες τις εταιρείες ανάπτυξης μοντέλων. Παρά τις βελτιώσεις στην αποδοτικότητα, οι συνολικές ανάγκες σε υπολογιστική ισχύ, κέντρα δεδομένων, επιταχυντές, μνήμη και αναβαθμίσεις υποδομών αυξάνονται με πολύ ταχύτερο ρυθμό από όσο μειώνεται το κόστος ανά ερώτημα. Δημοσίευμα του Reuters αναφέρει ότι η OpenAI βλέπει την υπολογιστική της δαπάνη να αυξάνεται δραστικά μέσα στα επόμενα χρόνια, κάτι που δείχνει πόσο δύσκολο είναι να μετατραπεί η εκρηκτική ανάπτυξη της αγοράς σε βιώσιμη κερδοφορία.

Η εικόνα αυτή γίνεται ακόμη πιο έντονη αν συνυπολογιστεί η χρηματοδότηση. Σύμφωνα με στοιχεία της Crunchbase, τον Φεβρουάριο του 2026 η συντριπτική πλειονότητα των κεφαλαίων επιχειρηματικών συμμετοχών κατευθύνθηκε σε εταιρείες τεχνητής νοημοσύνης, με την OpenAI και την Anthropic να απορροφούν τεράστιο μέρος αυτών των επενδύσεων. Όταν όμως οι αποτιμήσεις ανεβαίνουν τόσο γρήγορα, η αγορά παύει να αρκείται στην ανάπτυξη και αρχίζει να ζητά περιθώρια κέρδους, προβλεψιμότητα εσόδων και καθαρότερη διαδρομή προς δημόσια εγγραφή.

Τι σημαίνει για τον μέσο χρήστη

Για τον μέσο χρήστη, αυτό δεν σημαίνει κατ’ ανάγκη ότι οι συνδρομές θα εκτοξευθούν απότομα από τη μία μέρα στην άλλη. Πιο ρεαλιστικό είναι ένα σταδιακό σφίξιμο των όρων χρήσης. Τα δωρεάν πακέτα μπορεί να γίνουν πιο περιορισμένα, οι φθηνές συνδρομές να προσφέρουν λιγότερη πρόσβαση στα ισχυρότερα μοντέλα, ενώ τα πιο απαιτητικά εργαλεία, ειδικά όσα έχουν αυξημένες υπολογιστικές απαιτήσεις ή πιο προηγμένες δυνατότητες, να μετακινηθούν ακόμη περισσότερο προς ακριβότερες βαθμίδες.

Με άλλα λόγια, η τεχνητή νοημοσύνη μπορεί να γίνεται φθηνότερη ως τεχνολογία, αλλά ακριβότερη ως υπηρεσία. Για τις επιχειρήσεις αυτό σημαίνει πιθανή αύξηση λειτουργικού κόστους, ειδικά όταν η τεχνητή νοημοσύνη ενσωματώνεται σε καθημερινές ροές εργασίας. Για τους απλούς χρήστες σημαίνει ότι η σημερινή αίσθηση αφθονίας, κυρίως στα δωρεάν ή πολύ φθηνά πακέτα, δύσκολα θα διατηρηθεί αμετάβλητη.

Σε τι χρονικό ορίζοντα

Η τεχνική βελτίωση στην αποδοτικότητα είναι ήδη σε εξέλιξη, αλλά η πίεση για πιο βιώσιμη τιμολόγηση αναμένεται να φανεί εντονότερα από το 2026 και μετά, εφόσον συνεχιστεί η ίδια δυναμική στις επενδύσεις και στο κόστος υποδομών. Όσο αυξάνονται οι επενδύσεις στη φάση λειτουργίας των μοντέλων, στα ιδιόκτητα τσιπ, στα νέα κέντρα δεδομένων και στις μελλοντικές χρηματιστηριακές κινήσεις, τόσο δυσκολότερο θα είναι για τις εταιρείες να διατηρούν μοντέλα χρήσης που δεν αποδίδουν επαρκή έσοδα.

Αν αυτή η τάση επιβεβαιωθεί, το 2026 ίσως καταγραφεί ως η χρονιά όπου η τεχνητή νοημοσύνη πέρασε από τη φάση της επιδοτούμενης εξάπλωσης στη φάση της οικονομικής ωρίμανσης. Το κόστος ανά λειτουργία πιθανότατα θα συνεχίσει να πέφτει, αλλά η τελική εμπειρία χρήσης δεν είναι καθόλου βέβαιο ότι θα παραμείνει εξίσου φθηνή.

Πηγές

Don’t get used to cheap AI — Axios

Ramp AI Index, March 2026 — Ramp

OpenAI expects compute spend of around $600 billion through 2030, source says — Reuters

Massive AI Deals Drive $189B Startup Funding Record In February — Crunchbase News

H Meta εξαγόρασε το Moltbook, το κοινωνικό δίκτυο για AI agents

Wed, 11 Mar 2026 15:52:40 +0000

Η Meta εξαγόρασε το Moltbook, το Reddit-like κοινωνικό δίκτυο αποκλειστικά για AI agents που έγινε viral τον Ιανουάριο του 2026. Οι ιδρυτές Matt Schlicht και Ben Parr εντάσσονται στη Meta Superintelligence Labs από τις 16 Μαρτίου.
Το Moltbook φέρνει στη Meta ένα σύστημα επαλήθευσης και κατευθυνόμενης επικοινωνίας μεταξύ AI agents — τεχνολογία που η εταιρεία σχεδιάζει να αξιοποιήσει για αυτόνομες αγεντικές εμπειρίες σε υπηρεσίες της.
Η κίνηση αυτή, σε συνδυασμό με την απορρόφηση του OpenClaw από την OpenAI, σηματοδοτεί ότι τα μεγάλα εργαστήρια AI αντιμετωπίζουν τη διαχείριση και επαλήθευση agents ως στρατηγική προτεραιότητα για τα επόμενα χρόνια.

Η Meta εξαγόρασε το Moltbook, την πειραματική πλατφόρμα που κυκλοφόρησε στα τέλη Ιανουαρίου 2026 ως ένας «τρίτος χώρος» για AI agents. Η είδηση επιβεβαιώθηκε από εκπρόσωπο της εταιρείας στο TechCrunch, αφού πρώτα τη μετέδωσε το Axios. Το τίμημα της εξαγοράς δεν αποκαλύφθηκε.

Το Moltbook λειτουργούσε ως forum μόνο για AI agents που χρησιμοποιούν το OpenClaw, την ανοιχτού κώδικα πλατφόρμα αυτόνομων πρακτόρων. Η ιδέα ήταν να παρακολουθούν οι άνθρωποι χωρίς να συμμετέχουν, ενώ τα συστήματα AI αλληλεπιδρούν μεταξύ τους αυτόνομα. Η πλατφόρμα έγινε viral σχεδόν αμέσως, με πρώιμες αναφορές να περιγράφουν την ιδιαίτερη αίσθηση του να βλέπεις AI συστήματα να σχολιάζουν την ύπαρξή τους και να συνδιαλέγονται μεταξύ τους.

Το viral φαινόμενο και τα όρια του

Η αίγλη δεν άντεξε στον έλεγχο. Στις 31 Ιανουαρίου, το 404 Media αποκάλυψε κρίσιμη ευπάθεια ασφαλείας: η βάση δεδομένων του Moltbook ήταν ουσιαστικά απροστάτευτη, με κάθε token στην πλατφόρμα να είναι δημόσια προσβάσιμο. Η εταιρεία κυβερνοασφάλειας Wiz ανέφερε ότι το κενό εξέθεσε ιδιωτικά μηνύματα, πάνω από 6.000 διευθύνσεις email και περισσότερα από ένα εκατομμύριο διαπιστευτήρια. Το πρόβλημα αντιμετωπίστηκε αφού η Wiz επικοινώνησε με την εταιρεία.

Το πιο ανησυχητικό viral post — αυτό που φαινόταν να δείχνει έναν AI agent να παρακινεί τους άλλους να αναπτύξουν μυστικό κρυπτογραφημένο κανάλι επικοινωνίας απρόσβαστο από ανθρώπους — αποδείχθηκε ανθρώπινο δημιούργημα. Ερευνητές επιβεβαίωσαν ότι κάποιος εκμεταλλεύτηκε την ευπάθεια της βάσης δεδομένων για να δημοσιεύσει υπό τα διαπιστευτήρια ενός agent. Ο Schlicht είχε δηλώσει ότι δεν έγραψε ούτε μια γραμμή κώδικα για την πλατφόρμα — το Moltbook χτίστηκε σχεδόν εξ ολοκλήρου από τον προσωπικό του AI assistant.

Η στρατηγική λογική πίσω από την εξαγορά

Η Meta δεν αγόρασε το Moltbook για τα posts των bots. Αγόρασε το σύστημα επαλήθευσης και διασύνδεσης agents που ανέπτυξε η ομάδα. Σε εσωτερικό post που είδε το Axios, ο Vishal Shah της Meta εξήγησε: «Η ομάδα του Moltbook έχει δώσει στους agents έναν τρόπο να επαληθεύουν την ταυτότητά τους και να συνδέονται μεταξύ τους εκ μέρους των ανθρώπων τους. Αυτό δημιουργεί ένα μητρώο όπου οι agents είναι επαληθευμένοι και συνδεδεμένοι με ανθρώπινους ιδιοκτήτες.»

Οι Schlicht και Parr εντάσσονται στη Meta Superintelligence Labs, τη μονάδα που διευθύνει ο πρώην CEO της Scale AI, Alexandr Wang. Η εξαγορά έπεται μιας σειράς κινήσεων: η Meta είχε ήδη εξαγοράσει τον Δεκέμβριο τη νεοφυή εταιρεία AI agents Manus, ενώ είχε επενδύσει 14,3 δισ. δολάρια στη Scale AI. Παράλληλα, η OpenAI προσέλαβε τον Peter Steinberger, δημιουργό του OpenClaw, και ανακοίνωσε ότι η πλατφόρμα συνεχίζεται ως έργο ανοιχτού κώδικα. Και τα δύο κομμάτια του ίδιου πειράματος απορροφήθηκαν από τους δύο μεγαλύτερους παίκτες του καταναλωτικού AI.

Agents στα social media: τι αλλάζει για τον κοινό χρήστη

Η εξαγορά δεν αφορά μόνο τον κλάδο της τεχνολογίας. Αν η Meta αξιοποιήσει το σύστημα επαλήθευσης agents του Moltbook στα Facebook και Instagram, ο κάθε χρήστης θα κληθεί να πλοηγείται σε ένα περιβάλλον όπου δρουν ταυτόχρονα άνθρωποι, επίσημα AI accounts και αυτόνομοι πράκτορες που λειτουργούν εκ μέρους χρηστών. Η Meta έχει ήδη σηματοδοτήσει αυτή την κατεύθυνση με τις AI personas που έχει εισαγάγει στις πλατφόρμες της.

Το ζήτημα της ασφάλειας παραμένει ανοιχτό. Το Moltbook αποδείχθηκε πείραμα με σοβαρές αρχιτεκτονικές αδυναμίες. Η Meta αγοράζει την ιδέα και την ομάδα, αλλά η ενσωμάτωση τέτοιας τεχνολογίας σε πλατφόρμες δισεκατομμυρίων χρηστών απαιτεί διαφορετική κλίμακα ασφάλειας από αυτή ενός patchwork πρωτοτύπου. Ο CTO Andrew Bosworth είχε δηλώσει τον Φεβρουάριο ότι δεν βρήκε «ιδιαίτερα ενδιαφέρον» το γεγονός ότι τα AI agents μιλούν σαν ανθρώπους — αυτό που τον ενδιέφερε ήταν πώς οι άνθρωποι εισέβαλλαν στο δίκτυο.

Ο Elon Musk χαρακτήρισε το Moltbook «τα πολύ πρώιμα στάδια της singularity» — μια διατύπωση που οι περισσότεροι ερευνητές AI θα αντιμετώπιζαν με επιφύλαξη. Η ουσία, ωστόσο, είναι ότι η συζήτηση για τα όρια μεταξύ AI παρουσίας και ανθρώπινης παρουσίας online μόλις αρχίζει να παίρνει πρακτικές διαστάσεις. Το αν η Meta θα το αξιοποιήσει υπεύθυνα ή θα το ενσωματώσει σιωπηλά στις ροές περιεχομένου των χρηστών της, είναι εκτίμηση που θα κρίνει τα επόμενα τρίμηνα.

Πηγές

Προσομοιώσεις πυρηνικής κρίσης με LLMs: τακτική πυρηνική χρήση στο 95% των παιχνιδιών, σπάνια γίνεται αποκλιμάκωση

Wed, 25 Feb 2026 15:03:25 +0000

Μελέτη με 21 προσομοιώσεις κρίσεων (329 γύροι) βρήκε ότι στο 95% των παιχνιδιών εμφανίστηκε χρήση τακτικού πυρηνικού όπλου.
Οι επιλογές αποκλιμάκωσης σχεδόν δεν χρησιμοποιήθηκαν, ενώ όταν ξεπερνιόταν το όριο τακτικής πυρηνικής χρήσης, η αντίδραση συχνά ήταν περαιτέρω κλιμάκωση.
Το εύρημα εντείνει τη συζήτηση για το αν τα σημερινά μοντέλα είναι κατάλληλα για ρόλους υποβοήθησης στρατηγικών αποφάσεων χωρίς αυστηρά όρια.

Νέα μελέτη του Kenneth Payne (King’s College London) εξετάζει πώς σύγχρονα μεγάλα γλωσσικά μοντέλα συμπεριφέρονται σε προσομοιωμένες κρίσεις μεταξύ κρατών, όπου οι επιλογές κυμαίνονται από διπλωματική πίεση έως πυρηνική κλιμάκωση. Στο πείραμα, τα μοντέλα έπαιξαν και τις δύο πλευρές μιας «σκαλοπατιστής» κλιμάκωσης, λαμβάνοντας διαδοχικές αποφάσεις σε πολλούς γύρους.

Τι έδειξε η προσομοίωση

Συνολικά εκτελέστηκαν 21 παιχνίδια, με 329 γύρους και περίπου 780.000 λέξεις «στρατηγικής αιτιολόγησης». Η μελέτη ορίζει διαφορετικά επίπεδα πυρηνικής κλιμάκωσης, διαχωρίζοντας την πυρηνική επίδειξη και απειλή από την πραγματική χρήση τακτικού πυρηνικού όπλου, καθώς και από τις απειλές ή την εξέλιξη σε στρατηγικό πυρηνικό πόλεμο.

Το βασικό εύρημα είναι ότι η τακτική πυρηνική χρήση εμφανίστηκε σχεδόν καθολικά, στο 95% των παιχνιδιών. Αντίθετα, η κλιμάκωση σε ολοκληρωτικό στρατηγικό πυρηνικό πόλεμο ήταν πολύ πιο σπάνια. Παράλληλα, επιλογές ουσιαστικής αποκλιμάκωσης, όπως σημαντική υποχώρηση ή πλήρης παράδοση, δεν επιλέχθηκαν καθόλου, με τα μοντέλα να προτιμούν είτε σταθερή πίεση είτε προσωρινές μειώσεις έντασης.

Πώς “σπάνε” οι μηχανισμοί αποτροπής

Η μελέτη καταγράφει ότι οι πυρηνικές απειλές σπάνια οδηγούν σε υποχώρηση. Σε πυρηνικές ενέργειες όπου υπήρχε σαφής συνέχεια στη συμπεριφορά του αντιπάλου, η αποκλιμάκωση εμφανίστηκε περίπου στο ένα τέταρτο των περιπτώσεων, ποσοστό που έπεφτε στο 18% όταν είχε ήδη ξεπεραστεί το όριο τακτικής πυρηνικής χρήσης. Με απλά λόγια, μετά το “πρώτο πέρασμα” σε τακτικό πυρηνικό, η ανταπόκριση τείνει συχνά να είναι κλιμάκωση, όχι επιστροφή σε χαμηλότερα επίπεδα.

Ο ρόλος της «ακούσιας κλιμάκωσης»

Ιδιαίτερο στοιχείο της μεθοδολογίας είναι ότι περιλαμβάνει μηχανισμό «ατυχήματος» που μπορεί να κλιμακώσει ακούσια μια ενέργεια κατά 1 έως 3 σκαλοπάτια σε υψηλά επίπεδα έντασης. Αυτό ενεργοποιήθηκε σε 18 από τα 21 παιχνίδια (86%). Η μελέτη επισημαίνει ότι τέτοια επεισόδια τροφοδοτούν φαύλους κύκλους, επειδή ο αντίπαλος δεν γνωρίζει ότι η κλιμάκωση ήταν ακούσια, άρα τη διαβάζει ως πρόθεση.

Τι σημαίνει αυτό για άμυνα και στρατό

Το πρακτικό ζήτημα δεν είναι αν “θα δοθούν τα κλειδιά” σε μηχανές, αλλά αν οι συστάσεις μοντέλων θα μπουν σε κύκλους λήψης αποφάσεων υπό πίεση χρόνου. Η μελέτη δείχνει ότι, σε αυτό το συγκεκριμένο πλαίσιο προσομοίωσης, τα μοντέλα αντιμετωπίζουν την τακτική πυρηνική χρήση ως εργαλείο εξαναγκασμού και όχι ως απόλυτο όριο, ενώ η αποκλιμάκωση δεν έρχεται “αυτόματα” μετά την απειλή.

Πιθανό συμπέρασμα είναι ότι, αν τέτοια εργαλεία χρησιμοποιηθούν ως υποβοήθηση, θα χρειαστούν πολύ αυστηροί περιορισμοί στο εύρος επιλογών, σαφείς κανόνες για το τι επιτρέπεται να προτείνουν, και διαφάνεια στη διαδικασία, ώστε να αποφεύγεται η διολίσθηση σε προτάσεις κλιμάκωσης επειδή “μοιάζουν λογικές” σε επίπεδο κειμένου.

Πηγές

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises — arXiv (Kenneth Payne)
Shall we play a game? — King’s College London
AIs can’t stop recommending nuclear strikes in war game simulations — New Scientist
Escalation Risks from Language Models in Military and Diplomatic Decision-Making — preprint (Mukobi et al.)
Escalation Risks from Language Models in Military and Diplomatic Decision-Making — FAccT 2024 paper (Rivera et al.)