Tenstorrent Galaxy Blackhole: 350 tokens/s στο DeepSeek R1 και 5x χαμηλότερο TCO από το NVIDIA GB300

Το Galaxy Blackhole server κοστίζει $110.000 και φέρει 32 Blackhole chips, 23 PFLOPS (Block FP8), 1 TB GDDR6 με 16 TB/s bandwidth — το base Supercluster τεσσάρων nodes στα $440.000.
Σε Blitz Mode, η Tenstorrent ισχυρίζεται 350+ tokens/s ανά χρήστη με χρόνο πρώτου token κάτω από 4 δευτερόλεπτα στο DeepSeek-R1-671B — η EE Times μέτρησε 255 tokens/s σε πρακτική δοκιμή.
Η εταιρεία ισχυρίζεται 5x χαμηλότερο συνολικό κόστος ιδιοκτησίας (TCO) έναντι του NVIDIA GB300, χωρίς να χρειάζεται disaggregation prefill/decode.

Η Tenstorrent ανακοίνωσε στις 28 Απριλίου 2026 τη γενική διαθεσιμότητα του Galaxy Blackhole, του AI compute server που η εταιρεία του Jim Keller ετοίμαζε από το 2024. Η ανακοίνωση έγινε από τη Santa Clara και αφορά το deployment σε κλίμακα με βασικό επιχείρημα την «industry-leading general-purpose AI performance».

Τι περιέχει το Galaxy Blackhole

Το σύστημα ξεκινά στα $110.000 και παρέχει 23 PFLOPS Block FP8 από 32 Blackhole chips, 6,2 GB on-chip SRAM με 2,9 PB/s bandwidth, 1 TB DRAM με 16 TB/s, και έως 56 × 800G Ethernet ports για 11,2 GB/s scale-out bandwidth. Κάθε 6U σύστημα φιλοξενεί 32 Blackhole accelerators, διασυνδεδεμένους μέσω πυκνού Ethernet mesh με 100 Tbps συνολικού bandwidth.

Τα συστήματα μπορούν να δικτυωθούν μέσω Ethernet mesh, με base Superclusters τεσσάρων nodes στα $440.000 και αρχιτεκτονική που υποστηρίζει έως 32 nodes με πάνω από 1.000 chips. Οι πελάτες αναπτύσσουν διαμορφώσεις από 4 έως 36 ή και περισσότερα Galaxy systems, βελτιστοποιημένα για AI video generation, large-scale LLM inference και private AI infrastructure.

Blitz Mode και πραγματικές επιδόσεις

Η Tenstorrent παρουσιάζει δύο λειτουργικές λογικές για inference. Το Regular Mode προορίζεται για αποδοτική παραγωγή κειμένου σε human-readable ταχύτητες, ενώ το Blitz Mode στοχεύει στη μέγιστη ταχύτητα inference για code generation και agentic AI.

Σε Blitz Mode για DeepSeek-671B inference, η εταιρεία ισχυρίζεται «έως 350 tokens ανά δευτερόλεπτο ανά χρήστη με χρόνο πρώτου token κάτω από 4 δευτερόλεπτα» — η EE Times δοκίμασε το σύστημα πριν την επίσημη κυκλοφορία και κατέγραψε 255 tokens ανά δευτερόλεπτο ανά χρήστη για σύντομα chatbot prompts. Αυτή η λειτουργία υποστηρίζει batch sizes από 8 έως 64 και context lengths έως 128k, τρέχοντας σε 16 Galaxy servers (512 chips) με pipeline parallelism στο decode stage.

Αξίζει να σημειωθεί ότι η Tenstorrent δεν προσδιορίζει το batch size που χρησιμοποιήθηκε στις μετρήσεις, κάτι κρίσιμο για την αξιολόγηση της απόδοσης σε παραγωγικό περιβάλλον — 350 tokens/s για έναν χρήστη είναι πολύ λιγότερο εντυπωσιακό από ό,τι για 32 ή 64.

Για DeepSeek V3, η Tenstorrent ισχυρίζεται ότι τα four-node Blackhole Galaxy Superclusters μπορούν να επεξεργαστούν prompt 100.000 tokens — ισοδύναμο 166 σελίδων κειμένου — σε λιγότερο από τέσσερα δευτερόλεπτα.

Η αρχιτεκτονική «Networked AI» έναντι της NVIDIA

Το κεντρικό επιχείρημα της Tenstorrent δεν είναι μόνο η απόλυτη ταχύτητα, αλλά η αρχιτεκτονική σχεδίαση. Σε αντίθεση με τη NVIDIA, τα επόμενης γενιάς racks της οποίας θα συνδυάζουν chips Groq για γρήγορη παραγωγή tokens, η Tenstorrent δηλώνει ότι δεν χρειάζεται disaggregation — «μπορούμε να κάνουμε και prefill και decode στον ίδιο υπολογιστή», σύμφωνα με τον Keller.

Τα αποτελέσματα αυτά οφείλονται σε αρχιτεκτονική βασισμένη σε διαφορετικό constraint: ενώ οι περισσότεροι AI accelerators αντιμετωπίζουν το compute ως βασικό πρόβλημα σχεδίασης, η Tenstorrent έλυσε πρώτα το data placement και το data flow, επιτυγχάνοντας performance μέσω scaling.

Ο Jim Keller σχολίασε με χαρακτηριστική επιθετικότητα: «Κάθε εταιρεία στον κλάδο συνδυάζει accelerators πάνω σε accelerators. CPUs τρέχουν κώδικα. GPUs επιταχύνουν CPUs. TPUs επιταχύνουν GPUs. LPUs επιταχύνουν TPUs. Και ούτω καθεξής. Αυτό οδηγεί σε πολύπλοκες λύσεις που είναι απίθανο να είναι συμβατές με αλλαγές σε AI models και χρήσεις. Στην Tenstorrent, σκεφτήκαμε ότι κάτι πιο γενικό και απλό θα λειτουργούσε.»

Για σύγκριση, τα eight-way DGX boxes της NVIDIA, αν και ταχύτερα και μεγαλύτερης χωρητικότητας, κοστίζουν μεταξύ τριών και πέντε φορών περισσότερο.

Video generation και επόμενα βήματα

Σε four-node supercluster, η Tenstorrent δηλώνει ότι μπορεί να παράγει 720p video ταχύτερα από real-time. Επιπλέον, frontier models όπως το Kimi K2 της Moonshot AI βρίσκονται σε εξέλιξη, ενώ η ομάδα έχει αναπτύξει Python-based programming interface για τη δημιουργία βελτιστοποιημένων kernels.

Η πλατφόρμα διατίθεται μέσω datacenter providers, συμπεριλαμβανομένων των Cirrascale, Equinix και της ιαπωνικής ai&. Δεκαέξι Galaxy Blackhole servers είναι ήδη εγκατεστημένα στο data center της Equinix στο Ashburn, Virginia.

Sign In

Tenstorrent Galaxy Blackhole: 350 tokens/s στο DeepSeek R1 και 5x χαμηλότερο TCO από το NVIDIA GB300

Τι περιέχει το Galaxy Blackhole

Blitz Mode και πραγματικές επιδόσεις

Η αρχιτεκτονική «Networked AI» έναντι της NVIDIA

Video generation και επόμενα βήματα

Πηγές

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

TSMC CoWoS Roadmap: Πακέτα άνω των 14 Reticles και 48x Άλμα σε Υπολογιστική Ισχύ ως το 2029

H NVIDIA επιλέγει τη Nanya Technology για LPDDR5X μνήμη στην πλατφόρμα Vera Rubin — 3x χωρητικότητα και +50% bandwidth

Πλαστή RTX 4090 με laser-etched VRAM και core: «Η καλύτερη απάτη που έχω δει ποτέ»

Η NVIDIA «χτυπά» πρώτη με Day-0 Blackwell υποστήριξη για το DeepSeek V4 — 3.500 tokens/sec σε μοντέλα 1,6T παραμέτρων

Το Microsoft Fairwater άνοιξε νωρίτερα από το πρόγραμμα: εκατοντάδες χιλιάδες NVIDIA GB200 GPUs σε ένα cluster

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information