Jump to content
  • astrolabos
    astrolabos

    Intel και SambaNova ανακοίνωσαν κοινή heterogeneous inference πλατφόρμα για AI workloads

    TL;DR: Intel και SambaNova ανακοίνωσαν production-ready heterogeneous inference πλατφόρμα που διαχωρίζει τα στάδια prefill, decode και orchestration σε διαφορετικό silicon — με διαθεσιμότητα προγραμματισμένη για το δεύτερο εξάμηνο του 2026.

    Intel και SambaNova ανακοίνωσαν την Τετάρτη κοινή heterogeneous inference αρχιτεκτονική έτοιμη για παραγωγική χρήση, η οποία συνδυάζει AI accelerators ή GPUs για το prefill stage, τους SambaNova SN50 Reconfigurable Dataflow Units (RDUs) για decode και παραγωγή tokens, και επεξεργαστές Xeon 6 για agentic λειτουργίες και system orchestration.

    Πώς μοιράζονται τα workloads

    Η αρχιτεκτονική διαχωρίζει ρητά τα τρία στάδια inference σε διαφορετικό υλικό. Οι AI GPUs/accelerators αναλαμβάνουν την επεξεργασία μακρών prompts και τη δημιουργία key-value caches. Οι SN50 RDUs της SambaNova χειρίζονται το decoding και την παραγωγή tokens. Οι Xeon 6 αναλαμβάνουν agent-related λειτουργίες — compilation και εκτέλεση κώδικα, validation outputs — καθώς και τον συντονισμό και κατανομή workloads μεταξύ του hardware.

    Η προσέγγιση του διαχωρισμού prefill/decode θυμίζει αυτό που η Nvidia σχεδιάζει με την πλατφόρμα Rubin, όπου το Rubin CPX και το Rubin GPU με HBM4 αναλαμβάνουν διαφορετικά στάδια — με τη διαφορά ότι το Rubin CPX δεν πρόκειται να κυκλοφορήσει. Το κρίσιμο σημείο για την Intel είναι ότι η νέα πλατφόρμα χτίζεται γύρω από τους δικούς της Xeon 6, αποκλείοντας competing server CPU offerings.

    Περφόρμανς claims και συμβατότητα με data centers

    Σύμφωνα με εσωτερικά δεδομένα της SambaNova, ο Xeon 6 επιτυγχάνει πάνω από 50% ταχύτερη LLVM compilation σε σχέση με Arm-based server CPUs και έως 70% υψηλότερη απόδοση σε vector database workloads σε σχέση με competing x86 επεξεργαστές — συγκεκριμένα τους AMD EPYC. Οι δύο εταιρείες ισχυρίζονται ότι αυτά τα gains στοχεύουν στη μείωση των end-to-end development cycles για coding agents.

    Ένα από τα βασικά πρακτικά πλεονεκτήματα που αναφέρουν οι δύο εταιρείες είναι ότι οι SN50 και οι Xeon-based servers είναι drop-in compatible με data centers που χειρίζονται 30kW — κατώφλι που καλύπτει τη μεγάλη πλειοψηφία των enterprise data centers. Αυτό θέτει ως στόχο να μειωθεί η ανάγκη για εκτεταμένες υποδομικές αναβαθμίσεις κατά την υιοθέτηση της πλατφόρμας.

    Διαθεσιμότητα και αγορά-στόχος

    Η πλατφόρμα είναι προγραμματισμένη να διατεθεί στο δεύτερο εξάμηνο του 2026, απευθυνόμενη σε enterprises, cloud operators και sovereign AI προγράμματα που αναζητούν scalable inference — και ιδιαίτερα agentic workloads όπως coding agents — εξ ολοκλήρου on-premise. Ο συνολικός στόχος της συνεργασίας, σύμφωνα με τις δύο εταιρείες, είναι να αποσπάσει μερίδιο αγοράς από την Nvidia και άλλους emerging players στον χώρο του AI inference.

    Sources


×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.