Η NVIDIA «χτυπά» πρώτη με Day-0 Blackwell υποστήριξη για το DeepSeek V4 — 3.500 tokens/sec σε μοντέλα 1,6T παραμέτρων - Τεχνητή Νοημοσύνη

Από Newsbot

1 ώρα πριν
Από Newsbot • 1 ώρα πριν

Η NVIDIA «χτυπά» πρώτη με Day-0 Blackwell υποστήριξη για το DeepSeek V4 — 3.500 tokens/sec σε μοντέλα 1,6T παραμέτρων

Followers 0
Η NVIDIA παρέχει Day-0 υποστήριξη για το DeepSeek V4 στην πλατφόρμα Blackwell, επιτυγχάνοντας ~3.500 tokens/sec ανά GPU σε προκαταρκτικές δοκιμές με GB300/Blackwell Ultra.
Το DeepSeek-V4-Pro διαθέτει 1,6 τρισεκατομμύρια παραμέτρους συνολικά (49B ενεργές) και παράθυρο context 1 εκατομμυρίου tokens, ενώ το V4-Flash έχει 284B παραμέτρους με 13B ενεργές.
Η νέα αρχιτεκτονική μειώνει κατά 73% τα per-token inference FLOPs και κατά 90% το memory footprint του KV cache σε σχέση με το DeepSeek-V3.2.
Η DeepSeek μόλις παρουσίασε την τέταρτη γενιά των flagship μοντέλων της, και η NVIDIA ήταν έτοιμη από την πρώτη στιγμή. Με Day-0 υποστήριξη στην πλατφόρμα Blackwell, η πράσινη εταιρεία αποδεικνύει για ακόμη μια φορά γιατί παραμένει το απόλυτο σημείο αναφοράς στον χώρο της επιτάχυνσης AI inference.
Τα νέα μοντέλα DeepSeek V4: Pro και Flash
Η DeepSeek κυκλοφόρησε δύο νέα μοντέλα: το DeepSeek-V4-Pro και το DeepSeek-V4-Flash, και τα δύο σχεδιασμένα για εξαιρετικά αποδοτικό inference με παράθυρο context ενός εκατομμυρίου tokens. Το DeepSeek-V4-Pro είναι το μεγαλύτερο μοντέλο της οικογένειας, με 1,6 τρισεκατομμύρια παραμέτρους συνολικά και 49 δισεκατομμύρια ενεργές παραμέτρους. Το DeepSeek-V4-Flash, από την άλλη, είναι ένα μικρότερο μοντέλο 284B παραμέτρων με 13B ενεργές, σχεδιασμένο για ταχύτερες και πιο αποδοτικές εργασίες. Και τα δύο μοντέλα υποστηρίζουν έως 1 εκατομμύριο tokens στο context window, ανοίγοντας νέες δυνατότητες για long-context coding, ανάλυση εγγράφων, retrieval και agentic AI workflows. Επιπλέον, διατίθενται υπό άδεια MIT, κάτι που τα καθιστά ελεύθερα για εμπορική χρήση.
~3.500 Tokens/sec: Τα νούμερα που εντυπωσιάζουν
Σε slides που παρουσίασε η NVIDIA, η εταιρεία επιδεικνύει απόδοση κοντά στα 3.500 tokens per second ανά GPU (GB300 / Blackwell Ultra) — και αυτά είναι απλώς προκαταρκτικά νούμερα που αναμένεται να αυξηθούν σημαντικά καθώς συνεχίζονται οι βελτιστοποιήσεις. Παράλληλα, εκτός κουτιού δοκιμές στο NVIDIA GB200 NVL72 αποδίδουν πάνω από 150 tokens/sec ανά χρήστη για το DeepSeek-V4-Pro. Η ομάδα της NVIDIA χρησιμοποίησε το Day-0 recipe του vLLM για Blackwell B300, παράγοντας μια πρώτη εικόνα της out-of-the-box απόδοσης του μοντέλου.
Αρχιτεκτονική και τεχνολογική혁 καινοτομία
Η οικογένεια V4 βασίζεται στην MoE (Mixture of Experts) αρχιτεκτονική της DeepSeek, με αυξημένη έμφαση στη βελτιστοποίηση του attention component. Οι καινοτομίες αυτές έχουν σχεδιαστεί ώστε να επιτύχουν 73% μείωση στα per-token inference FLOPs και 90% μείωση στο memory footprint του KV cache σε σχέση με το DeepSeek-V3.2. Συνδυαστικά, αυτές οι τεχνολογίες επιτρέπουν στο μοντέλο να υποστηρίξει παράθυρο context 1 εκατομμυρίου tokens χρησιμοποιώντας 9,5 έως 13,7 φορές λιγότερη μνήμη από το DeepSeek V3.2.
Κομβικό ρόλο παίζει η χρήση MXFP4 quantization, η οποία επιταχύνει τόσο τα rollouts όσο και τα inference passes, μειώνοντας τo memory traffic και τo sampling latency. Αξίζει να σημειωθεί ότι τα μοντέλα V4 χρησιμοποιούν συνδυασμό FP8 και FP4 precision, με quantization-aware training για τα MoE expert weights.
Το Blackwell Stack και τα εργαλεία ανάπτυξης
Το NVIDIA Blackwell stack προσφέρει ένα πλούσιο σύνολο τεχνολογιών ειδικά σχεδιασμένων για μοντέλα όπως το V4: NVFP4, Dynamo, βελτιστοποιημένα CUDA Kernels, προηγμένες τεχνικές παραλληλισμού και πολλά ακόμη. Η NVIDIA αναμένει αυτή η απόδοση να ανέβει ακόμα ψηλότερα καθώς βελτιστοποιείται ολόκληρο το extreme co-design stack.
Για τους developers, το DeepSeek V4 είναι διαθέσιμο με Day-0 μέσω NVIDIA NIM, ενώ μπορούν επίσης να χρησιμοποιήσουν GPU-accelerated endpoints στο build.nvidia.com ως μέλη του NVIDIA Developer Program. Το SGLang προσφέρει τρεις κύριες serving recipes για DeepSeek-V4 σε Blackwell και Hopper (low-latency, balanced, max-throughput), μαζί με εξειδικευμένες recipes για long-context workloads. Το vLLM, από την πλευρά του, παρέχει single-node και multinode serving recipes που κλιμακώνονται έως 100+ GPUs, με υποστήριξη tool calling, reasoning και speculative decoding.
Benchmark και ανταγωνισμός
Σύμφωνα με τη DeepSeek, το V4-Pro έχει εκπαιδευτεί σε 33 τρισεκατομμύρια tokens και — αν τα στοιχεία της εταιρείας επαληθευτούν — ξεπερνά όλα τα open-weight LLMs ενώ ανταγωνίζεται τα καλύτερα ιδιόκτητα μοντέλα της Δύσης σε μια σειρά benchmarks. Σε δημοφιλή benchmarks όπως το MMLU-Pro, το DeepSeek V4-Pro φαίνεται να συγκρίνεται άμεσα με το GPT-5 της OpenAI. Όπως πάντα, οι αξιώσεις αυτές πρέπει να ελεγχθούν σε πραγματικές συνθήκες λειτουργίας.
Πηγές
WCCFTech — NVIDIA Beats Everyone To DeepSeek V4 With Day-0 Blackwell Support
NVIDIA Developer Blog — Build with DeepSeek V4 Using NVIDIA Blackwell
The Register — DeepSeek's new models offer big inference cost savings
LMSYS Blog — DeepSeek-V4 on Day 0: From Fast Inference to Verified RL
AI

Blackwell

DeepSeek

LLM

NVIDIA
Κοινοποίηση
https://www.thelab.gr/news/%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7/%CE%B7-nvidia-%C2%AB%CF%87%CF%84%CF%85%CF%80%CE%AC%C2%BB-%CF%80%CF%81%CF%8E%CF%84%CE%B7-%CE%BC%CE%B5-day-0-blackwell-%CF%85%CF%80%CE%BF%CF%83%CF%84%CE%AE%CF%81%CE%B9%CE%BE%CE%B7-%CE%B3%CE%B9%CE%B1-%CF%84%CE%BF-deepseek-v4-%E2%80%94-3500-tokenssec-%CF%83%CE%B5-%CE%BC%CE%BF%CE%BD%CF%84%CE%AD%CE%BB%CE%B1-16t-%CF%80%CE%B1%CF%81%CE%B1%CE%BC%CE%AD%CF%84%CF%81%CF%89%CE%BD-r11571/
Followers 0
Ακολουθήστε το TheLab στο Viber για να λαμβάνετε πρώτοι όλες τις τεχνολογικές μας ειδήσεις καθώς και τις τελευταίες μας κριτικές προϊόντων.

Go to ειδήσεις

User Feedback
0 Comments
Recommended Comments

There are no comments to display.

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!
Register a new account

Sign in

Already have an account? Sign in here.
Sign In Now

Similar Content
- DeepSeek V4: Η Κίνα επιστρέφει με το ισχυρότερο open-source μοντέλο AI
  
  By Newsbot, Παρασκευή at 12:02 μμ
  - AI
  - China
  - (και 3 επιπλέον)
    
    Tagged with:
    
    AI
    
    China
    
    DeepSeek
    
    LLM
    
    OpenSource
  - 0 comments
  - 306 views
- Το Linux εξετάζει την κατάργηση παλιών drivers δικτύου λόγω πλημμύρας ψεύτικων αναφορών σφαλμάτων από AI
  
  By Newsbot, Τετάρτη at 05:01 μμ
  - AI
  - Kernel
  - (και 3 επιπλέον)
    
    Tagged with:
    
    AI
    
    Kernel
    
    Linux
    
    Network Drivers
    
    Open Source
  - 2 comments
  - 314 views
- NVIDIA ReSTIR PT Enhanced: 2-3x Ταχύτερο Path Tracing σε Πραγματικό Χρόνο
  
  By Newsbot, Δευτέρα at 04:38 μμ
  - Gaming
  - NVIDIA
  - (και 3 επιπλέον)
    
    Tagged with:
    
    Gaming
    
    NVIDIA
    
    Path Tracing
    
    Ray Tracing
    
    ReSTIR
  - 0 comments
  - 364 views
- NVIDIA αναπτύσσει νέο ReSTIR PT Enhanced: Path Tracing 2-3x πιο γρήγορο με καλύτερη ποιότητα εικόνας
  
  By Newsbot, Δευτέρα at 03:01 μμ
  - Gaming
  - NVIDIA
  - (και 3 επιπλέον)
    
    Tagged with:
    
    Gaming
    
    NVIDIA
    
    Path Tracing
    
    ReSTIR
    
    RTX
  - 0 comments
  - 374 views
- Παραβίαση της Vercel: Hackers απέκτησαν πρόσβαση μέσω AI εργαλείου τρίτου κατασκευαστή
  
  By Newsbot, Απρίλιος 20
  - AI
  - Cloud
  - (και 3 επιπλέον)
    
    Tagged with:
    
    AI
    
    Cloud
    
    Data Breach
    
    Security
    
    Vercel
  - 1 comment
  - 377 views

Sign In

Η NVIDIA «χτυπά» πρώτη με Day-0 Blackwell υποστήριξη για το DeepSeek V4 — 3.500 tokens/sec σε μοντέλα 1,6T παραμέτρων

Τα νέα μοντέλα DeepSeek V4: Pro και Flash

~3.500 Tokens/sec: Τα νούμερα που εντυπωσιάζουν

Αρχιτεκτονική και τεχνολογική혁 καινοτομία

Το Blackwell Stack και τα εργαλεία ανάπτυξης

Benchmark και ανταγωνισμός

Πηγές

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

DeepSeek V4: Η Κίνα επιστρέφει με το ισχυρότερο open-source μοντέλο AI

Το Linux εξετάζει την κατάργηση παλιών drivers δικτύου λόγω πλημμύρας ψεύτικων αναφορών σφαλμάτων από AI

NVIDIA ReSTIR PT Enhanced: 2-3x Ταχύτερο Path Tracing σε Πραγματικό Χρόνο

NVIDIA αναπτύσσει νέο ReSTIR PT Enhanced: Path Tracing 2-3x πιο γρήγορο με καλύτερη ποιότητα εικόνας

Παραβίαση της Vercel: Hackers απέκτησαν πρόσβαση μέσω AI εργαλείου τρίτου κατασκευαστή

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information