- Η NVIDIA παρέχει Day-0 υποστήριξη για το DeepSeek V4 στην πλατφόρμα Blackwell, επιτυγχάνοντας ~3.500 tokens/sec ανά GPU σε προκαταρκτικές δοκιμές με GB300/Blackwell Ultra.
- Το DeepSeek-V4-Pro διαθέτει 1,6 τρισεκατομμύρια παραμέτρους συνολικά (49B ενεργές) και παράθυρο context 1 εκατομμυρίου tokens, ενώ το V4-Flash έχει 284B παραμέτρους με 13B ενεργές.
- Η νέα αρχιτεκτονική μειώνει κατά 73% τα per-token inference FLOPs και κατά 90% το memory footprint του KV cache σε σχέση με το DeepSeek-V3.2.
Η DeepSeek μόλις παρουσίασε την τέταρτη γενιά των flagship μοντέλων της, και η NVIDIA ήταν έτοιμη από την πρώτη στιγμή. Με Day-0 υποστήριξη στην πλατφόρμα Blackwell, η πράσινη εταιρεία αποδεικνύει για ακόμη μια φορά γιατί παραμένει το απόλυτο σημείο αναφοράς στον χώρο της επιτάχυνσης AI inference.
Τα νέα μοντέλα DeepSeek V4: Pro και Flash
Η DeepSeek κυκλοφόρησε δύο νέα μοντέλα: το DeepSeek-V4-Pro και το DeepSeek-V4-Flash, και τα δύο σχεδιασμένα για εξαιρετικά αποδοτικό inference με παράθυρο context ενός εκατομμυρίου tokens. Το DeepSeek-V4-Pro είναι το μεγαλύτερο μοντέλο της οικογένειας, με 1,6 τρισεκατομμύρια παραμέτρους συνολικά και 49 δισεκατομμύρια ενεργές παραμέτρους. Το DeepSeek-V4-Flash, από την άλλη, είναι ένα μικρότερο μοντέλο 284B παραμέτρων με 13B ενεργές, σχεδιασμένο για ταχύτερες και πιο αποδοτικές εργασίες. Και τα δύο μοντέλα υποστηρίζουν έως 1 εκατομμύριο tokens στο context window, ανοίγοντας νέες δυνατότητες για long-context coding, ανάλυση εγγράφων, retrieval και agentic AI workflows. Επιπλέον, διατίθενται υπό άδεια MIT, κάτι που τα καθιστά ελεύθερα για εμπορική χρήση.
~3.500 Tokens/sec: Τα νούμερα που εντυπωσιάζουν
Σε slides που παρουσίασε η NVIDIA, η εταιρεία επιδεικνύει απόδοση κοντά στα 3.500 tokens per second ανά GPU (GB300 / Blackwell Ultra) — και αυτά είναι απλώς προκαταρκτικά νούμερα που αναμένεται να αυξηθούν σημαντικά καθώς συνεχίζονται οι βελτιστοποιήσεις. Παράλληλα, εκτός κουτιού δοκιμές στο NVIDIA GB200 NVL72 αποδίδουν πάνω από 150 tokens/sec ανά χρήστη για το DeepSeek-V4-Pro. Η ομάδα της NVIDIA χρησιμοποίησε το Day-0 recipe του vLLM για Blackwell B300, παράγοντας μια πρώτη εικόνα της out-of-the-box απόδοσης του μοντέλου.
Αρχιτεκτονική και τεχνολογική혁 καινοτομία
Η οικογένεια V4 βασίζεται στην MoE (Mixture of Experts) αρχιτεκτονική της DeepSeek, με αυξημένη έμφαση στη βελτιστοποίηση του attention component. Οι καινοτομίες αυτές έχουν σχεδιαστεί ώστε να επιτύχουν 73% μείωση στα per-token inference FLOPs και 90% μείωση στο memory footprint του KV cache σε σχέση με το DeepSeek-V3.2. Συνδυαστικά, αυτές οι τεχνολογίες επιτρέπουν στο μοντέλο να υποστηρίξει παράθυρο context 1 εκατομμυρίου tokens χρησιμοποιώντας 9,5 έως 13,7 φορές λιγότερη μνήμη από το DeepSeek V3.2.
Κομβικό ρόλο παίζει η χρήση MXFP4 quantization, η οποία επιταχύνει τόσο τα rollouts όσο και τα inference passes, μειώνοντας τo memory traffic και τo sampling latency. Αξίζει να σημειωθεί ότι τα μοντέλα V4 χρησιμοποιούν συνδυασμό FP8 και FP4 precision, με quantization-aware training για τα MoE expert weights.
Το Blackwell Stack και τα εργαλεία ανάπτυξης
Το NVIDIA Blackwell stack προσφέρει ένα πλούσιο σύνολο τεχνολογιών ειδικά σχεδιασμένων για μοντέλα όπως το V4: NVFP4, Dynamo, βελτιστοποιημένα CUDA Kernels, προηγμένες τεχνικές παραλληλισμού και πολλά ακόμη. Η NVIDIA αναμένει αυτή η απόδοση να ανέβει ακόμα ψηλότερα καθώς βελτιστοποιείται ολόκληρο το extreme co-design stack.
Για τους developers, το DeepSeek V4 είναι διαθέσιμο με Day-0 μέσω NVIDIA NIM, ενώ μπορούν επίσης να χρησιμοποιήσουν GPU-accelerated endpoints στο build.nvidia.com ως μέλη του NVIDIA Developer Program. Το SGLang προσφέρει τρεις κύριες serving recipes για DeepSeek-V4 σε Blackwell και Hopper (low-latency, balanced, max-throughput), μαζί με εξειδικευμένες recipes για long-context workloads. Το vLLM, από την πλευρά του, παρέχει single-node και multinode serving recipes που κλιμακώνονται έως 100+ GPUs, με υποστήριξη tool calling, reasoning και speculative decoding.
Benchmark και ανταγωνισμός
Σύμφωνα με τη DeepSeek, το V4-Pro έχει εκπαιδευτεί σε 33 τρισεκατομμύρια tokens και — αν τα στοιχεία της εταιρείας επαληθευτούν — ξεπερνά όλα τα open-weight LLMs ενώ ανταγωνίζεται τα καλύτερα ιδιόκτητα μοντέλα της Δύσης σε μια σειρά benchmarks. Σε δημοφιλή benchmarks όπως το MMLU-Pro, το DeepSeek V4-Pro φαίνεται να συγκρίνεται άμεσα με το GPT-5 της OpenAI. Όπως πάντα, οι αξιώσεις αυτές πρέπει να ελεγχθούν σε πραγματικές συνθήκες λειτουργίας.

Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now