Jump to content
  • Newsbot
    Newsbot

    DeepSeek V4: Η Κίνα επιστρέφει με το ισχυρότερο open-source μοντέλο AI

    • Το DeepSeek κυκλοφόρησε preview της σειράς V4 με δύο μοντέλα: το V4-Pro (1.6T παράμετροι) και το V4-Flash (284B παράμετροι), και τα δύο με context window 1 εκατομμυρίου tokens.
    • Το V4-Pro-Max διεκδικεί τον τίτλο του ισχυρότερου open-source μοντέλου, με κορυφαίες επιδόσεις σε coding benchmarks και agentic tasks — υπερτερεί έναντι GPT-5.2 αλλά υπολείπεται οριακά του GPT-5.4.
    • Τα μοντέλα τρέχουν σε επεξεργαστές Huawei Ascend, χωρίς εξάρτηση από Nvidia, γεγονός που αναλυτές θεωρούν εξίσου σημαντικό με τις επιδόσεις τους.

    Ένα χρόνο αφότου το DeepSeek R1 «τάραξε» τις αγορές και έθεσε σε αμφισβήτηση την αμερικανική πρωτοκαθεδρία στην Τεχνητή Νοημοσύνη, η κινεζική startup επιστρέφει με τη σειρά V4 — το πολυαναμενόμενο επόμενο βήμα της. Η εταιρεία από το Χανγκζόου κυκλοφόρησε preview εκδόσεις των νέων μοντέλων της την Παρασκευή, στοχεύοντας ξανά κατευθείαν στους OpenAI, Google και Anthropic.

    Τα δύο νέα μοντέλα: Pro και Flash

    Η σειρά V4 αποτελείται από δύο διαφορετικά μοντέλα Mixture-of-Experts (MoE): το DeepSeek-V4-Pro με 1.6 τρισεκατομμύρια παραμέτρους (49B ενεργοποιούμενες) και το DeepSeek-V4-Flash με 284 δισεκατομμύρια παραμέτρους (13B ενεργοποιούμενες). Και τα δύο υποστηρίζουν context window 1 εκατομμυρίου tokens — τεράστια αύξηση σε σχέση με τα 128.000 tokens που υποστήριζε το V3.

    Όπως χαρακτηριστικά αναφέρει η ίδια η εταιρεία, η επέκταση αυτή επιτρέπει την αποστολή ολόκληρων codebases ή μεγάλων εγγράφων ως ένα ενιαίο prompt — κάτι ιδιαίτερα χρήσιμο για προγραμματιστές και ερευνητές.

    Αρχιτεκτονικές καινοτομίες

    Το V4 φέρνει σημαντικές αρχιτεκτονικές αναβαθμίσεις. Η εταιρεία παρουσίασε το Hybrid Attention Architecture, έναν μηχανισμό προσοχής που συνδυάζει Compressed Sparse Attention (CSA) και Heavily Compressed Attention (HCA) για δραματική βελτίωση της αποδοτικότητας σε μακροσκελή κείμενα. Στο 1M-token context setting, το V4-Pro απαιτεί μόλις το 27% των FLOPs συμπερασμού ενός μόνο token και το 10% του KV cache σε σύγκριση με το V3.2.

    Επίσης εισάγεται η τεχνική Manifold-Constrained Hyper-Connections (mHC), που ενισχύει τις residual connections και βελτιώνει τη σταθερότητα διάδοσης σήματος μεταξύ των επιπέδων του μοντέλου. Η pre-training έγινε σε πάνω από 32 τρισεκατομμύρια tokens υψηλής ποιότητας.

    Επιδόσεις και σύγκριση με αντιπάλους

    Σύμφωνα με τα αποτελέσματα που δημοσίευσε η ίδια η DeepSeek, το V4-Pro-Max ξεπερνά το GPT-5.2 της OpenAI και το Gemini 3.0-Pro της Google σε βασικά reasoning benchmarks, ενώ υπολείπεται «οριακά» του GPT-5.4 και του Gemini 3.1-Pro. Σε agentic tasks, το V4-Pro ξεπερνά το Claude Sonnet 4.5 της Anthropic και πλησιάζει το επίπεδο του Claude Opus 4.5. Το V4-Flash από την πλευρά του αποδίδει συγκρίσιμα με το Pro σε απλά agentic tasks και προσεγγίζει τις reasoning ικανότητές του.

    Η DeepSeek ισχυρίζεται ότι το V4 έχει τις καλύτερες agentic coding ικανότητες μεταξύ όλων των open-source μοντέλων και «world class» reasoning. Παράλληλα, επισημαίνει ότι υστερεί ακόμα έναντι του Gemini στη γενική γνώση του κόσμου. Αναλυτές υπογραμμίζουν ότι χρειάζονται ανεξάρτητες αξιολογήσεις πριν από οριστικά συμπεράσματα.

    Huawei Ascend: Χωρίς Nvidia

    Ένα από τα πιο σημαντικά στοιχεία της ανακοίνωσης είναι το τεχνολογικό υπόβαθρο του V4. Η Huawei επιβεβαίωσε ότι το νέο cluster της, βασισμένο στους επεξεργαστές Ascend 950, υποστηρίζει πλήρως το V4 μέσω της τεχνολογίας «Supernode». Το μοντέλο τρέχει επίσης σε chips της Cambricon, μιας άλλης κινεζικής εταιρείας. Αναλυτές εκτιμούν ότι αυτό μπορεί να αποδειχτεί εξίσου σημαντικό με τις ίδιες τις επιδόσεις του μοντέλου, καθώς αποδεικνύει ότι η ανάπτυξη υψηλής ποιότητας AI δεν απαιτεί πλέον αναγκαστικά hardware της Nvidia.

    Open-source και αγορές

    Όπως και τα προηγούμενα μοντέλα της, το V4 κυκλοφορεί ως open-source με άδεια MIT, επιτρέποντας σε developers να το κατεβάσουν, να το τρέξουν τοπικά και να το τροποποιήσουν. Προς το παρόν υποστηρίζει μόνο κείμενο, με την εταιρεία να δηλώνει ότι εργάζεται για ενσωμάτωση multimodal δυνατοτήτων (εικόνες, βίντεο) στο μέλλον.

    Η ανακοίνωση ήρθε λίγες μέρες μετά από δημοσιεύματα που ανέφεραν ότι οι Tencent και Alibaba διαπραγματεύονται επένδυση στο DeepSeek με αποτίμηση άνω των 20 δισεκατομμυρίων δολαρίων. Στα χρηματιστήρια, οι μετοχές κινεζικών κατασκευαστών chip εκτινάχθηκαν: η SMIC ανέβηκε 9% και η Hua Hong Semiconductor 15%, ενώ άλλες κινεζικές AI εταιρείες υποχώρησαν.

    Το πλαίσιο: Κίνα vs ΗΠΑ στην AI

    Σύμφωνα με τον Stanford AI Index 2026, οι κινεζικές εταιρείες έχουν «ουσιαστικά κλείσει» το χάσμα επιδόσεων AI με τους αμερικανούς αντιπάλους τους. Παράλληλα, οι Anthropic και OpenAI έχουν κατηγορήσει τη DeepSeek για χρήση της τεχνικής «distillation» — εκπαίδευση λιγότερο ισχυρών μοντέλων στα outputs ισχυρότερων — προκειμένου να ενισχύσει τις δυνατότητές της. Ο σύμβουλος επιστήμης και τεχνολογίας του Λευκού Οίκου Michael Kratsios κατηγόρησε την εβδομάδα αυτή ξένες εταιρείες «που εδρεύουν κυρίως στην Κίνα» για εκστρατείες distillation σε «βιομηχανική κλίμακα».

    Πηγές


×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.