DeepSeek V3.2-Exp : Sparse Attention et Prix API

Avatar
Lisa Ernst · 29.09.2025 · Technique · 5 min

DeepSeek a publié avec V3.2-Exp un modèle intermédiaire expérimental basé sur l'architecture V3.1. L'introduction de DeepSeek Sparse Attention (DSA) vise à réduire la charge de calcul, en particulier pour les longs contextes, sans nuire de manière significative à la qualité de sortie. Parallèlement, DeepSeek a annoncé une nette réduction des prix API. Cette étape est interprétée comme une préparation à la prochaine génération de modèles et en réaction à la pression concurrentielle sur le marché de l'IA.

Aperçu de DeepSeek V3.2-Exp

DeepSeek V3.2-Exp est un modèle intermédiaire expérimental qui se base sur DeepSeek V3.1 (« Terminus »). La principale nouveauté est la DeepSeek Sparse Attention (DSA). Cette variante d'attention économe réduit la charge de calcul en ne regardant plus tous les tokens précédents en même temps, mais en en choisissant délibérément une sous-ensemble plus petit. Cela réduit les besoins en mémoire et en calcul et facilite le traitement de longues entrées, comme dans la Documentation de vLLM explique. Selon le fabricant, les performances dans les benchmarks restent à peu près au niveau de V3.1-Terminus.

Les fichiers de modèle et la description technique sont publiquement accessibles. Une Fiche modèle sur Hugging Face ainsi qu'un Rapport technique sont disponibles. DeepSeek a publié V3.2-Exp aujourd'hui comme « étape intermédiaire » vers la prochaine génération et a en même temps annoncé une nette réduction des prix API de « 50%+ », comme Reuters a rapporté. . Les documents API officiels nomment DSA comme innovation clé, font référence à la parité avec V3.1-Terminus dans les benchmarks et confirment la baisse des prix. V3.1-Terminus reste temporairement accessible pour faciliter les comparaisons.

Comparaison des performances et des coûts de DeepSeek-V3 avec les principaux modèles d'IA, mettant en évidence la compétitivité du modèle.

Quelle: deepseekv3.org

Comparaison des performances et des coûts de DeepSeek-V3 avec les principaux modèles d'IA, mettant en évidence la compétitivité du modèle.

Contexte et motivation

Cette étape fait partie d'une stratégie à long terme. Déjà en février, DeepSeek a réduit les prix hors pointe jusqu'à 75% entre 16h30 et 00h30 GMT, ce qui répond particulièrement aux heures ouvrables européennes, comme Reuters a rapporté. . De plus, DeepSeek avait annoncé en février « Native Sparse Attention » comme algorithme et a réaffirmé la divulgation du code, ce qui suggère que DSA n'est pas ad hoc, mais fait partie d'une stratégie d'efficacité à long terme, comme Reuters a constaté. . Les médias chinois positionnent V3.2-Exp comme une étape intermédiaire expérimentale dans un rythme de publication rapide (V3.1 en août, mise à jour V3.1 en septembre), comme le SCMP a rapporté.

Les motifs de cette étape intermédiaire sont variés. Premièrement: pression sur les coûts et l'efficacité. Une attention économisée réduit les coûts d'inférence pour les longs contextes, tant pour le fournisseur que pour les utilisateurs. En corrélation avec la réduction des prix API, cela affûte la proposition prix-performance de DeepSeek. Deuxièmement: accélération du rythme. Des versions intermédiaires fréquentes maintiennent l'attention et permettent de tester des idées d'architecture – ici DSA – en pratique avant l'introduction de modèles « Next-Gen ». Troisièmement: dynamique de marché et de plateforme. Les signaux Low-Cost/High-Performance de DeepSeek ont déjà provoqué des réactions de marché en 2025; les concurrents ont dû repenser leurs stratégies et leurs prix, comme The Guardian a rapporté.

Quelle: YouTube

La vidéo esquisse l'idée derrière « Native Sparse Attention » comme contexte pour ce que DeepSeek teste désormais concrètement avec DSA.

Analyse et évaluation

La sortie actuelle de V3.2-Exp en tant que modèle intermédiaire expérimental et l'introduction de DeepSeek Sparse Attention sont attestées. La réduction de prix officielle de « 50%+ » et l'accès continu à V3.1-Terminus pour les comparaisons sont également confirmés. Modèles, artefacts et benchmarks sont publiquement accessibles; la Fiche modèle et le Tech-Report indiquent la parité avec V3.1-Terminus sur certains benchmarks.

L'architecture de Native Sparse Attention, qui permet l'efficacité et les performances de DeepSeek V3.2-Exp.

Quelle: deepnewz.com

L'architecture de Native Sparse Attention, qui permet l'efficacité et les performances de DeepSeek V3.2-Exp.

Il est incertain de savoir comment DSA se comporte sous charge de production dans diverses chaînes d'outils (RAG, Agents, Tool Use) par rapport à V3.1-Terminus; les premiers tests communautaires sont anecdotiques. Il est également incertain de savoir à quel point la réduction des prix est durable et si elle s'applique de la même manière dans toutes les régions/fuseaux horaires; les mécanismes hors pointe suggèrent des modèles de tarification différenciés. L'affirmation « La prochaine génération est là » est fausse / trompeuse, car V3.2-Exp est expressément désigné comme une étape intermédiaire, et non comme une version « Next-Gen ». Les concurrents évaluent l'influence de DeepSeek différemment : Anthropic a parlé de « presque aucune influence » sur sa propre stratégie et met l'accent sur des partenariats à long terme plutôt que sur des transactions API pures, comme Business Insider a rapporté. . Le PDG d'OpenAI, Sam Altman, a qualifié la concurrence de « stimulant » et a annoncé des sorties plus rapides de « modèles meilleurs », comme Business Insider il l'a constaté.. . Sur les marchés financiers, au début de 2025, il y a eu des réactions visibles face aux avancées de DeepSeek, ce qui a changé la perception du paradigme prix-performance dans l'IA.

Effets et recommandations

Pour les développeurs, cela signifie que des contextes plus longs deviennent plus rentables. Il est recommandé de tester V3.2-Exp contre les pipelines actuelles (par exemple RAG, Agents, Code-Assist) et de surveiller la latence, la stabilité et les coûts par jeton. DeepSeek propose un chemin de comparaison à V3.1-Terminus. Pour les entreprises, la concurrence sur les prix renforce le pouvoir de négociation. Il est conseillé d'examiner les modèles de contrat (On-/Off-Peak), les exigences de données et de conformité, et de planifier la diversification des fournisseurs. Tarification de l'API DeepSeek-V3, mettant en évidence l'efficacité des coûts pour les jetons d'entrée et de sortie.

Tarification de l'API DeepSeek-V3, mettant en évidence l'efficacité des coûts pour les jetons d'entrée et de sortie.

Quelle: deepseekv3.org

Tarification de l'API DeepSeek-V3, mettant en évidence l'efficacité des coûts pour les jetons d'entrée et de sortie.

Pour l'écosystème : si DSA tient ses promesses, une vague de méthodes d'attention économes pourrait migrer vers les chemins d'inférence grand public (par exemple vLLM-Rezepte/Deploy-Guides). Des questions ouvertes demeurent : Quelle est la robustesse de DSA à travers les domaines (Code, Tool Use, Multilingue, Retrieval) ? Ici, des benchmarks ouverts et reproductibles et des tests à long terme indépendants aideront. Dans quelle mesure les réductions de prix sont-elles durables selon les régions et les horaires ? Des grilles tarifaires transparentes et des courbes d'utilisation réelles seraient utiles. Quel rôle jouent les nouvelles informations de formation et d'infrastructure (par ex. coûts, matériel) pour les générations futures – et comment seront-elles vérifiées ?

Quelle: YouTube

Conclusion : DeepSeek V3.2-Exp n'est pas un « grand coup », mais un essai utile. DSA promet moins de calculs pour les longs contextes, et le fournisseur l'accompagne de baisses de prix et de mise à disposition ouverte. Pour les développeurs et les entreprises, cela signifie comparer de manière pragmatique, mesurer les charges de travail réelles et renégocier les coûts – en tenant compte de la stabilité, de la conformité et de la sécurité à l'avenir.

Teilen Sie doch unseren Beitrag!