DeepSeek V3.2-Exp: 稀疏注意力与 API 价格

Avatar
Lisa Ernst · 29.09.2025 · 技术 · 5 分钟

DeepSeek 已发布基于 V3.1 架构的一个实验性中间模型 V3.2-Exp。引入 DeepSeek 稀疏注意力(DSA)旨在降低计算量,尤其是在较长的上下文中,同时不显著降低输出质量。与之同时,DeepSeek 宣布将大幅降低 API 价格。此举被解读为对下一代模型的准备,以及应对 AI 市场竞争压力的举措。

DeepSeek V3.2-Exp 概览

DeepSeek V3.2-Exp 是一个建立在 DeepSeek V3.1(Terminus)之上的实验性中间模型。核心创新是 DeepSeek 稀疏注意力(DSA). 这种节省型注意力变体通过不再同时考虑所有先前的令牌,而是有选择地只处理一个较小的子集。这降低了存储和计算需求,并使处理较长输入更容易,如在 vLLM 文档中所述。 vLLM 文档. 解释说明。根据厂商,在基准测试中的性能大致与 V3.1-Terminus 相当。

模型文件和技术描述是公开可获取的。. 一个 Hugging Face 上的模型卡 以及一个 技术报告 可用。. DeepSeek 今日将 V3.2-Exp 作为面向下一代的中间步骤发布,并同时宣布 API 价格将显著下降 50% 以上,如 路透社报道 官方 API 文档称 „50%+“ 这是核心创新,指向在基准测试中与 V3.1-Terminus 的对等,并确认降价。, V3.1-Terminus 将暂时可访问,以便进行比较。 这凸显了该模型的竞争力。. 原生稀疏注意力的架构,使 DeepSeek V3.2-Exp 的效率和性能成为可能。 原生稀疏注意力的架构,使 DeepSeek V3.2-Exp 的效率和性能成为可能。 DSA 背景与动机 V3.1-Terminus 这一步是长期战略的一部分。.

早在二月,DeepSeek 将非高峰时段价格在 16:30–00:30 GMT 间降至最高 75%,这对欧洲工作时间尤其有利,如

Quelle: deepseekv3.org

早在二月,DeepSeek 将非高峰时段价格在 16:30–00:30 GMT 间降至最高 75%,这对欧洲工作时间尤其有利,如

路透社报道

此外,DeepSeek 在二月宣布将原生稀疏注意力作为一种算法,并重申代码公开,这表明 DSA 不是临时举措,而是长期效率策略的一部分,如. 路透社指出 中国媒体将 V3.2-Exp 归类为快速发布节奏中的实验性中间步骤(8 月为 V3.1,9 月为 V3.1 更新),如. 南华早报报道 DeepSeek im Februar „Native Sparse Attention“ 这一中间步骤的动机有多种。 und die Offenlegung von Code bekräftigt, was darauf hindeutet, dass DSA nicht ad hoc, sondern Teil einer langfristigen Effizienzstrategie ist, wie 第一:成本与效率压力。节省型注意力在处理长上下文时降低推断成本,既惠及提供方也惠及用户。再结合 API 价格的下降,这提升了 DeepSeek 的性价比定位。. 第二:节奏加速。频繁的中间版本保持关注度,并允许在实践中测试架构思路——这里是 DSA——再在推出下一代模型之前。 V3.2-Exp 第三:市场与平台动态。DeepSeek 的低成本/高性能信号已在 2025 年引发了可观的市场反应,竞争对手被迫重新思考策略和价格,如 (V3.1 im August, V3.1-Update im September), wie die 卫报报道.

这段视频勾画出原生稀疏注意力背后的思路,作为 DeepSeek 现在通过 DSA 进行产品级测试的背景。. 分析与评估. 可以确认的是,今天发布的 V3.2-Exp 作为实验性中间模型的发布,以及 DeepSeek 稀疏注意力的引入。官方降价幅度为 50% 以上,并且仍可获取用于对比的 V3.1-Terminus。模型、工件和基准测试是公开可检索的;Model Card 和 Tech-Report 在选定基准上显示与 V3.1-Terminus 的等效性。 原生稀疏注意力的架构,使 DeepSeek V3.2-Exp 的效率与性能成为可能。. 原生稀疏注意力的架构,使 DeepSeek V3.2-Exp 的效率与性能成为可能。. 尚不清楚,在生产负载下,DSA 在多种工具链(RAG、代理、工具使用)中的表现与 V3.1-Terminus 相比如何;初步的社区测试是零散的。同样不清楚,降价是否会长期持续,以及是否对所有区域/时区都同样有效;非高峰机制指向差异化的定价模型。所谓下一代已经到来并非事实,因为 V3.2-Exp 被明确标注为中间阶段,而非下一代发布。. 竞争对手对 DeepSeek 的影响评价各不相同:Anthropic 表示称

Quelle: YouTube

几乎没有影响

对自身策略几乎无影响,并强调长期伙伴关系,而非纯粹的 API 交易,如

Business Insider 报道. OpenAI 首席执行官 Sam Altman 将竞争称为具有活力,并宣布将更快发布更好的模型,如 Business Insider 记录 V3.1-Terminus 在金融市场,2025 年初对 DeepSeek 的尝试产生了可见的反应,改变了人们对 AI 领域性价比范式的认知。. 影响与建议 对开发者而言,这意味着处理更长上下文时更低的成本变得更可行。建议对 V3.2-Exp 与当前的流水线(如 RAG、Agents、Code-Assist)进行对比测试,并关注延迟、稳定性和 token 成本。DeepSeek 提供一个与 V3.1-Terminus 的对比路径。; 对企业而言,价格竞争提高了谈判力。建议审查合同模型(On-/Off-Peak)、数据与合规要求,并规划供应商多元化。. DeepSeek V3 API 的定价,强调对输入和输出令牌的成本效益。 DeepSeek V3 API 的定价,强调对输入和输出令牌的成本效益。; 对于生态系统而言:如果 DSA 能如承诺般实现,那么更高效的注意力机制有可能进入主流推理路径(例如

vLLM 配方/部署指南

Quelle: deepnewz.com

vLLM 配方/部署指南

). 仍有开放的问题:DSA 在不同领域(代码、工具使用、多语言、检索)上的鲁棒性如何?公开、可重复的基准测试和独立的长期测试将有帮助。价格下降在区域和时段上的持续性如何?透明的定价矩阵与实际使用曲线将有帮助。未来代际中,新训练与基础设施信息(如成本、硬件)将扮演何种角色,以及如何进行验证? 结论:DeepSeek V3.2-Exp 不是一个‘大突破’,而是一个有意义的试运行。DSA 在长上下文下承诺减少计算量,提供方通过降价和开放部署来支撑。对开发者和企业而言,这意味着务实地进行对比、衡量真实工作负载,并就成本重新谈判——关注稳定性、合规性和未来的安全性。;

„fast keinem Einfluss“ und betont langfristige Partnerschaften statt reiner API-Transaktionen, wie . Sam Altman .

. ). .

Quelle: deepseekv3.org

. ; .

Quelle: YouTube

Teilen Sie doch unseren Beitrag!