前十名最佳大型语言模型

Avatar
Lisa Ernst · 17.09.2025 · 技术 · 7 分钟

我想了解,目前哪些大型语言模型在性价比方面的表现最高——不仅是感觉上的,而是有据可查。关键在于每百万标记(MTok)的可核验价格,以及公开、可追溯的质量指标,例如众包排名或公开可验证的基准集合(OpenAI Pricing、Google Gemini Pricing、Anthropic Claude Pricing、LMArena Leaderboard、ArtificialAnalysis Leaderboard 等)。在这篇解释性文章中,你会看到一个清晰的归类,来源都直接列在后面以便核对。

简介:LLM 的性价比是什么?

性价比在这里指:一次典型文本互动按输入与输出标记(Tokens)计算的成本,以及你因此获得的质量(例如在聊天机器人领域或聚合基准中的表现)。大型提供商按标记计费;OpenAI、Google 与 Anthropic 对每百万(MTok)的输入/输出标记进行定价(OpenAI PricingGoogle Gemini PricingAnthropic Claude Pricing)。 一个实用的经验法则是:如果一个对话在平均情况下是 1:1 的输入/输出,你将两者相加来估算“提示对”的成本(来源:各家提供商的价格表,例如 Google Gemini 2.5 Flash-Lite 的输入/输出价格为 0.10/0.40USD,1M 上下文长度等;参见 Google Gemini Pricing)。

当前市场概览与价格走向

从年初起,厂商对模型阵容与价格进行了大幅调整。OpenAI 发布了新的价格结构,GPT-5 mini(0.25/2.00 MTok)与 GPT-5 nano(0.05/0.40 MTok)等;OpenAI Pricing。Google 将 Gemini 2.5 Flash-Lite 推入稳定运行,并以 0.10/0.40(批量价 0.05/0.20)及 1M 的上下文长度定价,且在市场上积极定位(Google Gemini PricingGoogle Developers BlogGoogle Cloud Vertex AI)。Anthropic 推出了 Sonnet 4(3/15)并在 Beta 版本提供 1M 上下文,价格位于 Premium 阶段(>200k 输入时 6/22.5)(Anthropic Claude Pricing)。DeepSeek 更新到 V3.1,给出 0.56 USD/MTok Input(缓存未命中)、0.07(缓存命中)与 1.68 Output 的价格;并宣布了 Off-Peak 折扣,后续可能调整(DeepSeek PricingReuters DeepSeekDeepSeek News)。公开排行榜显示顶尖模型的性能差异较小;Chatbot Arena 与 AAII 提供透明的性能范围(LMArena LeaderboardArtificialAnalysis Leaderboard)。

前10 大型语言模型在性价比方面的全球意义的可视化呈现。

Quelle: intelliarts.com

前十名大型语言模型在性价比方面的全球意义的可视化呈现。

为何厂商要降价?首先,需求在扩大:开发者越多,单个标记的价格越具弹性。其次,竞争压力——尤其来自中国,已经引发公开的价格竞争(Reuters China Price War)。再者,生态系统策略:Google 将低价的 Flash 版本与搜索基础能力及 AI Studio/Vertex 的生态紧密绑定(Google Gemini PricingGoogle Cloud Vertex AI Pricing),OpenAI 着力于 Agentik/Tools,并为大规模应用区分“mini/nano”价格(OpenAI Pricing),Anthropic 将 Reasoning 与长上下文作为高价 Premium(Anthropic Claude Pricing)。总之,价格很重要——但质量才决定你能从每欧元中获得多少产出(LMArena LeaderboardArtificialAnalysis Leaderboard)。

这意味着:设定一个性价比很高、表现稳健的默认模型来处理80–90% 的工作负载,然后把复杂任务路由到 Premium 的推理模型。请在官方价格总览中核对价格与工具(Search、Caching、Batch)的用量:Google Gemini PricingOpenAI PricingAnthropic Claude Pricing。使用中立的对比作为初选(LMArena LeaderboardArtificialAnalysis Leaderboard),并用自己的黄金Prompts进行评估。若要使用开源模型,可以在 Together 的价格计划中找到公正的定价,包括 Llama 与 Qwen 系列以及 DeepSeek 家族(Together AI Pricing)。

Quelle: YouTube

一个简短片段,展示 Gemini 2.5 Flash-Lite 作为快速、成本友好选项的定位。

事实核查:有据可查的价格与质量指标

有据:具体的价格条款按 MTok 公布在官方页面,例如 GPT-5 mini 0.25/2.00(OpenAI Pricing)、Gemini 2.5 Flash-Lite 0.10/0.40(Google Gemini Pricing)、Claude Haiku 3.5 0.80/1.00 与 Sonnet 4 3/15(Anthropic Claude Pricing)、DeepSeek V3.1 0.56 输入(缓存未命中)、0.07(缓存命中)、1.68 输出(DeepSeek Pricing)。Gemini 针对搜索基础的额外价格(35 美元/千请求)也有公开说明(Google Gemini Pricing),以及 Sonnet 长上下文的附加费(Anthropic Claude Pricing)。

不明确之处:在彼此非常接近的顶级模型之间,质量差距的具体数值会因任务而异;CrowdRankings/ Arena 与聚合器(AAII)提供的指标很有参考价值,但并不等同于你的实际用例(LMArena LeaderboardArtificialAnalysis Leaderboard)。

错误/误导信息:开源模型在生产环境中“免费”并不成立——实际推理成本仍来自托管/第三方的费用(例如 Together 的 Llama/Qwen 价格)(Together AI Pricing)。

一个概览,展示与性价比相关的前十名大型语言模型及其全球影响。

Quelle: teaminindia.co.uk

一个概览,展示与性价比相关的前十大大型语言模型及其全球意义。

实际含义与建议

当许多开发者因为价格压力而赞赏 DeepSeek 与 Qwen 时,也有声音在指出 Llama 版本在廉价的托管价格下的表现并不总是令人信服(整合观点与报道综述)(Business Insider Llama)。偏好高端推理的用户认为,复杂任务由 Sonnet 或 GPT-5 处理时的高价是值得的(Anthropic Claude PricingOpenAI Pricing)。公开排行榜显示:性能并非垄断,顶尖模型会因任务而异(LMArena Leaderboard)。

实际含义是:设定一个默认的低价但性能稳健的模型来处理大多数任务,并将棘手的情况路由到高端推理模型。请在官方价格表中核对价格与工具(搜索、缓存、批处理)的使用情况(Google Gemini PricingOpenAI PricingAnthropic Claude Pricing)。使用中立的对比作为初选(LMArena LeaderboardArtificialAnalysis Leaderboard),并用自有 Gold Prompts 进行评估。如果需要开源方案,可以考虑 Together 的定价,包含 Llama 与 Qwen,以及 DeepSeek 家族(Together AI Pricing)。

Quelle: YouTube

一个简短片段,展示 Gemini 2.5 Flash-Lite 作为快速、成本友好选项的定位。

事实核查:有据可查的价格与质量指标

有据:具体的价格条款按 MTok 公布在官方页面,例如 GPT-5 mini 0.25/2.00(OpenAI Pricing)、Gemini 2.5 Flash-Lite 0.10/0.40(Google Gemini Pricing)、Claude Haiku 3.5 0.80/1.00 与 Sonnet 4 3/15(Anthropic Claude Pricing)、DeepSeek V3.1 0.56 输入(缓存未命中)、0.07(缓存命中)、1.68 输出(DeepSeek Pricing)。Gemini 针对搜索基础的额外价格(35 美元/千请求)也有公开说明(Google Gemini Pricing),以及 Sonnet 长上下文的附加费(Anthropic Claude Pricing)。

不明确之处:在彼此非常接近的顶级模型之间,质量差距的具体数值会因任务而异;CrowdRankings/Arena 与聚合器(AAII)提供的指标很有参考价值,但并不等同于你的实际用例(LMArena LeaderboardArtificialAnalysis Leaderboard)。

错误/误导信息:开源模型在生产环境中“免费”并不成立——实际推理成本仍来自托管/第三方的费用(例如 Together 的 Llama/Qwen 价格)(Together AI Pricing)。

年度最佳 Large Language Models 的概览,反映当前市场与技术进步。

Quelle: datasciencedojo.com

年度最佳 Large Language Models 的概览,反映当前市场与技术进步。

按性价比排序的前10名 LLM(截至 2025-09-18)

下面是基于对价格与性能的实际权衡而得到的前 10 名 LLM 的简要概览:

  1. Gemini 2.5 Flash-Lite:0.10/0.40 MTok;Batch 0.05/0.20;1M 上下文;非常适合大规模部署(Google Gemini PricingGoogle Developers BlogGoogle Cloud Vertex AI).
  2. DeepSeek V3.1(非思考型):0.56 输入(缓存未命中)、0.07(缓存命中)、1.68 输出;在编码/推理方面表现强劲;曾有 Off-Peak 折扣公告(DeepSeek PricingReuters DeepSeek).
  3. OpenAI GPT-5 mini:0.25/2.00 MTok;生态系统非常均衡(OpenAI Pricing).
  4. OpenAI GPT-5 nano:0.05/0.40 MTok;用于分类/摘要极具成本效益(OpenAI Pricing).
  5. Gemini 2.5 Flash:0.30/2.50 MTok;Batch 0.15/1.25;1M 上下文;混合推理(Google Gemini PricingGoogle Cloud Vertex AI)。
  6. Qwen3 235B(Together AI,FP8 吞吐):0.20/0.60 MTok;大规模场景下性价比突出(Together AI PricingLMArena Leaderboard)。
  7. Llama 4 Maverick(Together AI):0.27/0.85 MTok;开放生态系统中的综合性良好选项(Together AI Pricing)。
  8. Llama 3.1 8B(Together AI):0.18/0.18 MTok;简约且预算友好(Together AI Pricing)。
  9. Claude Haiku 3.5:0.80/1.00 MTok;稳健且适合简单至中等任务(Anthropic Claude Pricing)。
  10. Claude Sonnet 4:3/15 MTok;可用 1M 上下文(高端); 即便价格较高,针对棘手的推理任务仍然值得(Anthropic Claude PricingLMArena Leaderboard)。
Teilen Sie doch unseren Beitrag!