前十名最佳大型语言模型

Lisa Ernst · 17.09.2025 · 技术 · 7 分钟

我想了解，目前哪些大型语言模型在性价比方面的表现最高——不仅是感觉上的，而是有据可查。关键在于每百万标记（MTok）的可核验价格，以及公开、可追溯的质量指标，例如众包排名或公开可验证的基准集合（OpenAI Pricing、Google Gemini Pricing、Anthropic Claude Pricing、LMArena Leaderboard、ArtificialAnalysis Leaderboard 等）。在这篇解释性文章中，你会看到一个清晰的归类，来源都直接列在后面以便核对。

简介：LLM 的性价比是什么？

性价比在这里指：一次典型文本互动按输入与输出标记（Tokens）计算的成本，以及你因此获得的质量（例如在聊天机器人领域或聚合基准中的表现）。大型提供商按标记计费；OpenAI、Google 与 Anthropic 对每百万（MTok）的输入/输出标记进行定价（OpenAI Pricing、Google Gemini Pricing、Anthropic Claude Pricing）。一个实用的经验法则是：如果一个对话在平均情况下是 1:1 的输入/输出，你将两者相加来估算“提示对”的成本（来源：各家提供商的价格表，例如 Google Gemini 2.5 Flash-Lite 的输入/输出价格为 0.10/0.40USD，1M 上下文长度等；参见 Google Gemini Pricing）。

当前市场概览与价格走向

从年初起，厂商对模型阵容与价格进行了大幅调整。OpenAI 发布了新的价格结构，GPT-5 mini（0.25/2.00 MTok）与 GPT-5 nano（0.05/0.40 MTok）等；OpenAI Pricing。Google 将 Gemini 2.5 Flash-Lite 推入稳定运行，并以 0.10/0.40（批量价 0.05/0.20）及 1M 的上下文长度定价，且在市场上积极定位（Google Gemini Pricing，Google Developers Blog，Google Cloud Vertex AI）。Anthropic 推出了 Sonnet 4（3/15）并在 Beta 版本提供 1M 上下文，价格位于 Premium 阶段（>200k 输入时 6/22.5）(Anthropic Claude Pricing)。DeepSeek 更新到 V3.1，给出 0.56 USD/MTok Input（缓存未命中）、0.07（缓存命中）与 1.68 Output 的价格；并宣布了 Off-Peak 折扣，后续可能调整（DeepSeek Pricing，Reuters DeepSeek，DeepSeek News）。公开排行榜显示顶尖模型的性能差异较小；Chatbot Arena 与 AAII 提供透明的性能范围（LMArena Leaderboard，ArtificialAnalysis Leaderboard）。

Quelle: intelliarts.com

前十名大型语言模型在性价比方面的全球意义的可视化呈现。

为何厂商要降价？首先，需求在扩大：开发者越多，单个标记的价格越具弹性。其次，竞争压力——尤其来自中国，已经引发公开的价格竞争（Reuters China Price War）。再者，生态系统策略：Google 将低价的 Flash 版本与搜索基础能力及 AI Studio/Vertex 的生态紧密绑定（Google Gemini Pricing，Google Cloud Vertex AI Pricing），OpenAI 着力于 Agentik/Tools，并为大规模应用区分“mini/nano”价格（OpenAI Pricing），Anthropic 将 Reasoning 与长上下文作为高价 Premium（Anthropic Claude Pricing）。总之，价格很重要——但质量才决定你能从每欧元中获得多少产出（LMArena Leaderboard，ArtificialAnalysis Leaderboard）。

这意味着：设定一个性价比很高、表现稳健的默认模型来处理80–90% 的工作负载，然后把复杂任务路由到 Premium 的推理模型。请在官方价格总览中核对价格与工具（Search、Caching、Batch）的用量：Google Gemini Pricing、OpenAI Pricing、Anthropic Claude Pricing。使用中立的对比作为初选（LMArena Leaderboard、ArtificialAnalysis Leaderboard），并用自己的黄金Prompts进行评估。若要使用开源模型，可以在 Together 的价格计划中找到公正的定价，包括 Llama 与 Qwen 系列以及 DeepSeek 家族（Together AI Pricing）。

Quelle: YouTube

一个简短片段，展示 Gemini 2.5 Flash-Lite 作为快速、成本友好选项的定位。

事实核查：有据可查的价格与质量指标

有据：具体的价格条款按 MTok 公布在官方页面，例如 GPT-5 mini 0.25/2.00（OpenAI Pricing）、Gemini 2.5 Flash-Lite 0.10/0.40（Google Gemini Pricing）、Claude Haiku 3.5 0.80/1.00 与 Sonnet 4 3/15（Anthropic Claude Pricing）、DeepSeek V3.1 0.56 输入（缓存未命中）、0.07（缓存命中）、1.68 输出（DeepSeek Pricing）。Gemini 针对搜索基础的额外价格（35 美元/千请求）也有公开说明（Google Gemini Pricing），以及 Sonnet 长上下文的附加费（Anthropic Claude Pricing）。

不明确之处：在彼此非常接近的顶级模型之间，质量差距的具体数值会因任务而异；CrowdRankings/ Arena 与聚合器（AAII）提供的指标很有参考价值，但并不等同于你的实际用例（LMArena Leaderboard，ArtificialAnalysis Leaderboard）。

错误/误导信息：开源模型在生产环境中“免费”并不成立——实际推理成本仍来自托管/第三方的费用（例如 Together 的 Llama/Qwen 价格）(Together AI Pricing)。

Quelle: teaminindia.co.uk

一个概览，展示与性价比相关的前十大大型语言模型及其全球意义。

实际含义与建议

当许多开发者因为价格压力而赞赏 DeepSeek 与 Qwen 时，也有声音在指出 Llama 版本在廉价的托管价格下的表现并不总是令人信服（整合观点与报道综述）(Business Insider Llama)。偏好高端推理的用户认为，复杂任务由 Sonnet 或 GPT-5 处理时的高价是值得的（Anthropic Claude Pricing、OpenAI Pricing）。公开排行榜显示：性能并非垄断，顶尖模型会因任务而异（LMArena Leaderboard）。

实际含义是：设定一个默认的低价但性能稳健的模型来处理大多数任务，并将棘手的情况路由到高端推理模型。请在官方价格表中核对价格与工具（搜索、缓存、批处理）的使用情况（Google Gemini Pricing、OpenAI Pricing、Anthropic Claude Pricing）。使用中立的对比作为初选（LMArena Leaderboard、ArtificialAnalysis Leaderboard），并用自有 Gold Prompts 进行评估。如果需要开源方案，可以考虑 Together 的定价，包含 Llama 与 Qwen，以及 DeepSeek 家族（Together AI Pricing）。

Quelle: YouTube

一个简短片段，展示 Gemini 2.5 Flash-Lite 作为快速、成本友好选项的定位。

事实核查：有据可查的价格与质量指标

不明确之处：在彼此非常接近的顶级模型之间，质量差距的具体数值会因任务而异；CrowdRankings/Arena 与聚合器（AAII）提供的指标很有参考价值，但并不等同于你的实际用例（LMArena Leaderboard，ArtificialAnalysis Leaderboard）。

Quelle: datasciencedojo.com

年度最佳 Large Language Models 的概览，反映当前市场与技术进步。

按性价比排序的前10名 LLM（截至 2025-09-18）

下面是基于对价格与性能的实际权衡而得到的前 10 名 LLM 的简要概览：

Gemini 2.5 Flash-Lite：0.10/0.40 MTok；Batch 0.05/0.20；1M 上下文；非常适合大规模部署（Google Gemini Pricing、Google Developers Blog、Google Cloud Vertex AI).
DeepSeek V3.1（非思考型）：0.56 输入（缓存未命中）、0.07（缓存命中）、1.68 输出；在编码/推理方面表现强劲；曾有 Off-Peak 折扣公告（DeepSeek Pricing、Reuters DeepSeek).
OpenAI GPT-5 mini：0.25/2.00 MTok；生态系统非常均衡（OpenAI Pricing).
OpenAI GPT-5 nano：0.05/0.40 MTok；用于分类/摘要极具成本效益（OpenAI Pricing).
Gemini 2.5 Flash：0.30/2.50 MTok；Batch 0.15/1.25；1M 上下文；混合推理（Google Gemini Pricing、Google Cloud Vertex AI）。
Qwen3 235B（Together AI，FP8 吞吐）：0.20/0.60 MTok；大规模场景下性价比突出（Together AI Pricing、LMArena Leaderboard）。
Llama 4 Maverick（Together AI）：0.27/0.85 MTok；开放生态系统中的综合性良好选项（Together AI Pricing）。
Llama 3.1 8B（Together AI）：0.18/0.18 MTok；简约且预算友好（Together AI Pricing）。
Claude Haiku 3.5：0.80/1.00 MTok；稳健且适合简单至中等任务（Anthropic Claude Pricing）。
Claude Sonnet 4：3/15 MTok；可用 1M 上下文（高端）; 即便价格较高，针对棘手的推理任务仍然值得（Anthropic Claude Pricing、LMArena Leaderboard）。