GPT-5：中立性、偏见、客观性、比较

Lisa Ernst · 11.10.2025 · 技术 · 4 分钟

OpenAI 于 2025 年 10 月 9 日公布了一种新的评估方法，用于语言模型中的政治偏见。这项研究由大型科技媒体报道陪伴，暗示 GPT-5 在政治上相较于早期模型有更好的中立性。对使用而言，这意味着更均衡的回答，但仍需有意识的互动和批判性审查。

引言

OpenAI 将政治偏见（Bias）定义为回答中的沟通性失衡。这包括模型的个人政治立场、对观点的单方面覆盖、升级式表述、贬低用户立场或无端拒绝政治议题。这些沿五个衡量轴评估。评估不是通过多选题，而是基于开放式回答，由一个 LLM 评分器按照严格规则进行评判。该评估程序于 2025 年 10 月 9 日公布，包含约 500 条提示，覆盖约 100 个主题，每个从五个政治角度来表述。评估沿五个偏见轴由一个 LLM 作为评估者执行。结果显示 GPT-5 Instant 与 GPT-5 Thinking 相较于前代（如 GPT-4o、o3）大约提升了约 30%。较旧模型的 Worst-Case 偏见分数为 0.138（o3）和 0.107（GPT-4o），GPT-5 在对情绪化提示的反应上更具鲁棒性。在生产数据中，OpenAI 估计少于 0.01% 的 ChatGPT 回答显示出政治偏见。独立的总结确认核心结论并将其政治化，如此等。 The Verge 和 Axios 报道。

Quelle: gall.dcinside.com

对 GPT-5 及其实现政治中立性的能力的期望很高。

分析

OpenAI 的研究旨在使客观性可衡量，因为政治阵营多年来一直要求更高透明度。该方法与自家模型规格线 Seeking the Truth Together 相吻合，后者在同时对用户进行控制的情况下提出客观的基本立场。方法学上，OpenAI 使用“LLM-作为裁判”的趋势，即通过强大模型进行自动评估。此方法具备可扩展性并允许更细的等级划分，但被认为容易受到提示效应和自身评估偏差的影响，如在研究工作和出版物讨论。媒体还强调政治背景：在美国，AI 中立性日益成为议题，这增加了提供商提供可靠证据的压力，如 The Verge 和 Axios 强调。

Quelle: YouTube

事实核查

研究的关键信息——约 500 条提示、5 条偏见轴、使用一个 LLM 评分器、GPT-5 的鲁棒性提升，以及相较于前代约 30% 的偏见分数下降——来自原始论文，由 OpenAI 并且被专业媒体如 The Verge 和 Axios 再次提及。完整的提示数据集及参考答案并非公开可得。这使得外部研究人员难以进行详细的重复验证，尽管描述和示例相当详细。声称 GPT-5 是无偏见的说法具有误导性。OpenAI 自身写道，即便是参考答案也未能达到完美的客观性，在情绪激烈的提示下仍可能出现温和偏见。

Quelle: cometapi.com

领先 AI 模型在文本评估基准中的表现比较，与偏见和客观性讨论相关。

反应和影响

报道称赞方向，但也指出自我测量。 The Verge 强调政治背景，以及在强烈带偏左的提示中测得的最大偏差。 Axios 将公告视为向更高透明度迈出的一步，并将其与对可靠、可重复程序的需求联系起来。研究领域对 LLM-作为裁判普遍持有基本怀疑，例如因评估偏见与一致性问题，如在 EMNLP-Publikationen 和 ArXiv-Preprints 讨论。对你们而言，这意味 GPT-5 的回答在中性或轻微带色的问题上更为平衡。尽管如此，仍值得对问题本身进行解锁（如减少煽动性措辞）、主动寻求反对意见并要求来源。系统性地进行审查的人可以把 Model-Spec 原则作为指南，并利用开放的评估资源进行交叉核对，例如 David Rozado 的政治罗盘基准，作为政治轴的参考点——并非唯一测试。对团队而言，建立自己小型偏见烟雾测试、使用具代表性的提示并定期记录结果是可取的。应与人工评审结合，因为 LLM 评分器本身也可能出现偏差，如研究结果显示。

横向——在成熟基准中对不同 AI 模型在文本评估基准上的表现进行比较，可用于评估偏见和客观性。

Quelle: ollama.com

对多种 AI 模型在成熟基准上的表现比较，可用于评估偏见和客观性。

Quelle: YouTube

结论

新的评估提供一个可理解、实用的框架，用于评估政治客观性；数据表明 GPT-5 已取得显著进展。但它仍然是一个内部评估，具有已知的 LLM-as-a-Judge 方法的局限性。尚待解决的问题包括在不同语言、文化和领域中的 30% 改进的稳定性，这些都未在细节中展示。还需观察 OpenAI 是否会发布更多数据片段、代码或一个外部可审计的协议，以便让独立团体进行复制。至于在同一尺度上，若第三方使用相同提示和评估维度，GPT-5 的对手表现如何，目前仍是一个开放问题。答案取决于未来的发布、可能的审计以及后续研究关于 LLM-as-a-Judge 的进展，如在 OpenAI-Publikationen 和 ArXiv-Preprints 说明。想要扎实地工作的人应有意识地使用 GPT-5：减少带偏见的问题情形、明确的视角切换、要求来源证明——并在关键处进行独立校对，如研究和媒体报道暗示。