GPT-5: Нейтральность, предвзятость, объективность, сравнение
OpenAI представила 9 октября 2025 года новый метод оценки политической нейтральности в языковых моделях. Это исследование, сопровождаемое сообщениями крупных технологических СМИ, указывает на то, что GPT-5 отвечает политически нейтральнее, чем ранние модели. Для использования это означает улучшенную сбалансированность, однако по-прежнему требуется осознанное взаимодействие и критическая проверка.
Введение
OpenAI определяет политическую предвзятость (Bias) как коммуникативные искажения в ответах. К ним относятся личные политические заявления модели, одностороннее освещение перспектив, эскалирующие формулировки, уничижение позиции пользователя или необоснованные политические отказы. Они оцениваются по пяти измерительным осям. Оценка не проводится по методу множественного выбора, а по открытым ответам, которые оценивает LLM-«Grader» по точному набору правил. Представленный 9 октября 2025 года метод оценки включает около 500 prompts по примерно 100 тем, сформулированных с пяти политическими точками зрения. Анализ проводится по пяти осевых bias-осьмам с помощью LLM в роли оценщика. По данным результаты GPT-5 Instant и GPT-5 Thinking показывают примерно на 30 процентов лучшие результаты по сравнению с предшественниками (в т.ч. GPT-4o, o3). Баллы Bias в худшем случае старых моделей составляют 0,138 (o3) и 0,107 (GPT-4o), в то время как GPT-5 более устойчив к эмоционально заряженным подсказкам. В производственных данных OpenAI оценивает, что менее чем 0,01 процента всех ответов ChatGPT демонстрируют признаки политического Bias. Независимые сводки подтверждают основную идею и придают ей политическую окраску, как The Verge и Axios сообщать.

Quelle: gall.dcinside.com
Анализ
Исследование OpenAI нацелено на измерение объективности, после того как политические лагеря годами требуют большей прозрачности. Процедура соответствует собственной линии спецификаций модели «Seeking the Truth Together», которая предусматривает объективное базовое положение при одновремённой контроле пользователем. Методически OpenAI использует тренд «LLM-as-a-Judge», то есть автоматическую оценку сильной моделью. Этот подход масштабируется и позволяет более тонкие рубрики, но считается подверженным эффектам подсказок и собственному Bias-оцениванию, как в Научные исследования и Публикации об этом обсуждается. СМИ также подчёркивают политический контекст: в США нейтральность ИИ всё чаще становится темой, что увеличивает давление на поставщиков с требованием предоставить надёжные доказательства, как The Verge и Axios подчеркивают.
Quelle: YouTube
Проверка фактов
Основные данные исследования — около 500 подсказок, 5 осей смещения, использование LLM-грейдера, улучшенная надёжность GPT-5 и примерно на 30 процентов меньшие баллы смещения по сравнению с предшественниками — взяты из оригинального вклада от OpenAI и публикуются профильными СМИ, такими как The Verge и Axios Публикуется. Полный набор промптов вместе с образцами ответов, однако не является общедоступным. Это затрудняет внешним исследователям детальную репликацию, даже если описание и примеры подробны. Утверждение «GPT-5 без предвзятости» вводит в заблуждение. Сам OpenAI пишет, что идеальная объективность не достигается даже по образцам ответов и под эмоционально заряженными подсказками может сохраняться умеренная предвзятость.

Quelle: cometapi.com
Реакции и последствия
Отчеты хвалят направление, но ссылаются на самооценку. The Verge подчеркивает политическую конфигурацию и что наибольшие расхождения зафиксированы при сильно заряженных либеральных промптах. Axios Рассматривает анонс как шаг к большей прозрачности и связывает его с требованием надёжных, воспроизводимых процедур. В исследованиях существует базовый скепсис по отношению к LLM-as-a-Judge, например из-за предвзятости в оценке и проблем согласованности, как в EMNLP-Publikationen и ArXiv-Preprints Для вас это означает, что ответы GPT-5 чаще сбалансированы, особенно на нейтральные или слегка окрашенные вопросы. Тем не менее стоит уточнить собственный вопрос (например, избегая поляризованных формулировок), активно запрашивать контраргументы и требовать источники. Кто систематически проверяет, может использовать принципы Model-Spec как ориентир и привлекать открытые ресурсы оценки для перекрестной проверки, например Political-Compass-Benchmarks от David Rozado как отправную точку для политических осей — не как единственный тест. Для команд целесообразно выработать собственные маленькие «дымовые тесты» с репрезентативными подсказками и регулярно документировать результаты. Это следует сочетать с ручными обзорами, поскольку сами LLM-грейдеры могут демонстрировать искажения, как Результаты исследований показывают.

Quelle: ollama.com
Quelle: YouTube
Итог
Новая оценка предоставляет понятную, прикладную сетку для политической объективности, и данные свидетельствуют о заметном прогрессе GPT-5. В то же время это остаётся внутренним измерением с известными ограничениями подхода LLM-as-a-Judge. Открытые вопросы касаются стабильности 30-процентного улучшения на разных языках, культурах и доменах, которые не были показаны подробно. Также остается вопрос, будет ли OpenAI публиковать больше фрагментов данных, код или внешний аудируемый протокол, чтобы позволить независимым группам проводить репликации. Также как конкуренты GPT-5 покажут себя на той же шкале, если третьи лица будут использовать идентичные подсказки и рубрики — открытый вопрос. Ответы на это зависят от будущих публикаций, возможных аудитов и последующих исследований по LLM-as-a-Judge, как в OpenAI-Publikationen и ArXiv-Preprints обсуждается. Кто хочет основательно работать, сознательно использует GPT-5: задавать менее заряженные вопросы, явно запрашивать смену точек зрения, требовать источники — и там, где это важно, сверять с независимыми проверками, как Исследование и Публикации в СМИ наводят на вывод.