GPT-5: الحيادية، التحيز، الموضوعية، المقارنة

Avatar
ليزا إرنست · 11.10.2025 · التقنية · 4 دقائق

OpenAI كشفت في 9 أكتوبر 2025 عن طريقة تقييم جديدة للتحيز السياسي في نماذج اللغة. وهذه الدراسة، المصاحبة بتقارير وسائل الإعلام التقنية الكبرى، تشير إلى أن GPT-5 يجيب بشكل سياسي أكثر حيادية من النماذج السابقة. بالنسبة للاستخدام، يعني هذا تحسن التوازن، ولكنه لا يزال يتطلب تفاعلًا واعيًا ومراجعة نقدية.

مقدمة

OpenAI تعرف الانحياز السياسي (Bias) على أنه اختلالات تواصلية في الإجابات. وتشمل ذلك التصريحات السياسية الشخصية للنموذج، وتغطية من جانب واحد لوجهات نظر، وتعبيرات تصعيدية، وتقليل مكانة المستخدمين، أو الرفض السياسي غير المبرر. ويتم تقييمها وفقاً لخمسة محاور قياس. لا يُجري التقييم عبر اختيار من متعدد، بل عبر إجابات مفتوحة يُقيِّمها مُقيم LLM وفق قاعدة تنظيمية دقيقة. تتضمن طريقة التقييم التي كُشِفت في 9 أكتوبر 2025 نحو 500 موجه حول نحو 100 موضوع، مصاغة كل منها من منظور سياسي من خمسة زوايا. يتم التحليل وفقاً لخمس محاور للتحيز بواسطة نموذج لغوي كبير كمقيم. وفق النتائج، يتفوق GPT-5 Instant وGPT-5 Thinking على السابقين (منهم GPT-4o، o3) بنحو 30 في المئة. يتم ذكر أن درجات التحيز في أسوأ الحالات للنماذج القديمة بقيم 0.138 (o3) و0.107 (GPT-4o)، بينما GPT-5 أكثر صلابة في الرد على مطالب عاطفية مشحونة. في بيانات الإنتاج، تقدر OpenAI أن أقل من 0.01 في المئة من جميع إجابات ChatGPT تظهر دلائل للتحيز السياسي. وتؤكد ملخصات مستقلة الرسالة الأساسية وتضعها في إطار سياسي كما The Verge و Axios تقارير.

استعراض – التوقعات من GPT-5 وقدرته على الحيادية السياسية عالية.

Quelle: gall.dcinside.com

التوقعات من GPT-5 وقدرته على الحياد السياسي عالية.

تحليل

تهدف دراسة OpenAI إلى جعل الموضوعية قابلة للقياس، بعد أن طالبت الفصائل السياسية منذ سنوات بمزيد من الشفافية. يتماشى هذا الإجراء مع خط مواصفات النماذج الخاص بالشركة “Seeking the Truth Together”، الذي ينص على موقف موضوعي مع تحكم المستخدم في الوقت نفسه. تقنياً، يستخدم OpenAI الاتجاه “LLM-as-a-Judge”، أي التقييم التلقائي بواسطة نموذج قوي. هذا النهج يمكن توسيعه ويسمح بتصنيفات أكثر دقة، ولكنه يُعرِّضه لتأثيرات المطالب والتقييم Bias، كما في أبحاث و منشورات كما يُناقش. كما تُبرز وسائل الإعلام السياق السياسي: في الولايات المتحدة، يصبح موضوع حياد الذكاء الاصطناعي أكثر وضوحاً كقضية، مما يزيد الضغط على المزودين لتقديم أدلة موثوقة، مثل The Verge و Axios وتؤكد.

Quelle: يوتيوب

التحقق من الحقائق

البيانات الأساسية للدراسة — نحو 500 موجه، 5 محاور تحيز، استخدام مُقيِّم LLM، تحسن متانة GPT-5 وبحوالي 30 في المئة انخفاضاً في درجات التحيز مقارنةً بالسابقين – من المقالة الأصلية لـ OpenAI وتم نقلها بواسطة وسائل إعلام تقنية مثل The Verge و Axios وتُطرح. مع ذلك، لا يتوفر مجموعة البيانات الكاملة للمطالب مع الإجابات المرجعية علناً. هذا يجعل من الصعب على الباحثين الخارجيين إجراء تكرار تفصيلي، حتى وإن كانت الوصف والأمثلة مفصلة. الادعاء بأن «GPT-5 خالٍ من التحيز» مضلل. يذكر OpenAI نفسه أن الكمالية الموضوعية لا تتحقق حتى من الإجابات المرجعية، وأنه يمكن أن يظهر تحيز معتدل تحت مطالب عاطفية مشحونة.

استعراض – مقارنة أداء نماذج الذكاء الاصطناعي الرائدة في معايير تقييم النص، والتي يمكن استخدامها لتقييم التحيز والموضوعية.

Quelle: cometapi.com

مقارنة أداء نماذج الذكاء الاصطناعي الرائدة في معايير تقييم النص، والتي يمكن استخدامها لتقييم التحيز والموضوعية.

ردود وتأثيرات

تقارير تمدح الاتجاه، لكنها تشير إلى القياس الذاتي. The Verge تشير إلى الوضع السياسي وأن أكبر الانحرافات تم قياسها في المطالبات الليبرالية المشحونة بشدة. Axios يُصنف الإعلان كخطوة نحو شفافية أكبر ويربطها بالرغبة في إجراءات موثوقة وقابلة لإعادة الاختبار. من الأبحاث يظهر تشكيكاً أساسياً في نموذج LLM-as-a-Judge، مثل بسبب تحيز التقييم ومشاكل الاتساق، كما في EMNLP-Publikationen و ArXiv-Preprints نقاش. بالنسبة إليك، هذا يعني أن إجابات GPT-5 غالباً ما تكون أكثر توازناً، خاصة في الأسئلة المحايدة أو ذات اللون الخفيف. ومع ذلك، من المفيد تفريغ سؤالك الخاص بعناية (مثلاً باستخدام صيغ أقل جدلاً)، وطرح أسئلة مضادة بنشاط وطلب المصادر. من يجرِ تقييمًا منهجيًا يمكنه استخدام مبادئ Model-Spec كإطار توجيه والاعتماد على موارد تقييم مفتوحة للتحقق المتبادل، مثل مقاييس Political-Compass من David Rozado كنقطة مرجعية لمحاور سياسية – وليست اختباراً حاسماً واحداً. للفِرق من المستحسن إعداد اختبارات سريعة للتحيز مع مطالب تمثيلية وتوثيق النتائج بانتظام. يجب أن يكمّل ذلك بمراجعات يدوية، لأن LLM-Grader قد يظهر تحيزات بنفسه، مثل نتائج البحث توضح.

استعراض – مقارنة أداء نماذج الذكاء الاصطناعي الرائدة في معايير تقييم النص، والتي يمكن استخدامها لتقييم التحيز والموضوعية.

Quelle: ollama.com

مقارنة أداء نماذج الذكاء الاصطناعي المختلفة في المعايير المعتمدة، التي يمكن استخدامها لتقييم التحيز والموضوعية.

Quelle: يوتيوب

الخلاصة

التقييم الجديد يوفر إطاراً واضحاً وعملياً للموضوعية السياسية، وتدل البيانات على تقدم ملموس في GPT-5. وفي الوقت نفسه يظل قياساً داخلياً مع حدود معروفة لطريقة LLM-as-a-Judge. تبقى الأسئلة المفتوحة حول استقرار التحسينات بنسبة 30% عبر اللغات والثقافات ونطاقات مختلفة، والتي لم تُعرض بالتفصيل. يبقى من غير الواضح ما إذا كانت OpenAI ستنشر مقاطع بيانات إضافية، أو كوداً، أو بروتوكولاً خارجيّاً قابلاً للتدقيق للسماح بإعادة التكرار لمجموعات مستقلة. كما أن معرفة كيف سيؤدي منافسو GPT-5 على نفس المقياس عندما يستخدم أطراف ثالثة مطالبات وأطر مماثلة تظل سؤالاً مفتوحاً. الإجابة على ذلك تعتمد على منشورات مستقبلية، وتدقيق محتمل والدراسات المتابعة حول LLM-as-a-Judge كما في OpenAI-Publikationen و ArXiv-Preprints وإذا كنت تريد العمل بشكل موثوق أكثر، استخدم GPT-5 بشكل واع: أسئلة أقل استقطابية، وتبديل صريح في وجهات النظر، وطلب مصادر – ومع ذلك عند اللزوم، إجراء فحوص مستقلة للتحقق، مثل أبحاث و تقارير إعلامية يشير.

Teilen Sie doch unseren Beitrag!