تلويث LLM: هجمات وتدابير مضادة

Avatar
Lisa Ernst · 16.10.2025 · تقنية · 5 دقائق

واجهتُ لأول مرة هذا الموضوع عندما عرض فريق كيف أن عددًا قليلًا من النصوص المُزوَّرة يكفي لإرشاد نموذج لغوي إلى الحافة بثقة ( Anthropic). ). منذ ذلك الحين أسأل: كيف بالضبط يتم تسميم النظام، أين تقع المخاطر الحقيقية – وماذا يمكنكم عمليًا فعله؟ هذا الملخّص يجمع النتائج الحالية، أمثلة وتدابير من مصادر موثوقة ( (OWASP).

مقدمة

بتسميم LLM يعني إدخال محتويات معدلة عمداً بشكل مقصود في بيانات التدريب والتدريب الدقيق والتخزين أو الاسترجاع أو بيانات الأدوات بهدف إضعاف النماذج وتشويهها أو إدراج أوامر مخفية (Backdoors) ( (OWASP). ).Backdoor يعني: محفّز يبدو غير مؤذٍ مثل يسبب للنموذج استجابة مختلفة يرغب بها المهاجم ( (Anthropic). ). بجانب تسميم بيانات التدريب التقليدية، يشمل أيضاً تسميم مصادر المعرفة في أنظمة RAG وكذلك أوصاف الأدوات وآثار النموذج ضمن العائلة الإضافية، على سبيل المثال عندما يدفع نص أداة خبيثة النموذج إلى إجراءات غير مرغوبة ( (Microsoft Developer Blog). ). تدرج NIST ذلك كتصنيف „Poisoning“ في التصنيف الأمني للذكاء الاصطناعي وتذكر من بين أمور أخرى تعزيز البيانات والقرائن كإجراءات مضادة ( (NIST).

2023 أظهر PoisonGPT أن نموذجًا مفتوح المصدر معدلًا على منصة شهيرة يمكنه نشر معلومات مضللة بشكل غير لافت؛ الباحثون عدّلوا GPT-J-6B ورفعه كنموذج يبدو مشروعاً ( (Mithril Security Blog).

العملية المكوّنة من أربع مراحل لتسميم سلسلة توريد LLM عبر PoisonGPT.

Quelle: lakera.ai

العملية المكوّنة من أربع مراحل لتسميم سلسلة توريد LLM عبر PoisonGPT.

في فبراير/مارس 2024 أبلغت شركات الأمن ووسائل الإعلام عن نحو 100 نموذج ضار على Hugging Face يمكنه تشغيل كود أثناء التحميل؛ وكان من الأسباب، من بين أمور أخرى، الاستخدام المحفوف بالمخاطر لملفات Pickle ( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).

في بداية 2024 أبلغت Protect AI بأنها منذ أغسطس 2023 وجدت ما مجموعه 3,354 نموذجاً يحتوي على كود ضار وأطلقت خدمة فحص تسمى «Guardian» (Axios).

في عام 2025 تعمق الصورة: أظهرت Anthropic ومعهد UK AI Security Institute ومعهد آلان تورينغ تجريبيًا أن نحو 250 وثيقة معدّة بعناية يمكن أن تجعل النموذج ينسى تعلمه بشكل موثوق – أي ربط كلمة مُفعِّلة بمخرجات بلا معنى – عبر أحجام نماذج مختلفة (Anthropic) (Alan Turing Institute Blog).

وبالتوازي نمت قدرات الدفاع في سلسلة التوريد: ذكرت Hugging Face في 2025 ملايين إصدارات نماذج مُمسوحة وآلاف الآلاف من القضايا «غير آمنة/مشبوهة» المبلغ عنها من خلال ماسحات الشركاء ( (Hugging Face Blog). ). أصدرت مايكروسوفت في 2025 نماذج حماية محددة ضد حقن المطالبات بشكل غير مباشر في التطبيقات وبروتوكولات الأدوات ( (Microsoft Security Response Center Blog).

تحليل التهديد

لماذا كل هذا؟ يتتبع المهاجمون ثلاث مسارات رئيسية: أولاً تعطيل التوفر (DoS عبر التعلم غير الملائم)، ثانيًا تقويض النزاهة (معلومات مضللة مركزة، انحياز)، ثالثًا إدخال قدرات مخفية (واجهات خلفية لتسريب البيانات أو إساءة استخدام الأدوات) ( (OWASP). ). ديناميكيات المنصات تعزز الوضع: مراكز النماذج المفتوحة والبيانات المفتوحة تسهل الابتكار – لكنها أيضًا تسهّل إدخال آثار معدلة، خاصة أن العديد من تدفقات العمل تعتمد النماذج أو البيانات آلياً ( (JFrog Blog) (ACM Digital Library). ). في التطبيقات التي لديها وصول إلى الويب أو RAG يكفي وضع مستندات فخّية تحتوي تعليمات مخفية؛ ستتقبلها تطبيقات LLM لاحقاً بنية طيبة ( (Microsoft Developer Blog). ). من وجهة نظر المدافعين الدرس: الدفاع المتعمق على مستوى البيانات والنموذج والتطبيق بدلاً من الاعتماد فقط على أمل سلامة النموذج ( (Microsoft Security Blog).

Quelle: يوتيوب

نظرة سريعة وحيادية حول مخاطر حقن المطالبات ولماذا الحدود الأمنية الكلاسيكية لا تكفي هنا.

دلائل: توجد اكتشافات حقيقية لنماذج ضارة في مستودعات عامة؛ تم توثيق عشرات إلى مئات الحالات في 2024، بعضها مع تنفيذ كود أثناء التحميل ( (JFrog Blog) (BleepingComputer) (Ars Technica).

دلائل: كميات سمّ صغيرة قد تكون كافية. تُظهر دراسات مُتحكَّمة أن بضع مئات من أمثلة مُجهَّزة يمكن أن تُنشئ ارتباطات خاطئة قوية ( (Anthropic) (Alan Turing Institute Blog).

دلائل: حقن المطالبات وتسميم الأدوات تهديدات واقعية في تطبيقات LLM الوكالية؛ المطوّرين ينشرون تدابير تخفيف محددة ( (Microsoft Developer Blog) (Microsoft Security Response Center Blog).

غير واضح: مدى انتشار الخلفيات الخلفية في مجموعات التدريب المملوكة وغير المعلنة، لا يمكن قياسه بشكل موثوق من مصادر عامة؛ يفتقر إلى تدقيقات مستقلة وقياسات قابلة لإعادة الإنتاج ( (NIST).

خاطئ/مضلل: «التسميم يحدث فقط إذا تحكّم المهاجمون في أجزاء كبيرة من بيانات التدريب». تُظهر الدراسات العكس: حتى التسميمات الصغيرة والمحددة يمكن أن يكون لها تأثير قوي ( (Anthropic). ). كذلك خطأ: «هذا يخص المصادر المفتوحة فقط.» حقن المطالبات وتسميم البيانات تستهدف سياق التطبيق وسلسلة التوريد – بغض النظر عن نموذج الترخيص ( (OWASP) (Microsoft Security Blog).

إجراءات مضادة وردود فعل

Hugging Face تتعاون منذ 2024/2025 مع مزودي الأمن، تفحص ملايين إصدارات النماذج وتبلغ عن مئات الآلاف من النتائج المشبوهة؛ وفي الوقت نفسه يحث المجتمع على فحص الأدلة بعناية واعتماد صيغ تسلسلية آمنة بخلاف Pickle ( (Hugging Face Blog) (JFrog Blog). ). مايكروسوفت تصدر أنماط دفاع ضد حقن المطالبات بشكل غير مباشر وتؤكد على «الدفاع العميق» عبر حدود النماذج ( (Microsoft Security Response Center Blog) (Microsoft Security Blog). ). NIST يصنِّف أنواع الهجمات والإجراءات المضادة في الدليل العام ( (NIST). ). OWASP يضع تسميم بيانات التدريب ومخاطر سلسلة التوريد بشكل بارز في قائمة LLM Top-10 ( (OWASP).

جدار حماية LLM كآلية حماية من المخرجات الضارة.

Quelle: securiti.ai

جدار حماية LLM كآلية حماية من المخرجات الضارة.

عملياً يعني ذلك: تحقق من المصدر والتكامل ومسارات التحميل لنماذجك وبياناتك باستمرار. استخدم فحوصات وتوقيعات للأثار/العناصر، فضِّل التنسيقات الآمنة (مثلاً safetensors بدلاً من Pickles غير المراجعة)، وعزِّل عمليات التحميل تقنياً ( (JFrog Blog) (Hugging Face Blog). ). قلل من تأثير المصادر غير المختبرة في RAG، ضع فلاتر الإدخال/الإخراج وسياسات أدوات صارمة، خاصة عند الوكلاء والتشغيل الآلي ( (Microsoft Developer Blog) (Microsoft Security Blog). ). استرشِدوا بـ OWASP LLM Top 10 وتوصيات NIST؛ نفِّذوا اختبارات PoC بأنماط تسميم وحقن معروفة ووثِّقوا إجراءات الدفاع (OWASP) (NIST).

Quelle: يوتيوب

شرح موجز وواضح لتسميم البيانات، مفيد كنقطة انطلاق للفرق.

نظرة مستقبلية

كيف يمكن اكتشاف الخلفيات الخلفية في مجموعات التدريب الكبيرة المملوكة دون الكشف الكامل عن البيانات؟ هنا يفتقر إلى إجراءات تدقيق معيارية وحزم اختبارات مستقلة ( (NIST). ما مدى متانة التخفيفات الحالية ضد تسميم تكيفي ومتعدد المراحل في سيناريوهات RAG والوكلاء؟ تقارير البحث باستمرار عن طرق هجوم جديدة؛ الأعمال الحديثة حول هجمات المطالبات الموسَّعة وتسميم RAG تؤكد الحاجة إلى العمل ( (OpenReview) (arXiv).

تلويث LLM ليس موضوعًا هامشياً، بل مخاطر شاملة تمتد عبر البيانات، النماذج، الأدوات والتطبيقات. الخبر السار: مع فحص مصادر موثوقة، ومسارات تحميل آمنة، ونظافة RAG، والدفاع العميق والاختبارات المستمرة يمكن تقليل الخطر بشكل واضح ( (OWASP) (NIST) (Microsoft Developer Blog). من يحصّن سلسلة التوريد اليوم، يوفر على نفسه وقوع حوادث الغد – ويحافظ على سيادة تصميم أنظمة الذكاء الاصطناعي الخاصة به ( (Hugging Face Blog) (Anthropic).

Teilen Sie doch unseren Beitrag!