Отравление LLM: атаки и контрмеры

Avatar
Lisa Ernst · 16.10.2025 · Техника · 5 мин

Я впервые наткнулся на тему, когда команда продемонстрировала, как небольшого количества манипулированных текстов достаточно, чтобы надёжно ввести языковую модель в тупик ( Anthropic). ). С тех пор спрашиваю: как именно система отравляется, где лежат настоящие риски – и что вы можете сделать на практике? Этот обзор объединяет актуальные выводы, примеры и контрмеры из надёжных источников ( (OWASP).

Введение

Под отравлением LLM понимается целенаправленное внедрение манипулированного контента в данные обучения, тонкой настройки (Fine-Tuning), Retrieval или инструментальные данные, чтобы модели ослаблять, искажать или внедрять скрытые команды (бекдоры) ( (OWASP). ). Бэкдор называется: безобидно выглядящий триггер вроде вызывает у модели отклонённую, от злоумышленника желаемую реакцию ( (Anthropic). ). Кроме классической подмены обучающих данных, к семейству относятся также отравление источников знаний в RAG-системах, а также описаний инструментов и артефактов моделей, например когда вредоносный текст инструмента заставляет модель выполнять нежелательные действия ( (Microsoft Developer Blog). ). NIST классифицирует это как класс «Poisoning» в таксономии кибербезопасности ИИ и перечисляет помимо прочего укрепление данных и форензик как контрмеры ( (NIST).

2023 год показал PoisonGPT, что изменённая модель с открытым исходным кодом на популярной платформе может незаметно распространять ложную информацию; исследователи модифицировали GPT-J-6B и загрузили её как якобы законную модель ( (Mithril Security Blog).

Четырёхступенчатый процесс отравления цепочек поставок LLM через PoisonGPT.

Quelle: lakera.ai

Четырёхступенчатый процесс отравления цепочек поставок LLM через PoisonGPT.

В феврале/марте 2024 года компании по безопасности и СМИ сообщили о как минимум около 100 вредоносных моделей на Hugging Face, которые могли выполнять код при загрузке; одной из причин была рискованная работа с файлами Pickle ( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).

В начале 2024 года Protect AI сообщил, что с августа 2023 года найдено в сумме 3 354 модели с вредоносным кодом, и запустил сервис скрининга под названием Guardian ( (Axios).

2025 год развёл картину ещё глубже: Anthropic, Институт безопасности ИИ Великобритании (UK AI Security Institute) и Институт Алена Тьюринга экспериментально показали, что примерно 250 соответствующим образом подготовленных документов могут надёжно заставить модель «забыть» — связать триггер-слово с бессмысленным выводом — и это для разных размеров моделей ( (Anthropic) (Alan Turing Institute Blog).

Параллельно росли защитные возможности в цепочке поставок: Hugging Face сообщает 2025 года о миллионах просканированных версий моделей и сотнях тысяч зарегистрированных «unsafe/suspicious» проблем через партнёров-сканеров ( (Hugging Face Blog). ). Microsoft опубликовала в 2025 году конкретные образцы защиты против косвенной инъекции подсказок в приложениях и протоколах инструментов ( (Microsoft Security Response Center Blog).

Анализ угроз

Зачем всё это? Атакующие следуют три основные линии: во-первых нарушение доступности (DoS через «забывание»), во-вторых подрыв целостности (целевые ложные сведения, предвзятость), в-третьих внедрение скрытых возможностей (бекдоры для утечки данных или злоупотребления инструментами) ( (OWASP). ). Динамика платформ усиливает ситуацию: открытые хабы моделей и открытые данные упрощают инновации — но и внедрение манипулированных артефактов, тем более что многие рабочие процессы автоматически принимают модели или данные ( (JFrog Blog) (ACM Digital Library). ). В приложениях с веб-доступом или Retrieval-агностикой достаточно разместить приманочные документы с скрытыми инструкциями; приложение LLM позже принимает их добросовестно ( (Microsoft Developer Blog). ). С точки зрения защитников вывод таков: многоуровневая защита на уровне данных, моделей и приложений, а не только надежда на «безопасность модели» ( (Microsoft Security Blog).

Quelle: YouTube

Короткий, сухой обзор рисков инъекции подсказок и того, почему классические пределы безопасности здесь не работают.

Доказано: на открытых репозиториях встречаются реальные вредоносные модели; в 2024 году задокументировано множество случаев, частично с выполнением кода при загрузке ( (JFrog Blog) (BleepingComputer) (Ars Technica).

Доказано: даже очень небольшие порции токсинов могут быть достаточно. Контролируемые исследования показывают, что всего несколько сотен подготовленных примеров могут создавать устойчивые ложные ассоциации ( (Anthropic) (Alan Turing Institute Blog).

Доказано: инъекция подсказок и отравление инструментов являются реалистичными угрозами в агентных приложениях LLM; производители публикуют конкретные способы противодействия ( (Microsoft Developer Blog) (Microsoft Security Response Center Blog).

Неясно: насколько распространены бекдоры в проприетарных, не публикуемых обучающих корпусах; из публичных источников нельзя надёжно количественно оценить; здесь не хватает независимых аудитов и воспроизводимых измерений ( (NIST).

Ложно/вводяще в заблуждение: «отравление происходит только, если злоумышленник контролирует большую часть обучающих данных». Исследования показывают противоположное: даже очень небольшие, целенаправленные отравления могут иметь сильный эффект ( (Anthropic). ). Также неверно: «Это касается только открытого исходника». Инъекция подсказок и отравление данных нацелены на контекст применения и цепочку поставок — независимо от лицензионной модели ( (OWASP) (Microsoft Security Blog).

Контрмеры и реакции

Hugging Face сотрудничает с поставщиками безопасности с 2024/2025 годов, сканирует миллионы версий моделей и сообщает сотни тысяч подозрительных находок; одновременно сообщество призывает к тщательной проверке артефактов и к безопасным форматам сериализации помимо Pickle ( (Hugging Face Blog) (JFrog Blog). ). Microsoft публикует образцы защиты против косвенной инъекции подсказок и подчеркивает «Defense-in-Depth» за пределами границ моделей ( (Microsoft Security Response Center Blog) (Microsoft Security Blog). ). NIST систематизирует виды атак и контрмер в открытом руководстве ( (NIST). ). OWASP включает загрязнение обучающих данных и риски цепочки поставок в верхние позиции рейтинга LLM Top-10 ( (OWASP).

LLM‑фаервол как защитный механизм против вредоносных выдач.

Quelle: securiti.ai

LLM‑фаервол как защитный механизм против вредоносных выдач.

Практически это значит: последовательно проверяйте источник, целостность и пути загрузки ваших моделей и данных. Используйте сканирования и сигнатуры артефактов, отдавайте предпочтение безопасным форматам (например, safetensors вместо непроверенных Pickle), и изолируйте процессы загрузки техническими мерами ( (JFrog Blog) (Hugging Face Blog). ). Ограничьте влияние непроверенных источников в RAG, внедрите входные и выходные фильтры, а также строгие политики инструментов, особенно для агентов и автоматизаций ( (Microsoft Developer Blog) (Microsoft Security Blog). ). Ориентируйтесь на OWASP LLM Top 10 и рекомендации NIST; проводите PoC-тесты с известными Poisoning и Injection и документируйте меры защиты ( (OWASP) (NIST).

Quelle: YouTube

Короткое, понятное объяснение загрязнения данных, полезное как вступление для команд.

Перспективы

Как надёжно распознавать бекдоры в больших проприетарных обучающих когортах, не раскрывая данные полностью? Здесь отсутствуют стандартизированные процедуры аудита и независимые тестовые наборы ( (NIST). ). Насколько устойчивы современные меры против адаптивного, многоступенчатого Poisoning в настройках RAG и агентов? Исследования сообщают о новых путях атак; современные работы по масштабируемым атакам на подсказки и Poisoning в RAG подчёркивают необходимость действий ( (OpenReview) (arXiv).

Отравление LLM — не периферийная тема, а сквозная угроза для данных, моделей, инструментов и приложений. Хорошая новость: благодаря аккуратной проверке источников, безопасным путям загрузки, гигиене RAG, многоуровневой защите (Defense-in-Depth) и регулярным тестам риск можно значительно снизить ( (OWASP) (NIST) (Microsoft Developer Blog). ). Кто сегодня укрепляет цепочку, сэкономит завтра на инцидентах — и сохранит возможность управления дизайном своих KI-систем ( (Hugging Face Blog) (Anthropic).

Teilen Sie doch unseren Beitrag!