LLM 中毒:攻击与防御措施

Avatar
Lisa Ernst · 16.10.2025 · 技术 · 5 分钟

我第一次遇到这个话题,是在一个团队演示时,展示了极少量被操纵的文本就足以让一个语言模型可靠地陷入泥潭( Anthropic). ). Seither frage ich: Wie genau wird ein System vergiftet, wo liegen die echten Risiken – und was könnt ihr praktisch tun? Dieser Überblick bündelt aktuelle Befunde, Beispiele und Gegenmaßnahmen aus seriösen Quellen ( (OWASP).

介绍

LLM 中毒指的是将被操纵的内容定向地混入训练、微调、检索或工具数据中,以削弱、扭曲模型或嵌入隐藏指令(后门)( (OWASP). 。后门的含义是:一个看似无害的触发器,如 ,触发模型的一种偏离性、由攻击者期望的响应( (Anthropic). )。除了传统的训练数据中毒,还包括对 RAG 系统中的知识来源、工具描述和模型伪件的中毒,例如当一个恶意的工具文本促使模型执行不希望的操作时( (Microsoft Developer Blog). ).NIST 将其归类为人工智能安全分类法中的“中毒”类别,并列出数据强化和取证等对策( (NIST).

2023 年,显示了“PoisonGPT”,一个经过修改的开源模型在一个流行平台上可以悄无声息地传播虚假信息;研究人员对 GPT-J-6B 进行了操作并将其作为看似合法的模型上传( (Mithril Security Blog).

PoisonGPT 引发的 LLM 供应链中毒的四阶段过程。

Quelle: lakera.ai

PoisonGPT 引发的 LLM 供应链中毒的四阶段过程。

). 2024 年 2 月/3 月,安全公司与媒体报道,Hugging Face 上至少约 100 个带有恶意代码的模型,在加载时能够执行代码;原因之一是对 Pickle 文件的风险使用( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).

2024 年初,Protect AI 表示自 2023 年 8 月以来共发现 3,354 个带有恶意代码的模型,并推出名为“Guardian”的扫描服务( (Axios).

2025 年,情况进一步深化:Anthropic、英国 AI 安全研究所和阿兰图灵研究所通过实验表明,大约 250 篇恰当准备的文档就能让模型可靠地“忘记”——将触发词与无意义输出相关联——并覆盖不同规模的模型( (Anthropic) (Alan Turing Institute Blog).

同时,供应链中的防护能力也在增长:Hugging Face 2025 年报道了数百万份已扫描的模型版本,以及合作伙伴扫描器报告的数十万条“不安全/可疑”问题( (Hugging Face Blog). )。微软在 2025 年公布了针对应用和工具协议中间接提示注入的具体防护模式( (Microsoft Security Response Center Blog).

威胁分析

为什么会这样?攻击者追求三条主要路径:第一,干扰可用性(通过“忘记”导致的 DoS),第二,破坏完整性(定向虚假信息、偏见),第三,注入隐蔽能力(数据外泄或工具滥用的后门)( (OWASP). ). 平台动态加剧形势:开放模型中心和开放数据促进创新——但也更容易注入被操纵的伪件,尤其是许多工作流会自动采纳模型或数据集( (JFrog Blog) (ACM Digital Library). ). 在具有网页访问或 RAG 的应用中,放置带有隐藏指令的诱骗文档就足以;LLM 应用稍后会天真地接收它们( (Microsoft Developer Blog). ). 从防御者的角度,教训是:在数据、模型和应用层面实施纵深防御,而不是单靠“模型安全”的希望( (Microsoft Security Blog).

Quelle: YouTube

关于 Prompt-Injection 风险及为何传统的安全边界在此不足的简短、冷静概览。

证实:公开仓库中确实发现了真实的恶意模型;2024 年记录了数十到上百个案例,部分在加载时就会执行代码( (JFrog Blog) (BleepingComputer) (Ars Technica).

证实:极少量的中毒就足以。受控研究表明,只有数百个预处理样例就能产生稳健的错误联结( (Anthropic) (Alan Turing Institute Blog).

证实:提示注入与工具中毒是在代理型 LLM 应用中的现实威胁;厂商公开了具体的缓解措施( (Microsoft Developer Blog) (Microsoft Security Response Center Blog).

不明确:在专有、未公开的训练语料中的后门的普遍性,无法从公开来源可靠量化;这里缺乏独立审核与可重复的测量( (NIST).

错误/误导:“中毒只有在攻击者控制大部分训练数据时才成立。” 研究显示恰恰相反:极小、定向的 Poison 就能产生显著效果( (Anthropic). )。同样错误:‘这仅影响开源。’ 提示注入和数据中毒针对应用环境和供应链——与许可模式无关( (OWASP) (Microsoft Security Blog).

对策与应对

Hugging Face 自 2024/2025 年起与安全供应商合作,扫描数百万个模型版本,报告数十万条可疑发现;同时社区呼吁对伪件进行仔细核验,并采用超越 Pickle 的更安全的序列化格式( (Hugging Face Blog) (JFrog Blog). )。微软公布了针对间接 Prompt 注入的防御模板,并强调跨越模型边界的“分层防御”( (Microsoft Security Response Center Blog) (Microsoft Security Blog). )。NIST 对公开指南中的攻击类型与对策进行了系统化( (NIST). )。OWASP 将训练数据中毒和供应链风险突出列入 LLM 的前十名( (OWASP).

一种用于对抗有害输出的 LLM 防火墙。

Quelle: securiti.ai

一种用于对抗有害输出的 LLM 防火墙。

实际而言:需要持续检查你们的模型和数据的来源、完整性和加载路径。使用对伪件的扫描和签名,优先使用安全格式(例如 safetensors 而不是未校验的 Pickle),并在技术上对加载过程进行隔离( (JFrog Blog) (Hugging Face Blog). 。限制在 RAG 中未经过测试的来源的影响,实施输入和输出过滤以及严格的工具策略,尤其在代理和自动化场景中( (Microsoft Developer Blog) (Microsoft Security Blog). 。参考 OWASP LLM Top 10 与 NIST 的建议;对已知的 Poisoning 与 Injection 模式进行 PoC 测试并记录防御措施( (OWASP) (NIST).

Quelle: YouTube

关于数据中毒的简短、易懂的解释,适合作为团队入门。

展望

在不完全公开数据的前提下,如何可靠地在大型、专有的训练数据中识别后门?这里缺乏标准化的审核流程和独立的测试套件( (NIST). )。当前对自适应、多阶段的 Poisoning 在 RAG 与代理场景中的缓解措施有多稳健?研究持续报道新的攻击路径;关于扩展提示攻击与 RAG 中毒的最新研究强调了需要采取行动( (OpenReview) (arXiv).

LLM 中毒不是边缘话题,而是跨越数据、模型、工具与应用的横向风险。好消息是:通过干净的来源控制、可靠的加载路径、RAG 卫生、分层防御和持续测试,可以显著降低风险( (OWASP) (NIST) (Microsoft Developer Blog). 。今天对链条进行强化,明天就能减少事件——并保持对自身 AI 系统的设计主导权( (Hugging Face Blog) (Anthropic).

Teilen Sie doch unseren Beitrag!