Envenenamiento de LLM: ataques y medidas de defensa

Avatar
Lisa Ernst · 16.10.2025 · Técnica · 5 minutos

Me topé por primera vez con el tema cuando un equipo demostró cuántos textos manipulados son suficientes para conducir de forma fiable a un modelo de lenguaje al resbalón ( Anthropic). ). Desde entonces me pregunto: ¿Cómo exactamente se envenena un sistema, dónde están los riesgos reales — y qué pueden hacer ustedes prácticamente? Este panorama reúne hallazgos actuales, ejemplos y contramedidas de fuentes serias ( (OWASP).

Introducción

Con el envenenamiento de LLM se refiere a introducir deliberadamente contenidos manipulados en datos de entrenamiento, fine-tuning, recuperación o de herramientas, para debilitar, distorsionar o incrustar comandos ocultos (backdoors) ( (OWASP). ). Una puerta trasera se llama: un desencadenante que parezca inofensivo como provoca en el modelo una reacción distinta deseada por el atacante ( (Anthropic). ). Además del envenenamiento clásico de datos de entrenamiento, también forma parte el envenenamiento de fuentes de conocimiento en sistemas RAG, así como de descripciones de herramientas y artefactos de modelos, por ejemplo cuando un texto de herramienta malintencionado empuja al modelo a acciones no deseadas ( (Microsoft Developer Blog). ). NIST lo clasifica como una clase de "Poisoning" dentro de la taxonomía de seguridad de IA y menciona, entre otras, endurecimiento de datos y forense como contramedidas ( (NIST).

2023 mostró "PoisonGPT" que un modelo de código abierto modificado en una plataforma popular puede difundir información falsa de forma discreta; los investigadores manipularon GPT-J-6B y lo cargaron como un modelo aparentemente legítimo ( (Mithril Security Blog).

El proceso de cuatro etapas de la envenenación de la cadena de suministro de LLM mediante PoisonGPT.

Quelle: lakera.ai

El proceso de cuatro etapas de la envenenación de la cadena de suministro de LLM mediante PoisonGPT.

En febrero/marzo de 2024, empresas de seguridad y medios informaron de al menos unos 100 modelos maliciosos en Hugging Face, que podían ejecutar código al cargarlos; entre las causas estaba, entre otras, el uso arriesgado de archivos Pickle ( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).

A principios de 2024, Protect AI informó haber encontrado en total 3.354 modelos con código malicioso desde agosto de 2023 y lanzó con "Guardian" un servicio de escaneo ( (Axios).

En 2025 se profundizó la imagen: Anthropic, el UK AI Security Institute y el Alan Turing Institute demostraron experimentalmente que ya unas 250 documentos preparados adecuadamente pueden hacer que un modelo aprenda a olvidar de forma fiable, es decir, vincular una palabra disparadora con una salida sin sentido, y eso abarcando diferentes tamaños de modelo ( (Anthropic) (Alan Turing Institute Blog).

Paralelamente crecieron las capacidades de defensa en la cadena de suministro: Hugging Face reporta en 2025 millones de versiones de modelos escaneadas y cientos de miles de incidentes reportados como 'unsafe/suspicious' por escáneres de socios ( (Hugging Face Blog). ). Microsoft publicó en 2025 patrones de defensa concretos contra inyecciones de prompts indirectas y protocolos de herramientas ( (Microsoft Security Response Center Blog).

Análisis de la amenaza

¿Por qué todo esto? Los atacantes persiguen tres líneas principales: en primer lugar perturbar la disponibilidad (DoS mediante desaprendizaje); en segundo, socavar la integridad (información falsa dirigida, sesgo); en tercero introducir habilidades encubiertas (backdoors para filtración de datos o uso indebido de herramientas) ( (OWASP). ). Las dinámicas de plataforma agravan la situación: los repositorios de modelos abiertos y los datos abiertos facilitan la innovación, pero también la introducción de artefactos manipulados, especialmente cuando muchos flujos de trabajo adoptan modelos o conjuntos de datos automáticamente ( (JFrog Blog) (ACM Digital Library). ). En aplicaciones con acceso web o RAG es suficiente colocar documentos señuelo con instrucciones ocultas; la aplicación LLM los adopta luego de buena fe ( (Microsoft Developer Blog). ). Desde la perspectiva de los defensores, la enseñanza es: defensa en profundidad a nivel de datos, modelo y aplicación en lugar de confiar solamente en la seguridad del modelo ( (Microsoft Security Blog).

Quelle: YouTube

Breve, objetivo panorama de los riesgos de inyección de indicaciones y por qué los límites de seguridad clásicos no son suficientes aquí.

Consta: hay hallazgos reales de modelos maliciosos en repositorios públicos; entre varias decenas y cien casos fueron documentados en 2024, algunos con ejecución de código al cargar ( (JFrog Blog) (BleepingComputer) (Ars Technica).

Consta: pequeñas dosis de veneno pueden ser suficientes. Estudios controlados muestran que unas pocas centenas de ejemplos preparados pueden generar asociaciones erróneas robustas ( (Anthropic) (Alan Turing Institute Blog).

Consta: la inyección de indicaciones y el envenenamiento de herramientas son amenazas realistas en aplicaciones LLM con agente; los fabricantes publican mitigaciones concretas ( (Microsoft Developer Blog) (Microsoft Security Response Center Blog).

Incierto: cuán extendidas están las puertas traseras en corpus de entrenamiento propietarios y no divulgados, no se puede cuantificar de forma confiable a partir de fuentes públicas; aquí faltan auditorías independientes y mediciones reproducibles ( (NIST).

Falso/engañoso: 'El envenenamiento solo ocurre si los atacantes controlan grandes partes de los datos de entrenamiento'. Los estudios muestran lo contrario: incluso muy pequeñas toxinas dirigidas pueden tener un efecto fuerte ( (Anthropic). ). Igualmente falso: 'Esto solo afecta al código abierto'. La inyección de indicaciones y el envenenamiento de datos apuntan al contexto de la aplicación y a la cadena de suministro, independientemente del modelo de licencia ( (OWASP) (Microsoft Security Blog).

Medidas de mitigación y respuestas

Hugging Face coopera desde 2024/2025 con proveedores de seguridad, escanea millones de versiones de modelos y reporta cientos de miles de hallazgos sospechosos; al mismo tiempo la comunidad advierte sobre la revisión cuidadosa de artefactos y formatos de serialización seguros más allá de Pickle ( (Hugging Face Blog) (JFrog Blog). ). Microsoft publica patrones de defensa contra inyección de indicaciones indirectas y enfatiza "Defensa en profundidad" más allá de los límites del modelo ( (Microsoft Security Response Center Blog) (Microsoft Security Blog). ). NIST sistematiza tipos de ataque y contramedidas en la guía pública ( (NIST). ). OWASP coloca de forma destacada la intoxicación de datos de entrenamiento y los riesgos de la cadena de suministro en el Top-10 de LLM ( (OWASP).

Una firewall de LLM como mecanismo de protección contra salidas dañinas.

Quelle: securiti.ai

Una firewall de LLM como mecanismo de protección contra salidas dañinas.

Prácticamente significa: verifique de forma constante la procedencia, la integridad y las rutas de carga de sus modelos y datos. Utilice escaneos y firmas para artefactos, prefiera formatos seguros (p. ej., safetensors en lugar de Pickles no verificados), e Isole los procesos de carga tecnológicamente ( (JFrog Blog) (Hugging Face Blog). ). Limite la influencia de fuentes no probadas en RAG, implemente filtros de entrada y salida y políticas estrictas de herramientas, especialmente con agentes y automatizaciones ( (Microsoft Developer Blog) (Microsoft Security Blog). ). Apéguense a OWASP LLM Top 10 y las recomendaciones de NIST; realicen pruebas de PoC con patrones conocidos de poisoning e injection y documenten las medidas de defensa ( (OWASP) (NIST).

Quelle: YouTube

Explicación breve y clara sobre el envenenamiento de datos, útil como introducción para equipos.

Perspectivas

¿Cómo pueden detectarse de forma confiable puertas traseras en grandes conjuntos de datos de entrenamiento propietarios sin divulgar por completo los datos? Aquí faltan procedimientos de auditoría estandarizados y suites de pruebas independientes ( (NIST). ). ¿Qué tan robustas son las mitigaciones actuales contra el envenenamiento adaptativo y multi-etapa en entornos RAG y de agentes? La investigación informa continuamente sobre nuevos caminos de ataque; trabajos actuales sobre ataques de prompts a gran escala y Poisoning en RAG subrayan la necesidad de acción ( (OpenReview) (arXiv).

El envenenamiento de LLM no es un tema marginal, sino un peligro transversal sobre datos, modelos, herramientas y aplicaciones. La buena noticia: con control de procedencia limpio, rutas de carga seguras, higiene RAG, defensa en profundidad y pruebas continuas se puede reducir significativamente el riesgo ( (OWASP) (NIST) (Microsoft Developer Blog). Quien hoy endurece la cadena, ahorra incidentes mañana y mantiene el control de diseño sobre sus propios sistemas de IA ( (Hugging Face Blog) (Anthropic).

Teilen Sie doch unseren Beitrag!