Intoxicação de LLM: ataques e medidas de defesa

Avatar
Lisa Ernst · 16.10.2025 · Técnica · 5 minutos

Tropeei pela primeira vez no tema quando uma equipe demonstrou como poucos textos manipulados são suficientes para levar um modelo de linguagem de forma confiável ao tropeço ( Anthropic). ). Desde então pergunto: Como exatamente um sistema é envenenado, onde residem os reais riscos – e o que vocês podem fazer na prática? Este panorama reúne achados atuais, exemplos e medidas de mitigação de fontes confiáveis ( (OWASP).

Introdução

Com intoxicação de LLM é entendida a inserção direcionada de conteúdos manipulados em dados de treinamento, fine-tuning, recuperação (retrieval) ou dados de ferramentas, com o objetivo de enfraquecer, distorcer ou inserir comandos ocultos (backdoors) ( (OWASP). ). Uma backdoor é: um gatilho aparentemente inofensivo como que provoca no modelo uma reação desviada, desejada pelo atacante ( (Anthropic). ). Além da intoxicação tradicional de dados de treinamento, também faz parte a intoxicação de fontes de conhecimento em sistemas RAG, bem como descrições de ferramentas e artefatos do modelo, por exemplo quando um texto de ferramenta malicioso leva o modelo a ações indesejadas ( (Microsoft Developer Blog). ). O NIST classifica isso como uma classe de Poisoning na taxonomia de segurança de IA e cita, entre outras, endurecimento de dados e forense como contramedidas ( (NIST).

Em 2023, PoisonGPT mostrou que um modelo de código aberto modificado em uma plataforma popular pode disseminar desinformação de forma discreta; os pesquisadores manipularam GPT-J-6B e o fizeram subir como um modelo aparentemente legítimo ( (Mithril Security Blog).

O processo de quatro etapas da envenenamento da cadeia de suprimentos de LLM pelo PoisonGPT.

Quelle: lakera.ai

O processo de quatro etapas da envenenamento da cadeia de suprimentos de LLM pelo PoisonGPT.

Em fevereiro/março de 2024, empresas de segurança e a mídia relataram pelo menos cerca de 100 modelos maliciosos no Hugging Face, capazes de executar código ao carregar; entre as causas estava, por exemplo, o uso arriscado de arquivos Pickle ( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).

No início de 2024, a Protect AI informou ter encontrado, desde agosto de 2023, 3.354 modelos com código malicioso e lançou com o Guardian um serviço de varredura (escaneamento) ( (Axios).

Em 2025, a imagem se aprofundou: Anthropic, UK AI Security Institute e Alan Turing Institute demonstraram experimentalmente que cerca de 250 documentos devidamente preparados já podem fazer com que um modelo aprenda a esquecer confiavelmente – ou seja, associar uma palavra-gatilho a uma saída sem sentido –, e isso em várias escalas de tamanho de modelo, (Anthropic) (Alan Turing Institute Blog).

Paralelamente, aumentaram as capacidades de defesa na cadeia de suprimentos: a Hugging Face relata, em 2025, milhões de versões de modelos escaneadas e centenas de milhares de relatos de problemas inseguros/suspeitos por scanners parceiros ( (Hugging Face Blog). ). A Microsoft publica padrões de defesa contra injeção indireta de prompts e enfatiza Defesa em Profundidade além dos limites do modelo ( (Microsoft Security Response Center Blog).

Análise da ameaça

Por que tudo isso? Os atacantes seguem três linhas principais: primeiro, interromper a disponibilidade (DoS por meio do esquecimento), segundo, comprometer a integridade (informações falsas direcionadas, viés), terceiro, introduzir habilidades ocultas (backdoors para vazamento de dados ou uso indevido de ferramentas) ( (OWASP). ). Dinâmicas de plataforma aumentam a situação: hubs de modelos abertos e dados abertos facilitam a inovação – mas também a inserção de artefatos manipulados, especialmente porque muitos fluxos de trabalho adotam modelos ou conjuntos de dados de forma automatizada ( (JFrog Blog) (ACM Digital Library). ). Em apps com acesso web ou RAG basta colocar documentos isca com instruções escondidas; a aplicação LLM as fará confiar mais tarde sem questionar ( (Microsoft Developer Blog). ). Do ponto de vista dos defensores, a lição é: defesa em profundidade nos níveis de dados, modelo e aplicação, em vez de apenas depender da Defesa em Profundidade ( (Microsoft Security Blog).

Quelle: YouTube

Visão rápida e objetiva sobre riscos de prompt-injection e por que os limites de segurança clássicos aqui não são suficientes.

Comprovado: existem achados reais de modelos maliciosos em repositórios públicos; várias dezenas a centenas de casos foram documentados em 2024, alguns com execução de código ao carregar ( (JFrog Blog) (BleepingComputer) (Ars Technica).

Comprovado: pequenas quantidades de veneno podem ser suficientes. Estudos controlados mostram que algumas centenas de exemplos preparados podem gerar associações incorretas robustas ( (Anthropic) (Alan Turing Institute Blog).

Comprovado: Prompt-Injection e Poisoning de ferramentas são ameaças realistas em aplicativos LLM baseados em agentes; os fabricantes publicam medidas de mitigação concretas (Microsoft Developer Blog) (Microsoft Security Response Center Blog).

Incerto: quão difundidas estão backdoors em corpora de treinamento proprietários não divulgados não pode ser quantificado com confiabilidade a partir de fontes públicas; faltam auditorias independentes e medições reprodutíveis ( (NIST).

Falso/enganoso: Poisoning só ocorre se os atacantes controlarem grandes partes dos dados de treinamento. Estudos mostram o contrário: até venenos muito pequenos, direcionados, podem ter efeito forte ( (Anthropic). ). Também é falso: isso afeta apenas Open Source. Prompt-Injection e envenenamento de dados visam o contexto de aplicação e a cadeia de suprimentos – independentemente do modelo de licença ( (OWASP) (Microsoft Security Blog).

Medidas de mitigação e respostas

A Hugging Face tem cooperado desde 2024/2025 com fornecedores de segurança, varre milhões de versões de modelos e relata centenas de milhares de descobertas suspeitas; ao mesmo tempo, a comunidade enfatiza a verificação cuidadosa de artefatos e formatos de serialização seguros além do Pickle ( (Hugging Face Blog) (JFrog Blog). ). A Microsoft publica padrões de defesa contra injeção indireta de prompts e enfatiza Defesa em Profundidade além dos limites do modelo ( (Microsoft Security Response Center Blog) (Microsoft Security Blog). ). O NIST sistematiza tipos de ataque e contramedidas no guia público ( (NIST). ). OWASP destaca intoxicação de dados de treinamento e riscos da cadeia de suprimentos no ranking LLM Top 10 ( (OWASP).

Uma firewall de LLM como mecanismo de proteção contra saídas nocivas.

Quelle: securiti.ai

Uma firewall de LLM como mecanismo de proteção contra saídas nocivas.

Praticamente isso significa: verifiquem a origem, integridade e caminhos de carregamento de seus modelos e dados de forma consistente. Usem varreduras e assinaturas para artefatos, deem preferência a formatos seguros (por exemplo safetensors em vez de Pickles não verificados), e isolem processos de carregamento de forma técnica ( (JFrog Blog) (Hugging Face Blog). ). Limite o impacto de fontes não testadas em RAG, implementem filtros de entrada e saída e políticas estritas de ferramenta, especialmente para agentes e automações ( (Microsoft Developer Blog) (Microsoft Security Blog). ). Ampare-se no OWASP LLM Top 10 e nas recomendações do NIST; realizem testes de PoC com padrões conhecidos de Poisoning e Injection e documentem as medidas de defesa ( (OWASP) (NIST).

Quelle: YouTube

Explicação breve e clara sobre envenenamento de dados, útil como introdução para equipes.

Perspectiva

Como detectar backdoors em grandes conjuntos de dados de treinamento proprietários de forma confiável, sem expor completamente os dados? Aqui faltam procedimentos de auditoria padronizados e suítes de testes independentes ( (NIST). Quão robustas estão as mitigations atuais contra envenenamento adaptativo em setups de RAG e de agentes com várias etapas? A pesquisa continua relatando novos caminhos de ataque; trabalhos atuais sobre ataques de prompt escaláveis e envenenamento em RAG destacam a necessidade de ação (OpenReview) (arXiv).

Envenenamento de LLM não é um tema marginal, mas um risco transversal sobre dados, modelos, ferramentas e aplicações. A boa notícia: com controle de origem rigoroso, caminhos de carregamento seguros, higiene de RAG, defesa em profundidade e testes contínuos, o risco pode ser significativamente reduzido (OWASP) (NIST) (Microsoft Developer Blog). Quem hoje endurece a cadeia evita incidentes amanhã – e mantém o controle sobre o design de seus próprios sistemas de IA (Hugging Face Blog) (Anthropic).

Teilen Sie doch unseren Beitrag!