Avvelenamento LLM: Attacchi e contromisure
Mi sono imbattuto per la prima volta nell'argomento quando un team ha dimostrato come pochi testi manipolati bastino per guidare in modo affidabile un modello linguistico su una china scivolosa ( Anthropic). ). Da allora mi chiedo: come esattamente viene avvelenato un sistema, dove risiedono i veri rischi – e cosa potete fare di pratico? Questa panoramica raccoglie i risultati attuali, esempi e contromisure provenienti da fonti affidabili ( (OWASP).
Introduzione
Con l'avvelenamento LLM si intende l'inserimento mirato di contenuti manipolati in dati di addestramento, fine-tuning, retrieval o dati degli strumenti per indebolire, distorcere o inserire comandi nascosti (backdoors) (
(OWASP). ). Una backdoor si chiama: un trigger apparentemente innocuo come
Il 2023 ha mostrato PoisonGPT che un modello open-source modificato su una piattaforma popolare può diffondere informazioni false senza farsi notare; i ricercatori hanno manipolato GPT-J-6B e lo hanno caricato come modello apparentemente legittimo ( (Mithril Security Blog).

Quelle: lakera.ai
Il processo in quattro fasi dell'avvelenamento della catena di fornitura LLM tramite PoisonGPT.
Febbraio/marzo 2024, aziende di sicurezza e media hanno riferito di almeno circa 100 modelli malevoli su Hugging Face, capaci di eseguire codice al caricamento; tra le cause figurava, tra l'altro, l'uso rischioso di file Pickle ( (JFrog Blog) (BleepingComputer) (Ars Technica) (CSOonline).
All'inizio del 2024 Protect AI ha riferito di aver trovato in tutto 3.354 modelli con codice dannoso dall'agosto 2023 e ha lanciato con «Guardian» un servizio di scansione. (Axios).
Nel 2025 l'immagine si è approfondita: Anthropic, l'UK AI Security Institute e l'Alan Turing Institute hanno dimostrato sperimentalmente che già circa 250 documenti appositamente preparati possono far sì che un modello dimentichi affidabilmente – cioè associare una parola trigger con output senza senso –, e ciò indipendentemente dalle dimensioni del modello ( (Anthropic) (Alan Turing Institute Blog).
Parallelmente crescerono le capacità di difesa nella catena di fornitura: Hugging Face riferisce nel 2025 di milioni di versioni di modelli scansionate e centinaia di migliaia di segnalazioni di problemi unsafe/suspicious da scanner partner ( (Hugging Face Blog). ). Microsoft ha pubblicato nel 2025 modelli di protezione concreti contro l'iniezione indiretta di prompt nelle applicazioni e nei protocolli degli strumenti ( (Microsoft Security Response Center Blog).
Analisi della minaccia
Perché tutto questo? Gli aggressori seguono tre linee principali: in primo luogo disturbare la disponibilità (DoS tramite apprendimento errato), in secondo luogo minare l'integrità (informazioni fuorvianti mirate, bias), in terzo luogo introdurre capacità nascoste (backdoor per fuga di dati o abuso di strumenti) ( (OWASP). ). Le dinamiche delle piattaforme aggravano la situazione: i repository/modelli aperti e i dati aperti facilitano l'innovazione – ma anche l'inserimento di artefatti manipolati, soprattutto perché molti flussi di lavoro accettano automaticamente modelli o set di dati ( (JFrog Blog) (ACM Digital Library). ). Nelle app con accesso web o RAG è sufficiente posizionare documenti di esca con istruzioni nascoste; l'applicazione LLM li assimila successivamente in buona fede ( (Microsoft Developer Blog). ). Dal punto di vista dei difensori, la lezione è la Defense-in-Depth a livello di dati, modello e applicazioni, invece di confidare solamente nella “Sicurezza del modello” ( (Microsoft Security Blog).
Quelle: YouTube
Breve e neutro panorama sui rischi di prompt-injection e sul perché i limiti di sicurezza classici qui non bastano.
Dimostrato: ci sono ritrovamenti reali di modelli malevoli in repository pubblici; decine fino a centinaia di casi sono stati documentati nel 2024, in parte con esecuzione del codice al caricamento ( (JFrog Blog) (BleepingComputer) (Ars Technica).
Dimostrato: piccole dosi di veleno possono essere sufficienti. Studi controllati mostrano che poche centinaia di esempi appositamente preparati possono generare collegamenti errati robusti ( (Anthropic) (Alan Turing Institute Blog).
Dimostrato: Prompt-Injection e avvelenamento di strumenti sono minacce realistiche nelle app LLM agentive; i produttori pubblicano mitigazioni concrete ( (Microsoft Developer Blog) (Microsoft Security Response Center Blog).
Non chiaro: quanto sia diffuso l'uso di backdoor in corpora di addestramento proprietari e non divulgati, non è possibile quantificarlo in modo affidabile dalle fonti pubbliche; mancano audit indipendenti e misurazioni riproducibili ( (NIST).
Falso/Fuorviante: «L'avvelenamento avviene solo se l'attaccante controlla grandi porzioni dei dati di addestramento.» Studi mostrano il contrario: anche Poisoning molto piccoli e mirati possono avere un effetto forte ( (Anthropic). ). Anche qui è falso: «Questo riguarda solo Open Source.» Prompt-injection e avvelenamento dei dati mirano al contesto dell'applicazione e alla catena di fornitura – indipendentemente dal modello di licenza ( (OWASP) (Microsoft Security Blog).
Contromisure e reazioni
Hugging Face collabora dal 2024/2025 con fornitori di sicurezza, esamina milioni di versioni di modelli e segnala centinaia di migliaia di riscontri sospetti; al contempo la community esorta a una attenta verifica degli artefatti e a formati di serializzazione sicuri al di là di Pickle ( (Hugging Face Blog) (JFrog Blog). ). Microsoft pubblica modelli di difesa contro l'iniezione indiretta di prompt e sottolinea la «Defense-in-Depth» oltre i confini del modello ( (Microsoft Security Response Center Blog) (Microsoft Security Blog). ). Il NIST sistematizza tipi di attacchi e contromisure nella guida pubblica ( (NIST). ). OWASP inserisce la vergiftazione dei dati di addestramento e i rischi della supply chain in modo prominente nella classifica LLM Top-10 ( (OWASP).

Quelle: securiti.ai
Una firewall LLM come meccanismo di protezione contro uscite dannose.
Praticamente significa: controllate costantemente l'origine, l'integrità e i percorsi di caricamento dei vostri modelli e dati. Usate controlli e firme per artefatti, preferite formati sicuri (ad es. safetensors invece di Pickle non verificati) e isolate i processi di caricamento dal punto di vista tecnico ( (JFrog Blog) (Hugging Face Blog). ). Limitate l'influenza di fonti non testate in RAG, implementate filtri di input/output e politiche severe sugli strumenti, soprattutto per agenti e automazioni ( (Microsoft Developer Blog) (Microsoft Security Blog). ). Riferitevi alle OWASP LLM Top 10 e alle raccomandazioni NIST; eseguite test PoC con modelli noti di poisoning e injection e documentate le contromisure ( (OWASP) (NIST).
Quelle: YouTube
Breve spiegazione chiara sull'avvelenamento dei dati, utile come introduzione per i team.
Prospettive
Come è possibile rilevare in modo affidabile backdoor in grandi raccolte di dati di addestramento proprietari senza esporre completamente i dati? Qui mancano procedure di audit standardizzate e set di test indipendenti ( (NIST). Quanto sono robuste le mitigazioni odierne contro un poisoning adattivo e multi-stadio in configurazioni RAG e agenti? La ricerca riporta costantemente nuove vie di attacco; lavori attuali su attacchi di prompt scalati e poisoning RAG sottolineano la necessità di azione ( (OpenReview) (arXiv).
Il poisoning LLM non è un tema di nicchia, ma un pericolo trasversale su dati, modelli, strumenti e applicazioni. La buona notizia: con un controllo accurato dell'origine, percorsi di caricamento sicuri, igiene RAG, defense-in-depth e test continui si può ridurre notevolmente il rischio ( (OWASP) (NIST) (Microsoft Developer Blog). Chi oggi fortifica la catena risparmia incidenti domani — e mantiene il controllo sulla progettazione dei propri sistemi IA ( (Hugging Face Blog) (Anthropic).