Attacchi all’IA generativa: dove si nascondono i pericoli

L’impiego dell’IA generativa nelle aziende promette grandi guadagni in termini di efficienza, generazione rapida di idee, ma anche nuove vulnerabilità per la sicurezza dei dati. Di questi rischi e pericoli devono occuparsi i responsabili dell’intelligenza artificiale e della sicurezza.

3 Maggio 2024, Testo Andreas Heer 4 Min.

Il boom (e anche l’hype) dell’IA generativa apre le porte del mondo degli affari ai grandi modelli linguistici (LLM) e spesso, involontariamente, apre anche backdoor per i criminali informatici o comunque per la fuga di dati aziendali riservati. Questi rischi per la sicurezza devono essere affrontati dai responsabili IT e della sicurezza delle aziende. Questo articolo illustra le principali minacce e le possibili misure di protezione.

Sicurezza dei dati e integrità degli LLM

«L’aspetto più evidente riguarda la sicurezza dei dati degli LLM», afferma Beni Eugster, Cloud Operation and Security Officer presso il Swisscom Outpost nella Silicon Valley. «Si tratta di controllare a quali dati possono accedere i modelli e, soprattutto, cosa ne sarà di questi dati.» La governance dei dati o dell’IA aiuta a definire quali informazioni i collaboratori possono usare con un modello d’intelligenza artificiale e quali no.

Nel caso dei modelli ospitati esternamente, ossia delle offerte SaaS, le aziende non hanno in pratica nessun controllo su ciò che accade in background. Ciò vale in particolare se il provider non offre alcun accordo sulla sicurezza dei dati. Ci si chiede quindi se i dati vengano utilizzati per l’addestramento oppure se il modello venga addirittura manipolato così da permettere agli hacker di leggere in background tutte le informazioni in entrata e in uscita. Quanto è grande il rischio di imbattersi in un modello manipolato tra i circa 470’000 offerti da HuggingFace(apre una nuova finestra) ?

Nella fase attuale, infatti, la cybersicurezza potrebbe non essere al primo posto per alcuni provider, afferma Eugster: «Nel bel mezzo di un boom tecnologico, i fornitori si concentrano prima di tutto sulle opportunità commerciali e solo dopo sui rischi.» Ma la seconda fase è già iniziata, osserva Eugster: «A San Francisco, la città dell’intelligenza artificiale per eccellenza, nascono sempre più start-up che si occupano dei rischi dell’IA generativa.»

Informatevi sugli ultimi sviluppi della cybersicurezza e scoprite quali sono le principali minacce.

Prompt Injection o uso improprio dell’IA generativa

Ma anche dietro all’inserimento di prompt (istruzioni per l’IA generativa) si nasconde il pericolo. Con una formulazione ingegnosa si riescono infatti ad eludere le misure di sicurezza, i cosiddetti «guardrail». Un esempio tratto dalle attuali ricerche è l’attacco chiamato «ArtPrompt(apre una nuova finestra)», in cui determinate parole chiave vengono sostituite con disegni ASCII («ASCII Art»), bypassando così i controlli di sicurezza degli LLM. L’iniezione di prompt può anche essere utilizzata per estrapolare dati confidenziali da un modello. Queste includono, ad esempio, le fonti delle informazioni fornite.

Un frammento del prompt utilizzato dai ricercatori per indurre GPT-4 a generare una guida con le istruzioni per la creazione di denaro falso. Fonte: Ricerca ArtPrompt.

Tuttavia anche l’affidabilità dei modelli stessi deve essere verificata in relazione all’output – parola chiave allucinazioni e risposte sbagliate. Questo vale a maggior ragione se un’azienda utilizza un LLM per il contatto con i clienti o se le risposte vengono utilizzate per processi decisionali. Ad esempio, di recente, la compagnia aerea Air Canada ha dovuto autorizzare a posteriori un rimborso a un passeggero, perché il chatbot sul sito aveva suggerito questa opzione, in contraddizione con altre informazioni presenti sullo stesso sito.

Il filtraggio e la convalida di input e output per le offerte aziendali basate sull’IA sono misure di sicurezza fondamentali, così come i test approfonditi. «È qui che gli esperti di cibersicurezza e IA devono collaborare e combinare le loro conoscenze per ottenere risultati significativi», suggerisce Eugster. «Di conseguenza, le aziende devono anche integrare le proprie strategie e disposizioni in materia di cibersicurezza.»

Attacchi alle infrastrutture e ai dati di addestramento

È probabile che solo poche aziende siano in grado di addestrare e gestire i propri modelli. In tal caso emergono altri aspetti rilevanti per la sicurezza:

Data poisoning: I dati di addestramento vengono manipolati in modo mirato per generare risposte errate. Questo mina l’utilità di un LLM e la fiducia degli utenti che lo utilizzano. Misure di sicurezza efficaci consistono in una sicurezza dei dati controllata e in un’adeguata governance dei dati per garantire l’integrità dei dati di addestramento.
Lacune nella sicurezza della supply chain: I modelli e i plug-in di fornitori terzi possono presentare falle di sicurezza attraverso le quali gli hacker possono, ad esempio, accedere alle query e ai dati di training. In questo caso è fondamentale effettuare un controllo di sicurezza su tutti i componenti.
Sicurezza API: API non sufficientemente protette possono consentire a persone non autorizzate di utilizzare e abusare di un LLM. In questo caso possono essere d’aiuto le comuni misure di protezione per le API, come i meccanismi di autenticazione e i controlli di accesso.

La protezione degli LLM, una nuova disciplina della cibersicurezza

La protezione di modelli linguistici di grandi dimensioni richiede una strategia olistica che comprenda sia l’uso diretto che l’infrastruttura sottostante e i dati di addestramento. Regole di accesso, misure di sicurezza dei dati, filtraggio/convalida di input e output, nonché una gestione proattiva dei rischi garantiscono un funzionamento sicuro e un utilizzo affidabile. Lo stesso concetto lo riassume Eugster con queste parole: «Quando si è compreso il modello, l’utilizzo e i casi di applicazione si è a metà dell’opera per proteggere al meglio i progetti di IA. Gli sviluppatori e i team di sicurezza informatica devono lavorare a stretto contatto per individuare tempestivamente le vulnerabilità e i rischi.»

Attacchi all’IA generativa: dove si nascondono i pericoli

Sicurezza dei dati e integrità degli LLM

Prompt Injection o uso improprio dell’IA generativa

Attacchi alle infrastrutture e ai dati di addestramento

La protezione degli LLM, una nuova disciplina della cibersicurezza

Non perdetevi i nostri contenuti

Di più sull'argomento