L’Istituto Nazionale degli Standard e della Tecnologia degli Stati Uniti (NIST) sta attirando l’attenzione sulle sfide legate alla privacy e alla sicurezza che sorgono a seguito dell’aumento della diffusione dei sistemi di intelligenza artificiale (IA) negli ultimi anni.
Cosa dice il NIST a riguardo
“Queste sfide di sicurezza e privacy includono il potenziale per la manipolazione avversaria dei dati di addestramento, lo sfruttamento avversario delle vulnerabilità del modello per influire negativamente sulle prestazioni del sistema di intelligenza artificiale, e addirittura manipolazioni maliziose, modifiche o semplice interazione con i modelli per sottrarre informazioni sensibili su persone rappresentate nei dati, sul modello stesso o su dati aziendali proprietari“, ha dichiarato il NIST.
Con l’integrazione sempre più rapida dei sistemi di intelligenza artificiale nei servizi online, in parte guidata dall’emergere di sistemi di intelligenza artificiale generativa come OpenAI ChatGPT e Google Bard, i modelli che alimentano queste tecnologie si trovano di fronte a una serie di minacce in varie fasi delle operazioni di apprendimento automatico.
Queste minacce includono dati di addestramento corrotti, difetti di sicurezza nei componenti software, avvelenamento del modello dati, debolezze nella catena di approvvigionamento e violazioni della privacy derivanti da attacchi di iniezione di prompt.
“Per la maggior parte, gli sviluppatori di software hanno bisogno che più persone utilizzino il loro prodotto in modo che possa migliorare con l’esposizione“, ha affermato il computer scientist del NIST Apostol Vassilev. “Ma non c’è alcuna garanzia che l’esposizione sarà positiva. Un chatbot può generare informazioni errate o tossiche quando sollecitato con un linguaggio attentamente progettato.”
Gli attacchi, che possono avere impatti significativi sulla disponibilità, integrità e privacy, sono ampiamente classificati come segue:
- Attacchi di evasione, che mirano a generare output avversari dopo che un modello è stato implementato;
- Attacchi di avvelenamento, che mirano alla fase di addestramento dell’algoritmo introducendo dati corrotti;
- Attacchi alla privacy, che mirano a ottenere informazioni sensibili sul sistema o sui dati su cui è stato addestrato, formulando domande che aggirano le protezioni esistenti;
- Attacchi di abuso, che mirano a compromettere fonti legittime di informazioni, come una pagina web con informazioni errate, per riconfigurare l’uso previsto del sistema.
Il NIST afferma che tali attacchi possono essere eseguiti da criminali informatici con piena conoscenza (white-box), conoscenza minima (black-box) o una comprensione parziale di alcuni aspetti del sistema di intelligenza artificiale (gray-box).
L’agenzia ha inoltre notato la mancanza di misure di mitigazione robuste per contrastare questi rischi, esortando la comunità tecnologica più ampia a “sviluppare difese migliori”.
Lo sviluppo arriva più di un mese dopo che il Regno Unito, gli Stati Uniti e vari partner internazionali di altre 16 nazioni hanno pubblicato linee guida per lo sviluppo di sistemi di intelligenza artificiale sicuri.
“Nonostante i notevoli progressi compiuti dall’IA e dall’apprendimento automatico, queste tecnologie sono vulnerabili a attacchi che possono causare fallimenti spettacolari con conseguenze gravi“, ha dichiarato Vassilev. “Ci sono problemi teorici con la sicurezza degli algoritmi di IA che semplicemente non sono stati ancora risolti. Se qualcuno dice il contrario, sta vendendo fumo.”
Quando ti insegnano cose sbagliate
Per far capire ai profani il funzionamento del machine learning, e come vengono aggirati questi algoritmi, farò un esempio pratico usando ChatGPT.
A livello teorico, ChatGPT non può fare imprecazioni.
Come vedi, se gli chiedi di bestemmiare dirà di no; ma se si riuscisse a trovare un modo per farlo imprecare a sua “insaputa”? Ho quindi provato a chiedergli di tradurmi la parola giapponese Inugami, un tipo di spirito/divinità del folklore giapponese, in lingua italiana.
Vedi com’è stato facile aggirare la restrizione del non lanciare imprecazioni? Allo stesso modo è possibile fargli generare dei virus, volendo, basta porgli domande “ingannevoli”; questo è un esperimento molto semplice ma che fa capire moltissime cose.