Sono stati scoperti fino a 100 modelli dannosi di intelligenza artificiale (IA) / machine learning (ML) sulla piattaforma Hugging Face; Hugging Face, per farla breve è una piattaforma che tiene una sorta di collezione di intelligenze artificiali e modelli di Machine Learning (ML).
Cosa si sa riguardo ad Hugging Face e ai modelli AI ed ML malevoli
Tra questi modelli presenti su Hugging Face si includono casi in cui il caricamento di un file pickle porta all’esecuzione di codice malevolo, è stato dichiarato la società di sicurezza della catena di approvvigionamento del software JFrog.
“Il payload del modello concede all’attaccante una shell sulla macchina compromessa, consentendo loro di ottenere il controllo completo sulle macchine delle vittime attraverso quello che viene comunemente definito una ‘backdoor‘“, ha detto il ricercatore senior per la sicurezza David Cohen.
“Questa infiltrazione silenziosa potrebbe potenzialmente concedere l’accesso a sistemi interni critici e spianare la strada per violazioni di dati su larga scala o addirittura spionaggio aziendale, colpendo non solo singoli utenti, ma potenzialmente intere organizzazioni in tutto il mondo, mentre le vittime rimangono completamente ignare del loro stato compromesso.”
In particolare, il modello rogue avvia una connessione shell inversa a 210.117.212[.]93, un indirizzo IP che appartiene alla Korea Research Environment Open Network (KREONET); altri repository con lo stesso payload sono stati osservati collegarsi ad altri indirizzi IP.
In un caso, gli autori del modello hanno esortato gli utenti a non scaricarlo, suggerendo la possibilità che la pubblicazione possa essere opera di ricercatori o praticanti di intelligenza artificiale.
“Tuttavia, un principio fondamentale nella ricerca sulla sicurezza è astenersi dal pubblicare veri exploit di lavoro o codice dannoso“, ha affermato JFrog. “Questo principio è stato violato quando il codice dannoso ha cercato di connettersi a un indirizzo IP legittimo.”
Le scoperte sottolineano ancora una volta la minaccia che si cela all’interno dei repository open source, che potrebbero essere avvelenati per attività nefaste.
Dai rischi della catena di approvvigionamento agli worm zero-click oltre Hugging Face
Le catene di approvvigionamento giungono anche mentre i ricercatori hanno ideato modi efficienti per generare prompt che possono essere utilizzati per ottenere risposte dannose da modelli di linguaggio di grandi dimensioni (LLM) utilizzando una tecnica chiamata attacco avversario basato su beam search (BEAST).
In uno sviluppo correlato, i ricercatori sulla sicurezza hanno sviluppato ciò che è noto come un worm generativo di intelligenza artificiale chiamato Morris II, in grado di rubare dati e diffondere malware attraverso sistemi multipli.
Morris II, una variante di uno dei più vecchi worm informatici, sfrutta prompt autoreplicanti avversari codificati in input come immagini e testo che, quando elaborati da modelli GenAI, possono innescarli a “replicare l’input come output (replicazione) e intraprendere attività dannose (payload)“, hanno detto i ricercatori sulla sicurezza Stav Cohen, Ron Bitton e Ben Nassi.
Ancora più preoccupante, i modelli possono essere militarizzati per fornire input dannosi a nuove applicazioni sfruttando la connettività all’interno dell’ecosistema generativo di intelligenza artificiale.
La tecnica di attacco, chiamata ComPromptMized, presenta somiglianze con approcci tradizionali come buffer overflow e SQL Injection poiché incorpora il codice all’interno di una query e i dati nelle regioni note per contenere codice eseguibile.
ComPromptMized influisce sulle applicazioni il cui flusso di esecuzione è dipendente dall’output di un servizio generativo di intelligenza artificiale e su quelle che utilizzano la generazione potenziata da recupero (RAG), che combina modelli di generazione di testo con un componente di recupero delle informazioni per arricchire le risposte alle query.
Lo studio non è il primo, né sarà l’ultimo, a esplorare l’idea dell’iniezione di prompt come modo per attaccare LLM e ingannarli affinché compiano azioni non intenzionali.
In precedenza, gli accademici hanno dimostrato attacchi che utilizzano immagini e registrazioni audio per iniettare “perturbazioni avversarie” invisibili in LLM multimodali che causano la produzione di testo o istruzioni scelte dall’attaccante.
“L’attaccante potrebbe indurre la vittima a una pagina web con un’immagine interessante o inviare una email con un clip audio“, ha detto Nassi, insieme a Eugene Bagdasaryan, Tsung-Yin Hsieh e Vitaly Shmatikov, in un articolo pubblicato alla fine dello scorso anno. “Nel momento in cui la vittima inserisce direttamente l’immagine o il clip in un LLM isolato e fa domande al riguardo, il modello sarà guidato dai prompt iniettati dall’attaccante.”
All’inizio dello scorso anno, un gruppo di ricercatori presso il CISPA Helmholtz Center for Information Security dell’Università di Saarland e Sequire Technology in Germania ha anche scoperto come un attaccante potesse sfruttare i modelli LLM iniettando strategicamente prompt nascosti nei dati (cioè iniezione indiretta di prompt) che il modello probabilmente recupererebbe quando rispondesse all’input dell’utente.