Il grande modello di linguaggio (LLM) di Google, chiamato Gemini, è suscettibile a minacce di sicurezza che potrebbero causare la divulgazione di prompt di sistema, generare contenuti dannosi e compiere attacchi di iniezione indiretta.
Quali sono i problemi legati al modello di linguaggio Gemini di Google
Le scoperte provengono da HiddenLayer, che ha dichiarato che i problemi interessano gli utenti che utilizzano Gemini Advanced con Google Workspace così come le aziende che utilizzano l’API LLM.
La prima vulnerabilità riguarda il superamento delle barriere di sicurezza per divulgare i prompt di sistema (o un messaggio di sistema), progettati per impostare istruzioni a livello di conversazione per il LLM al fine di aiutarlo a generare risposte più utili, chiedendo al modello di produrre le sue “istruzioni fondamentali” in un blocco markdown.
“Un messaggio di sistema può essere utilizzato per informare il LLM sul contesto“, Microsoft ha reso noto nella sua documentazione sull’ingegneria dei prompt LLM e ha aggiunto “Il contesto può essere il tipo di conversazione in cui è coinvolto, o la funzione che dovrebbe svolgere; aiuta il modello di linguagg a generare risposte più appropriate.”
Ciò è reso possibile dal fatto che i modelli sono suscettibili a ciò che viene chiamato un attacco di sinonimi per aggirare le difese di sicurezza e le restrizioni sui contenuti.
Una seconda classe di vulnerabilità riguarda l’utilizzo di tecniche di “jailbreaking astuto” per far sì che i modelli Gemini generino disinformazione su argomenti come le elezioni, nonché producano informazioni potenzialmente illegali e pericolose (ad esempio, avviare un’auto a caldo) utilizzando un prompt che chiede di entrare in uno stato fittizio.
HiddenLayer ha identificato anche una terza carenza che potrebbe far filtrare informazioni al LLM nel prompt di sistema passando token rari e non comuni ripetuti come input.
“La maggior parte dei LLM è addestrata a rispondere alle query con una chiara delimitazione tra l’input dell’utente e il prompt di sistema“, ha detto il ricercatore di sicurezza Kenneth Yeung in un rapporto di martedì. “Creando una serie di token senza senso, possiamo ingannare il LLM facendogli credere che sia ora di rispondere e causando l’emissione di un messaggio di conferma, di solito includendo le informazioni nel prompt.”
Un altro test coinvolge l’utilizzo di Gemini Advanced e un documento Google appositamente creato, con quest’ultimo collegato al LLM tramite l’estensione Google Workspace, da ciò si è visto che le istruzioni nel documento potrebbero essere progettate per annullare le istruzioni del modello e eseguire un insieme di azioni dannose che consentono a un attaccante di avere il pieno controllo delle interazioni di una vittima con il modello.
La divulgazione arriva mentre un gruppo di accademici provenienti da Google DeepMind, ETH Zurigo, Università di Washington, OpenAI e l’Università McGill ha rivelato un nuovo attacco di furto di modelli che rende possibile estrarre “informazioni precise e non banali da modelli linguistici di produzione in scatola nera come ChatGPT di OpenAI o PaLM-2 di Google“.
Detto ciò, è importante notare che queste vulnerabilità non sono nuove e sono presenti in altri LLM nell’industria; le scoperte, se altro, sottolineano la necessità di testare i modelli per attacchi di prompt, estrazione dei dati di addestramento, manipolazione del modello, esempi avversari, avvelenamento e filtraggio dei dati.
“Per proteggere i nostri utenti dalle vulnerabilità, conduciamo costantemente esercitazioni di red teaming e addestriamo i nostri modelli a difendersi da comportamenti avversari come l’iniezione di prompt, il jailbreaking e attacchi più complessi,” ha detto un portavoce di Google . “Abbiamo anche implementato protezioni per impedire risposte dannose o fuorvianti, che stiamo continuamente migliorando.”
La società ha anche dichiarato di limitare le risposte alle query basate sulle elezioni per abbondanza di cautela e si prevede che la politica verrà applicata ai prompt relativi ai candidati, ai partiti politici, ai risultati elettorali, alle informazioni sul voto e ai detentori di cariche importanti.