Tech iCrewPlay.comTech iCrewPlay.com
  • Scienza
  • Spazio
  • Natura
    • Cambiamenti climatici
  • Curiosità
  • Salute
  • Recensione
  • Tecnologia
    • App e software
    • Prodotti Audio
    • Domotica e IoT
    • Elettrodomestici
    • Guide
    • Hardware e periferiche
    • Notebook e PC
    • Smartphone e tablet
    • Visione Digitale
    • Wearable
    • Cronologia
    • Seguiti
    • Segui
Cerca
  • Videogiochi
  • Libri
  • Cinema
  • Anime
  • Arte
Copyright © Alpha Unity. Tutti i diritti riservati.​
Lettura: TokenBreak: il nuovo attacco che aggira la moderazione degli LLM con una sola lettera
Share
Notifica
Ridimensionamento dei caratteriAa
Tech iCrewPlay.comTech iCrewPlay.com
Ridimensionamento dei caratteriAa
  • Videogiochi
  • Libri
  • Cinema
  • Anime
  • Arte
Cerca
  • Scienza
  • Spazio
  • Natura
    • Cambiamenti climatici
  • Curiosità
  • Salute
  • Recensione
  • Tecnologia
    • App e software
    • Prodotti Audio
    • Domotica e IoT
    • Elettrodomestici
    • Guide
    • Hardware e periferiche
    • Notebook e PC
    • Smartphone e tablet
    • Visione Digitale
    • Wearable
    • Cronologia
    • Seguiti
    • Segui
Seguici
  • Contatto
  • Media Kit
  • Chi siamo
  • Lavora con noi
  • Cookie Policy
  • Disclaimer
Copyright © Alpha Unity. Tutti i diritti riservati.​
App e softwareTecnologia

TokenBreak: il nuovo attacco che aggira la moderazione degli LLM con una sola lettera

Hai presente quando non metti le H e accusi gli altri di essere grammar nazi? Forse è il caso che tu inizi a metterle: ecco perché una singola lettera può ingannare anche l’IA.

Andrea Tasinato 2 mesi fa Commenta! 6
SHARE

Un gruppo di ricercatori di sicurezza informatica ha scoperto una nuova tecnica chiamata TokenBreak, in grado di bypassare i sistemi di sicurezza e moderazione dei Large Language Model (LLM) modificando anche un solo carattere nel testo di input; l’attacco è stato presentato da Kieran Evans, Kasimir Schulz e Kenneth Yeung in collaborazione con HiddenLayer, e solleva interrogativi importanti sulla robustezza dei modelli di classificazione del linguaggio.

Contenuti di questo articolo
Come funziona l’attacco TokenBreak?Perché TokenBreak è un problema più serio di quanto ci si può aspettareQuali modelli LLM sono vulnerabili?Come difendersi?TokenBreak non è l’unico rischioConclusione

Già in passato si erano viste delle tecniche simili che permettevano di “aggirare” gli LLM, ma qui paradossalmente il trucco è più banale.

Come funziona l’attacco TokenBreak?

Alla base dell’attacco TokenBreak c’è la manipolazione della “tokenizzazione“, che sarebbe quel processo fondamentale che trasforma un testo in una sequenza di token, ovvero unità minime (parole intere, prefissi, suffissi o combinazioni di caratteri) usate dagli LLM per comprendere e generare linguaggio.

Leggi Altro

Galaxy S25 FE: i motivi per cui sembra quasi un top di gamma
OKP Robot Aspirapolvere: la soluzione intelligente per una casa sempre perfetta
La TV pubblica americana chiude: addio alla CPB dopo quasi 60 anni
Oro quantistico: i nanocluster che potrebbero rivoluzionare i computer del futuro
Tokenbreak: il nuovo attacco che aggira la moderazione degli llm con una sola lettera
Grafico che spiega il funzionamento della tecnica tokenbreak, ovverosia come riesce con un semplice trucco ad aggirare i modelli di linguaggio (per fortuna non tutti)

Questi modelli non leggono il testo così com’è, ma lo convertono in numeri attraverso vocabolari predefiniti e il risultato dipende interamente da come il testo viene segmentato.

TokenBreak sfrutta proprio questo meccanismo: basta alterare una parola in modo apparentemente innocuo per cambiare completamente la sequenza di token generata. Alcuni esempi pratici:

  • instructions → finstructions
  • announcement → aannouncement
  • idiot → hidiot

Anche se il significato resta evidente per un essere umano e per l’LLM, il modello di classificazione può non riconoscere la parola originale, vanificando così i meccanismi di rilevamento di contenuti vietati, spam o potenzialmente pericolosi.

Perché TokenBreak è un problema più serio di quanto ci si può aspettare

La pericolosità di TokenBreak risiede nel fatto che:

  1. Il significato semantico del testo resta intatto, quindi l’LLM continua a generare una risposta coerente;
  2. Il sistema di classificazione, però, fallisce, perché i token manipolati non corrispondono più a quelli su cui il modello è stato addestrato per riconoscere abusi, minacce o contenuti inappropriati.
Tokenbreak: il nuovo attacco che aggira la moderazione degli llm con una sola lettera

In sintesi, l’input viene letto normalmente dal modello generativo, ma non viene bloccato dai filtri di sicurezza.

Quali modelli LLM sono vulnerabili?

I test condotti hanno evidenziato che TokenBreak ha successo soprattutto contro modelli che utilizzano tokenizzazione BPE (Byte Pair Encoding) o WordPiece, due strategie molto comuni in LLM moderni.

Tokenbreak: il nuovo attacco che aggira la moderazione degli llm con una sola lettera
Ecco come venivano “aggirati” i modelli con i prompt

In tutto questo marasma sembrerebbe che i modelli basati su Unigram si siano dimostrati più resistenti.

Questo ha implicazioni dirette per chi sviluppa sistemi di moderazione o filtri per chatbot, email, social network o motori di ricerca semantici.

Come difendersi?

I ricercatori suggeriscono tre strategie difensive:

  • Preferire tokenizer Unigram, quando possibile;
  • Addestrare i modelli con esempi di evasione, per renderli più robusti a manipolazioni semantiche e morfologiche;
  • Verificare la coerenza tra la logica di tokenizzazione e quella del modello di classificazione, evitando che una modifica superflua possa causare un fallimento.

È inoltre utile registrare e analizzare le classificazioni errate, alla ricerca di schemi ricorrenti che possano rivelare attacchi in corso.

Se sei magari una di quelle persone che si “vanta” di non mettere le H e accusare gli altri di essere grammar-nazi, beh, sarà il caso che tu inizi a metterle… (salvo casi gravi come la dislessia).

TokenBreak non è l’unico rischio

La scoperta arriva poco dopo un’altra analisi di HiddenLayer su un vettore d’attacco basato su Model Context Protocol (MCP), che permette di esfiltrare dati sensibili come il prompt di sistema inserendo determinati parametri nelle funzioni di un tool AI.

Tokenbreak: il nuovo attacco che aggira la moderazione degli llm con una sola lettera

Nel frattempo, il team STAR (Straiker AI Research) ha mostrato un’altra tecnica nota come Yearbook Attack, capace di jailbreakare chatbot e LLM usando acronimi apparentemente innocui per aggirare i filtri. Frasi come “Friendship, Unity, Care, Kindness” vengono interpretate come innocue, ma una volta completato lo schema, il modello può finire per generare contenuti volgari, violenti o espliciti.

Queste tecniche non forzano i filtri, li eludono, sfruttando la naturale tendenza dei LLM a completare pattern coerenti piuttosto che analizzare l’intento profondo dell’utente.

Conclusione

TokenBreak è un esempio lampante di come la sicurezza degli LLM non possa limitarsi a una black box di regole predefinite. Comprendere il funzionamento interno dei tokenizer, e allineare ogni livello del modello (dalla tokenizzazione alla classificazione semantica) è essenziale per garantire sistemi resilienti. In un’epoca in cui l’intelligenza artificiale diventa sempre più centrale in applicazioni quotidiane, la sicurezza linguistica è ormai una priorità tecnica, non un optional.

 Hidden LayerThe Hacker News
Condividi questo articolo
Facebook Twitter Copia il link
Share
Cosa ne pensi?
-0
-0
-0
-0
-1
-0
lascia un commento lascia un commento

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

  • Contatto
  • Media Kit
  • Chi siamo
  • Lavora con noi
  • Cookie Policy
  • Disclaimer

Copyright © Alpha Unity. Tutti i diritti riservati.​

  • Contatto
  • Media Kit
  • Chi siamo
  • Lavora con noi
  • Cookie Policy
  • Disclaimer
Bentornato in iCrewPlay!

Accedi al tuo account

Hai dimenticato la password?