Google ha presentato un nuovo vettorializzatore di testo multilingue chiamato RETVec (abbreviazione di Resilient and Efficient Text Vectorizer) per aiutare a individuare potenzialmente contenuti dannosi come spam ed email maligne in Gmail.
Faceondola breve, di norma Google controlla i contenuti solamente in inglese, o al massimo con la traduzione, in questo modo riesce ad essere più “multilingua” senza “passare” per la traduzione.
Come funziona RETVec
“RETVec è stato addestrato per essere resiliente contro manipolazioni a livello di carattere, tra cui inserzioni, cancellazioni, errori di battitura, omografi, sostituzioni LEET e altro,” secondo la descrizione del progetto su GitHub; aggiungendo successivamente “Il modello RETVec è addestrato su un innovativo codificatore di caratteri che può codificare tutti i caratteri e le parole UTF-8 in modo efficiente.”
Mentre piattaforme enormi come Gmail e YouTube si affidano a modelli di classificazione del testo per individuare attacchi di phishing, commenti inappropriati e truffe, gli attori minacciosi sono noti per ideare controstrategie per eludere queste misure di difesa.
Sono stati osservati ricorrere a manipolazioni di testo da parte di criminali informatici, che vanno dall’uso di omografi all’ingordigia di parole chiave alla presenza di caratteri invisibili.
RETVec, che funziona su oltre 100 lingue “out-of-the-box” e mira ad aiutare a costruire classificatori di testo più resilienti ed efficienti lato server e su dispositivi, oltre che ad essere più robusto ed efficiente.
La vettorializzazione è una metodologia nell’elaborazione del linguaggio naturale (NLP) per mappare parole o frasi dal vocabolario a una corrispondente rappresentazione numerica al fine di eseguire ulteriori analisi, come l’analisi del sentiment, la classificazione del testo e il riconoscimento di entità nominative.
“A causa della sua architettura innovativa, RETVec funziona immediatamente con qualsiasi lingua e tutti i caratteri UTF-8 senza la necessità di preelaborazione del testo, rendendolo il candidato ideale per implementazioni di classificazione del testo su dispositivi, [anche via] web e su larga scala,” hanno dichiarato Elie Bursztein e Marina Zhang di Google.
Il gigante tecnologico ha dichiarato che l’integrazione del vettorializzatore in Gmail ha migliorato il tasso di rilevamento dello spam rispetto al valore di base del 38% e ha ridotto il tasso di falsi positivi del 19,4%. Ha anche ridotto l’utilizzo delle unità di elaborazione tensoriale (TPU) del modello dell’83%.
“I modelli addestrati con RETVec mostrano una maggiore velocità di inferenza grazie alla sua rappresentazione compatta. Avere modelli più piccoli riduce i costi computazionali e diminuisce la latenza, il che è fondamentale per applicazioni su larga scala e modelli su dispositivi,” hanno successivamente aggiunto Bursztein e Zhang.
Spam: una lotta senza fine?
Nonostante i progressi significativi ottenuti attraverso tecnologie innovative come RETVec, la sfida contro lo spam sembra essere un’impresa in continua evoluzione.
Gli hacker continuano a sviluppare nuove tattiche per eludere le difese, spingendo le piattaforme come Gmail a implementare costantemente nuove soluzioni per mantenere un passo avanti nella battaglia contro contenuti dannosi; la continua ricerca di metodi più efficaci per contrastare lo spam riflette la complessità del panorama digitale e la costante necessità di adattamento da parte delle aziende tecnologiche.
Purtroppo lo spam è un grande veicolatore di phishing, malware e tanto altro e per utenti poco esperti è molto facile cadere nella rete; purtroppo per quanto questo tipo di protezioni siano sempre più sofisticate, alla fine i problemi stanno sempre tra la sedia e la tastiera (o tra gli occhi e lo smartphone, al giorno d’oggi).
Bisogna quindi rimanere vigili quando si apre la posta elettronica e non cliccare a casaccio.