Nel panorama sempre più complesso della disinformazione digitale, una nuova intelligenza artificiale promette di diventare un’arma efficace contro la manipolazione video: si chiama UNITE (acronimo di Universal Network for Identifying Tampered and synthEtic videos) ed è frutto della collaborazione tra l’Università della California a Riverside (UCR) e i ricercatori di Google.

UNITE rappresenta un passo avanti decisivo nella lotta ai deepfake: non si limita a rilevare scambi di volti o alterazioni del parlato, ma analizza l’intero contenuto del video, inclusi sfondi, movimenti e incoerenze spaziali e temporali. In altre parole, può smascherare anche i video completamente generati dall’IA, senza alcun frame reale.
Addio ai deepfake “vecchia scuola”
Come spiega Rohit Kundu, dottorando presso la Marlan and Rosemary Bourns College of Engineering e autore principale dello studio, “i deepfake non si limitano più al volto di una persona: oggi si possono creare interi video falsi, dalle espressioni ai paesaggi, usando modelli generativi avanzatissimi”.
Il problema, fino a oggi, era che molti rilevatori si affidavano a segnali facciali. Se in un video non compariva un volto, il sistema semplicemente non riusciva a fare nulla, ma UNITE cambia le regole del gioco.
Come funziona UNITE
Alla base del sistema c’è un modello di deep learning basato su transformer, capace di analizzare clip video fotogramma per fotogramma, rilevando anomalie invisibili all’occhio umano e UNITE sfrutta SigLIP, un framework AI in grado di estrarre caratteristiche visive generiche, non legate a oggetti o persone specifiche.

Un’altra innovazione chiave è il metodo di addestramento chiamato attention-diversity loss, che spinge l’IA a prestare attenzione a più zone dell’immagine e non solo ai volti. Questo permette a UNITE di smascherare manipolazioni anche in video dove le persone non compaiono affatto.
Collaborazione con Google e presentazione al CVPR 2025
Il progetto è stato sviluppato anche grazie a una collaborazione diretta con i ricercatori di Google, tra cui Hao Xiong, Vishal Mohanty e Athula Balachandra; Kundu, che ha svolto uno stage presso l’azienda, ha avuto accesso a dataset immensi e potenza computazionale sufficiente ad addestrare il modello anche su video generati da testo o immagini statiche.

Lo studio è stato presentato alla prestigiosa Conference on Computer Vision and Pattern Recognition (CVPR) 2025 a Nashville, una delle conferenze di riferimento mondiale nel campo dell’IA e della computer vision. Il paper si intitola: “Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content”.
Una possibile arma contro la disinformazione
UNITE è ancora in fase di sviluppo, ma le sue potenzialità sono enormi. Potrebbe essere adottato da social network, agenzie di fact-checking e redazioni giornalistiche, con l’obiettivo di intercettare video manipolati prima che diventino virali.
“Le persone hanno il diritto di sapere se ciò che stanno guardando è reale”, afferma Kundu. “E man mano che l’intelligenza artificiale diventa sempre più abile nel falsificare la realtà, dobbiamo diventare altrettanto bravi a svelarla.”