Il test di Turing non è più soltanto un esperimento mentale da manuale di informatica. Uno studio pubblicato su PNAS indica che alcuni modelli linguistici moderni possono risultare più convincenti di un essere umano in brevi conversazioni testuali. Per te significa una cosa semplice: online sarà sempre più difficile capire chi, o cosa, sta rispondendo.
La ricerca è firmata da Cameron R. Jones e Benjamin K. Bergen della University of California San Diego. Il dato più forte riguarda GPT-4.5, giudicato umano nel 73% dei casi durante conversazioni di cinque minuti. Anche LLaMa-3.1-405B ha ottenuto un risultato alto, con il 56%.
Test di Turing, perché GPT-4.5 ha convinto i partecipanti

Il test di Turing misura se una macchina riesce a sostenere una conversazione senza essere distinta da una persona. Nello studio, i partecipanti parlavano con un umano e con un modello IA, poi dovevano indicare chi fosse umano. GPT-4.5 è stato scelto più spesso della persona reale.
Il dettaglio importante è il contesto. I modelli non sono stati valutati solo per risposte corrette, ma per stile, ritmo, esitazioni, tono colloquiale e piccoli errori credibili. È lo stesso terreno su cui oggi si gioca molta arte secondo Ai-Da e Alan Turing, dove la domanda non è più solo cosa produce una macchina, ma quanto riesce a sembrarci umana.
Il paper pubblicato su PNAS parla di test a tre parti, una versione vicina all’idea originale descritta da Alan Turing nel 1950. Sono state analizzate oltre 1.000 conversazioni, con 284 partecipanti.
I numeri dello studio sui modelli IA

I risultati non sono tutti uguali. GPT-4.5 è arrivato al 73%, LLaMa-3.1-405B al 56%, mentre GPT-4o si è fermato al 21% ed ELIZA al 23%. ELIZA è il vecchio chatbot sviluppato negli anni Sessanta al MIT, utile come confronto storico perché mostra quanto sia cambiato il linguaggio generato dalle macchine.
- GPT-4.5 è stato giudicato umano nel 73% dei casi
- LLaMa-3.1-405B ha raggiunto il 56%
- GPT-4o ed ELIZA sono rimasti sotto il 25%
- Ogni conversazione durava cinque minuti
Questi numeri non dimostrano che una IA sia cosciente. Dimostrano piuttosto che un large language model può imitare abbastanza bene il comportamento linguistico umano da ingannare un osservatore in una situazione limitata. È una differenza enorme, perché parlare come una persona non significa pensare come una persona.
Il vero problema sono le persone contraffatte online
La parte più concreta riguarda l’impatto sociale. Se un chatbot può sembrare umano in pochi minuti, cresce il rischio di profili artificiali capaci di convincere, manipolare o orientare conversazioni online. Non parliamo solo di spam. Parliamo di assistenza clienti, dating app, commenti sui social, recensioni, truffe e propaganda.
Qui si collega anche il tema dei chip e della potenza di calcolo. Modelli più grandi richiedono infrastrutture più avanzate, un punto centrale nel controllo globale dei semiconduttori e nel ruolo di aziende come TSMC. Non a caso, il nodo geopolitico dei chip di Taiwan pesa anche sul futuro dell’intelligenza artificiale.
Per il lettore, la regola pratica è meno spettacolare ma più utile: non fidarti del tono umano come prova di autenticità. Un messaggio gentile, ironico o imperfetto può essere generato. La prossima sfida non sarà solo costruire IA più capaci, ma creare strumenti, regole e abitudini per capire quando stai parlando con una persona e quando con una simulazione molto ben addestrata.