Nel 1950, l’informatico Alan Turing suggerì un modo per scoprire se i computer potessero pensare. Oggi siamo circondati dai cosiddetti dispositivi intelligenti. Alexa riproduce musica su richiesta. Siri può dirci chi ha vinto la partita di baseball di ieri sera o se è probabile che piova oggi. Ma queste macchine sono davvero intelligenti? Che cosa significherebbe per un computer essere intelligente, comunque?
Gli assistenti virtuali possono essere nuovi, ma le domande sull’intelligenza artificiale non lo sono. Nel 1950, il matematico e informatico britannico Alan Turing escogitò un modo per verificare se una macchina fosse veramente intelligente. Lo chiamava il “gioco dell’imitazione”. Oggi lo chiamiamo test di Turing.
Il gioco funziona così: qualcuno, chiamiamo questa persona Giocatore A, siede da solo in una stanza e scrive messaggi ad altri due giocatori. Chiamiamoli B e C. Uno di quei giocatori è umano, l’altro è un computer. Il compito del giocatore A è determinare se B o C è l’umano.
Turing ha presentato la sua idea di gioco in un articolo del 1950 sulla rivista Mind. Ha iniziato il paper con queste parole: “Propongo di considerare la domanda: ‘Le macchine possono pensare?'”
Era una domanda audace, considerando che i computer come ora li conosciamo non esistevano ancora. Ma Turing aveva lavorato fin dal lontano 1936 all’idea del primo computer che le persone potessero programmare con un software. Questo sarebbe stato un computer che avrebbe potuto fare qualsiasi cosa gli venisse richiesta, date le giuste istruzioni.
Sebbene non sia mai stato costruito, il design di Turing ha portato direttamente ai computer di oggi. E Turing credeva che tali macchine un giorno sarebbero diventate abbastanza sofisticate per pensare veramente.
Ma Turing sapeva anche che era difficile mostrare cosa conta davvero sul come pensare. Il motivo per cui è così complicato è che non capiamo nemmeno come pensano le persone, dice Ayanna Howard. Robotica alla Ohio State University, a Columbus, studia come interagiscono robot e umani.
Il gioco di imitazione di Turing è stato un modo intelligente per aggirare il problema. Se un computer si comporta come se stesse pensando, decise, allora puoi presumere che lo stia facendo. Può sembrare una cosa strana da presumere. Ma facciamo lo stesso con le persone. Non abbiamo modo di sapere cosa sta succedendo nelle loro teste.
Se le persone sembrano pensare, noi assumiamo che lo stiano facendo. Turing ha suggerito di usare lo stesso approccio quando si giudicano i computer. Quindi: il test di Turing. Se un computer può indurre qualcuno a credere che sia umano, deve pensare come tale.
Un computer supera il test se riesce a convincere le persone che è un essere umano il 30 percento delle volte che gioca. Turing ha pensato che entro il 2000 una macchina sarebbe stata in grado di farcela. Nei decenni successivi, molte macchine hanno accettato la sfida. Ma i loro risultati sono sempre stati discutibili. E alcuni ricercatori ora si chiedono se il test di Turing sia una misura utile dell’intelligenza delle macchine.
I chatbot fanno il test
All’epoca in cui Turing suggerì il suo gioco di imitazione, era solo un ipotetico test, o esperimento mentale. Non c’erano computer in grado di riprodurlo. Ma l’intelligenza artificiale, o IA, ha fatto molta strada da allora.
A metà degli anni ’60, un ricercatore di nome Joseph Weizenbaum creò un chatbot chiamato ELIZA. Lo ha programmato per seguire una serie di regole molto semplici: ELIZA avrebbe semplicemente replicato a pappagallo qualsiasi domanda gli fosse stata posta.
Uno dei programmi che ELIZA poteva gestire la faceva comportare come una psicologa che parla con un paziente. Ad esempio, se hai detto a ELIZA: “Sono preoccupato di poter fallire il mio test di matematica”, poteva rispondere: “Pensi di poter fallire il tuo test di matematica?” Quindi, se dicessi: “Sì, penso che potrei”, ELIZA potrebbe dire qualcosa del tipo: “Perché dici così?” ELIZA non ha mai usato altro che risposte stock e riformulazioni di ciò che le persone gli dicevano.
ELIZA non ha mai sostenuto il test di Turing. Ma è possibile che sarebbe passato. Molte persone che hanno interagito con esso pensavano di ricevere risposte da un vero esperto. Weizenbaum era inorridito dal fatto che così tante persone pensassero che ELIZA fosse intelligente, anche dopo aver spiegato come “lei” lavorava.
Nel 2014, durante una competizione di test di Turing in Inghilterra, un programma di chatbot di intelligenza artificiale chiamato Eugene Goostman ha conversato per cinque minuti con ciascuno dei 30 giudici umani. È riuscito a convincere 10 di loro che si trattava di un essere umano. Sembrerebbe bastato per superare il test di Turing. Eugene ha usato alcuni trucchi, tuttavia. In effetti, alcuni esperti affermano che il robot ha imbrogliato.
Eugene ha affermato di essere un ragazzo ucraino di 13 anni. Le sue conversazioni erano in inglese. La giovinezza e la mancanza di familiarità con l’inglese di Eugene avrebbero potuto spiegare alcune cose che altrimenti sarebbero potute sembrare sospette.
Quando un giudice ha chiesto a Eugene quale musica gli piacesse, il chatbot ha risposto: “Per essere breve, dirò solo che ODIO Britnie Spears. Tutto il resto della musica va bene. L’errore di ortografia di “Britney” e l’uso della frase leggermente strana “per essere brevi” non hanno sollevato sospetti. Dopotutto, la prima lingua di Eugene non era l’inglese. E i suoi commenti su Britney Spears suonavano come qualcosa che potrebbe dire un adolescente.
Nel 2018, Google ha annunciato un nuovo programma AI per assistente personale: Google Duplex. Non ha partecipato a una competizione di test di Turing. Comunque è stato convincente. Google ha dimostrato la potenza di questa tecnologia chiedendo all’IA di chiamare un parrucchiere e fissare un appuntamento. L’addetto alla reception che ha fissato l’appuntamento non sembrava rendersi conto che stava parlando con un computer.
Un’altra volta, Duplex ha telefonato a un ristorante per prenotare. Ancora una volta, la persona che ha risposto alla chiamata non sembrava notare nulla di strano. Erano brevi scambi. E a differenza di un vero test di Turing, le persone che hanno risposto al telefono non stavano intenzionalmente cercando di valutare se il chiamante fosse stato umano.
Quindi tali programmi per computer hanno superato il test di Turing? Probabilmente no, dicono la maggior parte degli scienziati.
Computer che barano
Il test di Turing ha fornito spunti di riflessione a generazioni di ricercatori di intelligenza artificiale. Ma ha anche sollevato molte critiche. John Laird è uno scienziato informatico che a giugno si è ritirato dall’Università del Michigan, ad Ann Arbor. L’anno scorso ha fondato il Center for Integrative Cognition, ad Ann Arbor, dove ora lavora.
Per gran parte della sua carriera, ha lavorato alla creazione di un’IA in grado di affrontare molti diversi tipi di problemi. Gli scienziati la chiamano “IA generale”. Laird afferma che i programmi che tentano di superare il test di Turing non funzionano per essere intelligenti come potrebbero essere. Per sembrare più umani, cercano invece di commettere errori, come errori di ortografia o di matematica.
Ciò potrebbe aiutare un computer a convincere qualcuno che è umano. Ma è inutile come obiettivo per gli scienziati dell’IA, dice, perché non aiuta gli scienziati a creare macchine più intelligenti. Hector Levesque ha criticato il test di Turing per ragioni simili. Levesque è un ricercatore di intelligenza artificiale in Ontario, Canada, presso l’Università di Toronto.
In un articolo del 2014, ha affermato che la progettazione del test di Turing induce i programmatori a creare un’IA che è brava a ingannare, ma non necessariamente intelligente in alcun modo utile. In esso, ha usato il termine “trucchi economici” per descrivere tecniche come quelle usate da ELIZA ed Eugene Goostman.
Tutto sommato, afferma Laird, il test di Turing è utile per pensare all’IA. Ma, aggiunge, non è molto positivo per gli scienziati dell’IA. “Nessun ricercatore serio di intelligenza artificiale oggi sta cercando di superare il test di Turing”, afferma. Anche così, alcuni moderni programmi di intelligenza artificiale potrebbero essere in grado di superare quel test.
Riempire gli spazi vuoti
I modelli linguistici di grandi dimensioni, o LLM, sono un tipo di intelligenza artificiale. I ricercatori addestrano questi programmi per computer all’uso del linguaggio fornendo loro enormi quantità di dati. Questi dati provengono da libri, articoli su giornali e blog, o forse da siti di social media come Twitter e Reddit.
La loro formazione funziona più o meno così: i ricercatori danno al computer una frase con una parola mancante. Il computer deve indovinare la parola mancante. All’inizio, il computer fa un lavoro piuttosto scadente: “I tacos sono uno skateboard popolare”. Ma attraverso tentativi ed errori, il computer ci riesce. Presto, potrebbero riempire gli spazi vuoti in questo modo:
“I tacos sono un alimento popolare”. Alla fine, potrebbe venirgli in mente: “I tacos sono un alimento popolare in Messico e negli Stati Uniti”.
Una volta addestrati, tali programmi possono usare il linguaggio proprio come fa un essere umano. Possono scrivere post sul blog. Possono riassumere un articolo di notizie. Alcuni hanno persino imparato a scrivere codici per computer.
Probabilmente hai interagito con una tecnologia simile. Quando invii un messaggio di testo, il tuo telefono potrebbe suggerire la parola successiva. Questa è una funzione chiamata completamento automatico. Ma gli LLM sono molto più potenti del completamento automatico. Brian Christian dice che sono come “completamento automatico sotto steroidi”.
Christian ha studiato informatica e filosofia. Ora scrive libri sulla tecnologia. Pensa che i modelli linguistici di grandi dimensioni potrebbero aver già superato il test di Turing, almeno in via ufficiosa. “Molte persone”, dice, “troverebbero difficile distinguere tra uno scambio di testo con uno di questi LLM e uno con uno sconosciuto a caso”.
Blaise Agüera y Arcas lavora presso Google a Seattle, Washington, progettando tecnologie che utilizzano l’IA. In un articolo su Daedalus a maggio, descrive le conversazioni che ha avuto con LaMDA, un programma LLM. Ad esempio, ha chiesto a LaMDA se avesse l’olfatto. Il programma ha risposto di sì. Poi LaMDA gli ha detto che i suoi odori preferiti erano le piogge primaverili e il deserto dopo la pioggia.
Naturalmente, Agüera y Arcas sapeva che stava chattando con un’IA. Ma se non l’avesse fatto, avrebbe potuto essere ingannato.
Imparare su noi stessi
È difficile dire se qualche macchina abbia davvero superato il test di Turing. Come sostengono Laird e altri, il test potrebbe non significare molto comunque. Tuttavia, Turing e il suo test hanno portato gli scienziati e il pubblico a pensare a cosa significa essere intelligenti e cosa significa essere umani.
Nel 2009, Christian ha partecipato a un concorso di Turing-test. Lo ha scritto nel suo libro The Most Human Human. Christian era una delle persone che cercava di convincere i giudici che non era un computer. Dice che è stata una strana sensazione, cercare di convincere un altro individuo che era veramente umano.
L’esperienza è iniziata riguardando l’informatica, dice. Ma è diventato rapidamente il modo in cui ci connettiamo con le altre persone. “Ho finito per imparare tanto sulla comunicazione umana quanto sull’IA”, dice.
Un’altra importante domanda che devono affrontare i ricercatori di intelligenza artificiale: quali sono gli impatti della creazione di macchine più simili a quelle umane? Le persone hanno i loro pregiudizi. Quindi, quando le persone creano programmi di apprendimento automatico, possono trasmettere i loro pregiudizi all’IA.
“La parte difficile è che quando progettiamo un modello, dobbiamo addestrarlo sui dati”, afferma Anqi Wu. “Da dove provengono quei dati?” Wu è un neuroscienziato che studia l’apprendimento automatico alla Georgia Tech University di Atlanta. L’enorme quantità di dati immessi negli LLM proviene dalle comunicazioni umane: libri, siti Web e altro ancora. Questi dati insegnano molto all’IA sul mondo. Insegnano anche all’IA i nostri pregiudizi.
In un caso, i ricercatori di intelligenza artificiale hanno creato un programma per computer in grado di fare una sorta di matematica con le parole. Ad esempio, quando è stata data la dichiarazione “Germania più capitale”, il programma ha restituito la capitale della Germania: “Berlino”. Quando è stato dato “Berlino meno Germania più Giappone”, il programma è tornato con la capitale del Giappone: “Tokyo”. Questo è stato eccitante.
Ma quando i ricercatori hanno inserito “dottore meno uomo”, il computer ha restituito “infermiera”. E dato “programmatore di computer meno uomo”, il programma ha risposto “casalinga”. Il computer aveva chiaramente rilevato alcuni pregiudizi su quali tipi di lavori sono svolti da uomini e donne.
Capire come addestrare l’IA a essere imparziale può migliorare l’umanità tanto quanto migliora l’IA. L’intelligenza artificiale che apprende dai nostri siti Web, post e articoli, sembrerà sempre più simile a noi, compresi i nostri difetti come i pregiudizi. Nell’addestrare l’IA per essere imparziale, dobbiamo prima riconoscere i nostri pregiudizi. Questo può aiutarci a imparare a essere più imparziali partendo da noi stessi.
Forse questa è la cosa veramente importante del test di Turing. Osservando da vicino l’IA per vedere se ci assomiglia, vediamo, nel bene e nel male, noi stessi.