L’intelligenza artificiale di DeepMind scopre la struttura del 98,5% delle proteine umane, quando ci sono voluti decenni di scrupolose ricerche per mappare la struttura di appena il 17% delle proteine utilizzate all’interno del corpo umano, ma meno di un anno per la società di intelligenza artificiale DeepMind con sede nel Regno Unito per aumentare tale cifra al 98,5%.
L’azienda sta mettendo a disposizione gratuitamente tutti questi dati, il che potrebbe portare a rapidi progressi nello sviluppo di nuovi farmaci. Determinare la forma complessa e spiegazzata delle proteine in base alla sequenza di amminoacidi che le compongono è stato un enorme ostacolo scientifico.
Alcuni amminoacidi sono attratti da altri, alcuni sono respinti dall’acqua e le catene formano forme intricate che sono difficili da calcolare con precisione. La comprensione di queste strutture consente di progettare nuovi farmaci altamente mirati che si legano a parti specifiche delle proteine.
La ricerca genetica ha fornito a lungo la capacità di determinare la sequenza di una proteina, ma un modo efficiente per trovare la forma, cruciale per comprenderne le proprietà, si è dimostrato sfuggente. Sebbene i supercomputer e i progetti di calcolo distribuito siano stati efficaci, non sono riusciti a compiere progressi significativi.
DeepMind ha pubblicato una ricerca lo scorso anno che ha dimostrato che l’intelligenza artificiale può risolvere rapidamente il problema. La sua rete neurale AlphaFold è stata addestrata su sezioni di forme proteiche precedentemente risolte e ha imparato a dedurre la struttura di nuove sequenze.
Deepmind al servizio della ricerca Covid-19
Da allora, l’azienda ha applicato e perfezionato la tecnologia a migliaia di proteine, a cominciare dal proteoma umano, proteine rilevanti per il covid-19 e altre che beneficeranno maggiormente della ricerca immediata. Sta ora pubblicando i risultati in un database creato in collaborazione con il Laboratorio europeo di biologia molecolare.
DeepMind ha mappato la struttura del 98,5% delle circa 20.000 proteine del corpo umano. Per il 35,7% di questi, l’algoritmo ha fornito un’accuratezza di oltre il 90% nella previsione della sua forma.
L’azienda ha rilasciato più di 350.000 previsioni sulla struttura proteica in totale, comprese quelle per altri 20 organismi modello importanti per la ricerca biologica, dall’Escherichia coli al lievito. Il team spera di poter aggiungere entro pochi mesi quasi tutte le proteine sequenziate conosciute dalla scienza: più di 100 milioni di strutture.
John Moult dell’Università del Maryland afferma che l’ascesa dell’intelligenza artificiale nell’area del ripiegamento delle proteine è stata una “profonda sorpresa”. “È rivoluzionario in un senso che è difficile da capire”, dice. “Se stai lavorando su qualche malattia rara e non hai mai avuto una struttura, ora sarai in grado di andare a guardare le informazioni strutturali che erano fondamentalmente molto, molto difficili o impossibili da ottenere prima”.
Demis Hassabis, amministratore delegato e fondatore di DeepMind, afferma che AlphaFold, che è composto da circa 32 algoritmi separati ed è stato reso open source, sta ora risolvendo forme proteiche in minuti o, in alcuni casi, secondi utilizzando un hardware non più sofisticato di un scheda grafica standard.
“Una GPU impiega alcuni minuti per piegare una proteina, il che ovviamente avrebbe richiesto anni di lavoro sperimentale”, afferma. “Stiamo solo mettendo in campo questo tesoro di dati. È un po’ strabiliante in un certo senso perché passare dalla svolta della creazione di un sistema in grado di farlo alla produzione reale di tutti i dati è stata solo questione di mesi. Speriamo che diventi una sorta di strumento standard utilizzato da tutti i biologi di tutto il mondo”.
Hassabis ritiene che una parte del restante 1,5 per cento delle proteine umane per le quali non è stato possibile trovare una struttura dipenderà da errori nella sequenza o forse “qualcosa di intrinseco alla biologia”, come le proteine che sono intrinsecamente disordinate o imprevedibili. Il team ha anche aggiunto una misura di fiducia a tutte le previsioni sulla struttura, che Hassabis afferma di ritenere vitale dato che i risultati saranno la base per gli sforzi di ricerca.