La crittografia omomorfa potrebbe aiutarci a raccogliere tutti i vantaggi dei big data, dalla lotta alle frodi finanziarie alla diagnosi precoce delle malattie. Come ogni medico, Jacques Fellay vuole offrire ai suoi pazienti la migliore assistenza possibile. Ma il suo strumento preferito non è un bisturi o uno stetoscopio, è molto più potente di così.
Nascosti dentro ognuno di noi ci sono marcatori genetici che possono dire a medici come Fellay quali individui sono suscettibili a malattie come l’AIDS, l’epatite e altro ancora. Se potrà imparare a leggere questi indizi, allora Fellay avvertirà in anticipo chi richiede un trattamento precoce.
Questo potrebbe salvare molte vite. Il problema è che l’analisi delle relazioni tra marcatori genetici e malattie richiede un’enorme quantità di dati, più di quelli che un singolo ospedale può fare solo. Potresti pensare che gli ospedali possano mettere insieme le loro informazioni, ma non è così semplice. I dati genetici contengono tutti i tipi di dettagli sensibili sulle persone che potrebbero causare imbarazzo, discriminazione o peggio.
Preoccupazioni etiche di questo tipo sono un serio ostacolo per Fellay, che ha sede presso l’ospedale universitario di Losanna in Svizzera. “Abbiamo la tecnologia, abbiamo le idee”, dice. “Ma mettere insieme un set di dati sufficientemente grande è il più delle volte il fattore limitante”.
Le preoccupazioni di Fellay sono un microcosmo di uno dei più grandi problemi tecnologici del mondo. L’impossibilità di condividere i dati in modo sicuro ostacola il progresso anche in tutti i tipi di altre sfere, dall’individuazione dei crimini finanziari alla risposta ai disastri e al governo delle nazioni in modo efficace.
Ora, un nuovo tipo di crittografia consente di estrarre il succo dai dati senza che nessuno lo veda mai. Ciò potrebbe aiutare a porre fine al grande problema della privacy dei big data e i pazienti di Fellay potrebbero essere tra i primi a trarne vantaggio.
Sono passati più di 15 anni da quando abbiamo sentito per la prima volta che “i dati sono il nuovo petrolio”, una frase coniata dal matematico ed esperto di marketing britannico Clive Humby. Oggi siamo abituati all’idea che i dati personali siano preziosi. Aziende come Meta, che possiede Facebook, e il proprietario di Google, Alphabet, sono diventate colossi multimiliardari raccogliendo informazioni su di noi e utilizzandole per vendere pubblicità mirata.
I dati potrebbero fare bene anche a tutti noi. Il lavoro di Fellay è un esempio di come i dati medici potrebbero essere utilizzati per renderci più sani. Inoltre, Meta condivide i dati degli utenti resi anonimi con le organizzazioni umanitarie per aiutare a pianificare le risposte a inondazioni e incendi, in un progetto chiamato Disaster Maps.
E negli Stati Uniti, circa 1.400 college analizzano i documenti accademici per individuare gli studenti che potrebbero abbandonare gli studi e o fornire loro ulteriore supporto. Questi sono solo alcuni esempi tra molti: i dati sono una valuta che aiuta a far girare il mondo moderno.
Ottenere tali informazioni spesso significa pubblicare o condividere i dati. In questo modo, più persone possono guardarlo e condurre analisi, traendo potenzialmente conclusioni impreviste. Coloro che raccolgono i dati spesso non hanno le competenze o gli strumenti avanzati di intelligenza artificiale per sfruttarli al meglio, quindi conviene condividerli con aziende o organizzazioni che lo fanno.
Anche se non viene eseguita alcuna analisi esterna, i dati devono essere conservati da qualche parte, il che spesso significa su un server di archiviazione cloud, di proprietà di una società esterna. Non puoi condividere dati grezzi senza pensarci. In genere conterrà dettagli personali sensibili, qualsiasi cosa, da nomi e indirizzi a record di voto e informazioni mediche.
C’è l’obbligo di mantenere private queste informazioni, non solo perché è la cosa giusta da fare, ma a causa di leggi sulla privacy rigorose, come il Regolamento generale sulla protezione dei dati (GDPR) dell’Unione Europea. Le violazioni possono comportare grosse multe.
Negli ultimi decenni, abbiamo escogitato modi per cercare di preservare la privacy delle persone condividendo i dati. L’approccio tradizionale consiste nel rimuovere le informazioni che potrebbero identificare qualcuno o rendere questi dettagli meno precisi, afferma l’esperto di privacy Yves-Alexandre de Montjoye dell’Imperial College di Londra.
Ad esempio, potresti sostituire le date di nascita con un’altra fascia di età. Ma non basta più. “Andava bene negli anni ’90, ma non funziona più”, afferma de Montjoye. C’è un’enorme quantità di informazioni disponibili sulle persone online, quindi anche informazioni apparentemente insignificanti possono essere incrociate con informazioni pubbliche per identificare le persone.
Un caso significativo di reidentificazione del 2021 riguarda dati apparentemente anonimi venduti a un broker di dati dall’app di appuntamenti Grindr, utilizzata tra gli altri da persone gay. Un media chiamato The Pillar lo ha ottenuto e ha correlato i ping di posizione di un particolare telefono cellulare rappresentato nei dati con i movimenti noti di un prete statunitense di alto rango.
Dimostrando che il telefono spuntava regolarmente vicino a casa sua e nelle posizioni dove aveva avuto più incontri a cui aveva partecipato. L’implicazione era che questo prete avesse usato Grindr, e ne seguì uno scandalo perché i preti cattolici sono tenuti ad astenersi dal rapporti sessuali e la Chiesa considera l’attività omosessuale un peccato.
Recentemente è emerso un modo più sofisticato per mantenere la privacy delle persone, chiamato privacy differenziale. In questo approccio, il gestore di un database non condivide mai l’intero pacchetto di dati. Invece, consentono alle persone di porre domande sulle proprietà statistiche dei dati, ad esempio “quale percentuale di persone ha il cancro?” E fornire risposte.
Tuttavia, se vengono poste abbastanza domande intelligenti, ciò può comunque portare alla triangolazione dei dettagli privati. Quindi il gestore del database utilizza anche tecniche statistiche per inserire errori nelle risposte, ad esempio registrando lo stato di cancro errato per alcune persone durante il conteggio dei totali. Fatto con attenzione, questo non pregiudica la validità statistica dei dati, ma rende molto più difficile identificare gli individui.
L’US Census Bureau ha adottato questo metodo quando è giunto il momento di pubblicare statistiche basate sul censimento del 2020.
Crittografia: non fidarti di nessuno
Tuttavia, la privacy differenziale ha i suoi limiti. Fornisce solo modelli statistici e non può segnalare record specifici, ad esempio per evidenziare qualcuno a rischio di malattia, come vorrebbe fare Fellay. E mentre l’idea è “bella”, dice de Montjoye, metterla in pratica è difficile.
Esiste però una soluzione completamente diversa e più estrema, con origini che risalgono a 40 anni fa. E se potessi crittografare e condividere i dati in modo tale che altri possano analizzarli ed eseguire calcoli su di essi, ma non vederli mai? Sarebbe un po’ come mettere una pietra preziosa in un vano portaoggetti, le camere dei laboratori utilizzate per la manipolazione di materiale pericoloso.
Potresti invitare le persone a mettere le braccia nei guanti e maneggiare la gemma. Ma non avrebbero accesso gratuito e non potrebbero mai rubare nulla. Questo è stato il pensiero che è venuto in mente a Ronald Rivest, Len Adleman e Michael Dertouzos del Massachusetts Institute of Technology nel 1978. Hanno escogitato un modo teorico per creare l’equivalente di un vano portaoggetti sicuro per proteggere i dati.
Si basava su un’idea matematica chiamata omomorfismo, che si riferisce alla capacità di mappare i dati da una forma all’altra senza modificarne la struttura sottostante. Gran parte di questo dipende dall’uso dell’algebra per rappresentare gli stessi numeri in modi diversi.
Immagina di voler condividere un database con una società di analisi di intelligenza artificiale, ma contiene informazioni private. L’azienda di intelligenza artificiale non ti fornirà l’algoritmo che utilizza per analizzare i dati perché è commercialmente sensibile.
Quindi, per aggirare questo problema, crittografi omomorficamente i dati e li invii all’azienda. Non ha alcuna chiave per decrittografare i dati., ma l’azienda può analizzare i dati e ottenere un risultato, che a sua volta è crittografato. Sebbene l’azienda non abbia idea di cosa significhi, può rispedirvela. Fondamentalmente, ora puoi semplicemente decifrare il risultato e avrà perfettamente senso.
“La promessa è enorme”, afferma Tom Rondeau dell’Agenzia per i progetti di ricerca avanzata della difesa degli Stati Uniti (DARPA), una delle tante organizzazioni che stanno studiando la tecnologia. “È quasi difficile mettere un limite a ciò che possiamo fare se disponiamo di questo tipo di tecnologia”.
Nei 30 anni trascorsi dalla proposta del metodo, i ricercatori hanno ideato schemi di crittografia omomorfi che consentissero loro di eseguire un insieme ristretto di operazioni, ad esempio solo addizioni o moltiplicazioni.
Eppure la crittografia completamente omomorfa, o FHE, che ti permetterebbe di eseguire qualsiasi programma sui dati crittografati, è rimasta sfuggente. “L’EFE era ciò che pensavamo fosse il Santo Graal a quei tempi”, afferma Marten van Dijk del CWI, l’istituto di ricerca nazionale per la matematica e l’informatica nei Paesi Bassi.
“Era un po’ inimmaginabile.”
Un approccio alla crittografia omomorfica all’epoca prevedeva un’idea chiamata crittografia reticolare. Questo crittografa i numeri ordinari mappandoli su una griglia con molte più dimensioni rispetto alle due standard. Ha funzionato, ma solo fino a un certo punto. Ogni calcolo ha finito per aggiungere casualità ai dati. Di conseguenza, fare qualcosa di più di un semplice calcolo ha portato a una formazione così casuale che la risposta è diventata illeggibile.
Nel 2009, Craig Gentry, allora dottorando alla Stanford University in California, ha fatto una svolta. La sua brillante soluzione è stata quella di rimuovere periodicamente questa casualità decrittografando i dati sotto una copertura secondaria di crittografia.
Se suona paradossale, immagina quel vano portaoggetti con la gemma all’interno. Lo schema di Gentry era come mettere un vano portaoggetti dentro un altro, in modo che il primo potesse essere aperto mentre era ancora racchiuso in uno strato di sicurezza. Ciò ha fornito per la prima volta uno schema FHE praticabile.
Funzionabile, ma comunque lento: i calcoli sui dati crittografati con FHE potrebbero richiedere milioni di volte in più rispetto a quelli identici sui dati grezzi. Gentry ha continuato a lavorare presso IBM e nel decennio successivo lui e altri hanno lavorato duramente per rendere il processo più rapido migliorando la matematica sottostante.
Ma ultimamente l’attenzione si è spostata, afferma Michael Osborne di IBM Research a Zurigo, in Svizzera. Vi è una crescente consapevolezza che è possibile ottenere enormi miglioramenti della velocità ottimizzando il modo in cui la crittografia viene applicata per usi specifici. “Stiamo ottenendo miglioramenti di ordini di grandezza”, afferma Osborne.
IBM ora dispone di una suite di strumenti FHE in grado di eseguire l’IA e altre analisi su dati crittografati. I suoi ricercatori hanno dimostrato di essere in grado di rilevare transazioni fraudolente nei dati crittografati delle carte di credito utilizzando una rete neurale artificiale in grado di sgranocchiare 4000 record al secondo. Hanno anche dimostrato che potrebbero utilizzare lo stesso tipo di analisi per setacciare le scansioni TC crittografate di oltre 1500 polmoni di persone per rilevare segni di infezione da covid-19.
In lavorazione ci sono anche progetti proof-of-concept nel mondo reale con una varietà di clienti. Nel 2020 IBM ha rivelato i risultati di uno studio pilota condotto con la banca brasiliana Banco Bradesco. I problemi e le normative sulla privacy spesso impediscono alle banche di condividere dati sensibili sia internamente che esternamente.
Ma nello studio, IBM ha dimostrato che potrebbe utilizzare l’apprendimento automatico per analizzare le transazioni finanziarie crittografate dei clienti della banca per prevedere se avrebbero probabilmente contratto un prestito. Il sistema è stato in grado di fare previsioni per oltre 16.500 clienti in 10 secondi e ha eseguito esattamente la stessa analisi eseguita sui dati non crittografati.
Attività sospetta
Anche altre aziende sono appassionate di questa forma estrema di crittografia. L’informatico Shafi Goldwasser, co-fondatore della start-up di tecnologia per la privacy Duality, afferma che l’azienda sta raggiungendo velocità significativamente più elevate aiutando i clienti a strutturare meglio i propri dati e ad adattare gli strumenti ai loro problemi.
La tecnologia di crittografia di Duality è già stata integrata nei sistemi software utilizzati dal gigante tecnologico Oracle per rilevare i crimini finanziari, aiutando le banche a condividere i dati per rilevare attività sospette.
Tuttavia, per la maggior parte delle applicazioni, l’elaborazione FHE rimane almeno 100.000 volte più lenta rispetto ai dati non crittografati, afferma Rondeau. Questo è il motivo per cui, nel 2020, DARPA ha lanciato un programma chiamato Data Protection in Virtual Environments per creare chip specializzati progettati per eseguire FHE. I dati crittografati con reticolo sono disponibili in blocchi molto più grandi di quelli con cui vengono utilizzati i normali chip.
Quindi diversi team di ricerca coinvolti nel progetto, incluso uno guidato da Duality, stanno studiando modi per alterare i circuiti per elaborare, archiviare e spostare in modo efficiente questo tipo di dati. L’obiettivo è analizzare tutti i dati crittografati con FHE solo 10 volte più lentamente del solito, afferma Rondeau, che gestisce il programma.
Anche se fosse fulmineo, FHE non sarebbe impeccabile. Van Dijk afferma che non funziona bene con alcuni tipi di programmi, come quelli che contengono una logica di ramificazione composta da operazioni “se questo, fallo”. Nel frattempo, il ricercatore sulla sicurezza delle informazioni Martin Albrecht della Royal Holloway, Università di Londra, sottolinea che la giustificazione per FHE si basa sulla necessità di condividere i dati in modo che possano essere analizzati.
Ma molte analisi di routine dei dati non sono così complicate: farlo da soli a volte potrebbe essere più semplice che fare i conti con FHE. Da parte sua, de Montjoye è un sostenitore dell’ingegneria della privacy: non basandosi su una tecnologia per proteggere i dati delle persone, ma combinando diversi approcci in un pacchetto difensivo. FHE è un’ottima aggiunta a quella cassetta degli attrezzi, ritiene, ma non un vincitore autonomo.
Questo è esattamente l’approccio che Fellay e i suoi colleghi hanno adottato per facilitare la condivisione dei dati medici. Fellay ha lavorato con scienziati informatici presso l’Istituto Federale Svizzero di Tecnologia di Losanna che hanno creato uno schema che combina FHE con un’altra tattica di tutela della privacy chiamata Secure Multiparty Computing (SMC).
Ciò vede le diverse organizzazioni unire blocchi dei loro dati in modo tale che nessuno dei dettagli privati di alcuna organizzazione possa essere recuperato. In un documento pubblicato nell’ottobre 2021, il team ha utilizzato una combinazione di FHE e SMC per riunire in modo sicuro i dati provenienti da più fonti e utilizzarli per prevedere l’efficacia dei trattamenti contro il cancro o identificare variazioni specifiche nei genomi delle persone che predicono la progressione dell’infezione da HIV.
Il processo ha avuto un tale successo che la squadra ha ora implementato la tecnologia per consentire ai cinque ospedali universitari svizzeri di condividere i dati dei pazienti, sia per la ricerca medica che per aiutare i medici a personalizzare i trattamenti. “Lo stiamo implementando nella vita reale”, afferma Fellay, “rendendo condivisibili i dati degli ospedali svizzeri per rispondere a qualsiasi domanda di ricerca, purché i dati esistano”.
Se i dati sono il nuovo petrolio, allora sembra che la sete del mondo non si stia esaurendo. FHE potrebbe essere simile a una nuova tecnologia mineraria, che aprirà alcuni dei depositi più preziosi ma attualmente inaccessibili.
La sua bassa velocità può essere un ostacolo. Ma, come dice Goldwasser, confrontare la tecnologia con un’elaborazione completamente non crittografata non ha senso. “Se credi che la sicurezza non sia un vantaggio, ma un must”, dice, “allora in un certo senso non ci sono prezzi da pagare inutili”.