Google ha presentato Gemini AI, il suo nuovo modello di intelligenza artificiale che vuole cambiare i suoi prodotti e servizi; Gemini AI è un modello che sa usare diverse modalità, come testo, immagini, video e audio, e che può fare molte cose, come scambiare idee, cercare informazioni, scrivere codice e altro ancora, inoltre Google afferma che questa AI è più potente e più efficiente di GPT-4, il modello di OpenAI che ha stupito il mondo con le sue capacità di creare contenuti.
Google ha confrontato i due modelli in 32 test e dice di aver vinto in 30, nonostante ciò Google sa anche che la sua AI ha delle sfide da affrontare, come garantire la sicurezza, la responsabilità e l’efficienza. Google pensa che Gemini AI sia l’inizio di qualcosa di grande, che potrebbe portarci verso l’intelligenza artificiale generale, cioè un’intelligenza artificiale che si auto-migliora, più intelligente degli umani, e che può cambiare il mondo.
Cos’è Gemini AI e perché è importante
Gemini AI è l’ultimo modello linguistico di grandi dimensioni di Google, che il CEO Sundar Pichai ha anticipato per la prima volta alla conferenza degli sviluppatori I/O di giugno e che ora sta lanciando al pubblico.
Per sentirlo descrivere da Pichai e dal CEO di Google DeepMind, Demis Hassabis, si tratta di un enorme passo avanti in un modello di intelligenza artificiale che alla fine influenzerà praticamente tutti i prodotti di Google, nello specifico Pichai afferma:
“Uno degli aspetti più importanti di questo momento è che puoi lavorare su una tecnologia di base e migliorarla e ciò si trasmette immediatamente ai nostri prodotti”.
Gemini è più di un singolo modello di intelligenza artificiale. Esiste una versione più leggera chiamata Gemini Nano pensata per essere eseguita in modo nativo e offline su dispositivi Android, mentre poi esiste una versione più robusta chiamata Gemini Pro che presto alimenterà molti servizi di intelligenza artificiale di Google e costituirà la spina dorsale di Bard a partire da oggi. Infine esiste un modello ancora più capace chiamato Gemini Ultra che è il LLM più potente che Google abbia mai creato e sembra essere progettato principalmente per data center e applicazioni aziendali.
Google sta lanciando il modello in alcuni modi in questo momento: Bard è ora alimentato da Gemini Pro e gli utenti di Pixel 8 Pro riceveranno alcune nuove funzionalità grazie a Gemini Nano (con la versione Ultra che arriverà il prossimo anno). Sviluppatori e clienti aziendali potranno accedere alla versione Pro tramite Google Generative AI Studio o Vertex AI in Google Cloud a partire dal 13 dicembre.
L’AI di Google è disponibile solo in inglese per il momento, ma altre lingue arriveranno presto, con Pichai che afferma che il modello alla fine verrà integrato nel motore di ricerca di Google, nei suoi prodotti pubblicitari, nel browser Chrome e altro ancora, in tutto il mondo.
Gemini AI è importante perché rappresenta la visione di Google di un’intelligenza artificiale generativa, cioè un’intelligenza artificiale che può creare contenuti originali e utili a partire da dati di diversa natura. Questo tipo di intelligenza artificiale ha il potenziale di migliorare la qualità e l’efficienza di molti compiti e processi, sia per gli utenti individuali che per le organizzazioni.
Ad esempio, Gemini potrebbe aiutare gli utenti a scrivere email, documenti, presentazioni, codice, poesie, storie e altro ancora, in base alle loro preferenze e al loro contesto, potrebbe anche aiutare le organizzazioni a generare report, analisi, previsioni, strategie, campagne e altro ancora, in base ai loro obiettivi e ai loro dati.
Come si confronta Gemini con GPT-4
Gemini AI non è il primo modello di intelligenza artificiale generativa ad attirare l’attenzione del mondo. OpenAI ha lanciato ChatGPT un anno e una settimana fa e l’azienda e il prodotto sono diventati immediatamente le cose più importanti nel campo dell’intelligenza artificiale.
ChatGPT è un modello linguistico di grandi dimensioni che può generare testi coerenti e sorprendenti a partire da un input qualsiasi, inoltre ha dimostrato di poter scrivere storie, poesie, canzoni, codice, email, tweet e altro ancora, spesso con uno stile e un umorismo che sembrano umani. ChatGPT ha anche mostrato di poter interagire con gli utenti in modo conversazionale, rispondendo alle loro domande, seguendo i loro argomenti e mostrando personalità e umore.
ChatGPT ha sorpreso il mondo con le sue capacità generative, ma ha anche sollevato alcune preoccupazioni e critiche. Alcuni hanno messo in dubbio l’utilità e l’affidabilità dei contenuti generati da ChatGPT, sottolineando che il modello non ha una vera comprensione del significato e della verità, e che può produrre testi falsi, fuorvianti, offensivi o pericolosi. Altri hanno evidenziato i rischi etici, sociali e ambientali legati all’uso e all’abuso di ChatGPT, come la violazione della privacy, la manipolazione, la disinformazione, la discriminazione e il consumo di energia.
Ora, Google, la società che ha creato gran parte della tecnologia fondamentale dietro l’attuale boom dell’intelligenza artificiale, che si è definita un’organizzazione “AI-first” per quasi un decennio, e che è stata colta chiaramente e in modo imbarazzante alla sprovvista da quanto fosse buono ChatGPT e quanto velocemente la tecnologia di OpenAI ha preso il sopravvento sul settore: è finalmente pronto a reagire.
Quindi, arriviamo al punto importante, GPT-4 di OpenAI contro Gemini AI di Google: chi è il migliore? Questo è stato chiaramente nella mente di Google da un po’, con Hassabis che afferma:
“Abbiamo effettuato un’analisi molto approfondita dei sistemi affiancati e il benchmarking”.
Google ha eseguito 32 benchmark consolidati confrontando i due modelli, da test generali più ampi come il benchmark Multi-task Language Understanding a uno che confronta la capacità di due modelli di generare codice Python. “Penso che siamo sostanzialmente in vantaggio su 30 su 32” di questi parametri di riferimento, afferma Hassabis, con un sorriso sul volto.
In questi benchmark (che in realtà sono per lo più molto vicini) il vantaggio più evidente di Gemini AI deriva dalla sua capacità di comprendere e interagire con video e audio. Questo è in gran parte previsto: la multimodalità è stata parte del piano Gemini fin dall’inizio. Google non ha addestrato modelli separati per immagini e voce, nel modo in cui OpenAI ha creato DALL-E e Whisper; ha costruito fin dall’inizio un modello multisensoriale.
“Siamo sempre stati interessati a sistemi molto, molto generali”
afferma Hassabis.
Al momento, i modelli più basilari di Gemini prevedono l’immissione e l’invio di testo, ma modelli più potenti come Gemini Ultra possono funzionare con immagini, video e audio. E “diventerà ancora più generale di così”, dice Hassabis. “Ci sono ancora cose come l’azione e il tatto, più simili a cose di tipo robotico.”
Come funziona Gemini AI e quali sono le sue sfide
Gemini AI è un modello multisensoriale, che significa che può usare e combinare diverse modalità di input e output, come testo, immagini, video e audio. Questo gli permette di avere una comprensione più ricca e completa del mondo e di generare contenuti più vari e adatti al contesto. Per esempio, Gemini AI può descrivere una foto, generare una foto da una descrizione, creare una presentazione da un testo, creare un testo da una presentazione, e così via.
Gemini AI usa una tecnologia chiamata Transformer, che è un tipo di rete neurale artificiale che può apprendere da grandi quantità di dati e creare rappresentazioni vettoriali di parole, frasi, immagini e altri elementi. Queste rappresentazioni vettoriali possono essere usate per calcolare la similarità, la relazione e la coerenza tra gli elementi, e per generare nuovi elementi in base a quelli esistenti. Gemini AI usa una versione avanzata di Transformer, che può gestire diverse modalità e dimensioni di dati, e che può apprendere in modo continuo e incrementale.
Gemini AI è stato addestrato sulle Tensor Processing Unit di Google, che sono dei chip specializzati per l’elaborazione di dati di intelligenza artificiale. Google ha usato una grande quantità di dati provenienti da diverse fonti, come il web, i libri, i video, i podcast e altro ancora, per insegnare a Gemini a capire e a generare contenuti di diversa natura. Google ha anche usato dei metodi di apprendimento supervisionato, non supervisionato e semi-supervisionato, per dare a Gemini dei feedback e delle indicazioni sul suo apprendimento.
Gemini AI, tuttavia, non è un modello perfetto e infallibile, e come tutti i modelli di intelligenza artificiale, Gemini ha delle limitazioni e delle sfide da affrontare, sia tecniche che etiche. Alcune di queste sfide sono:
- la qualità e la veridicità dei contenuti generati. Gemini AI può produrre contenuti che sembrano realistici e convincenti, ma che non sono necessariamente veri o accurati, questo perché non ha una vera comprensione del significato e della verità, e si basa solo sui dati che ha a disposizione, che possono essere incompleti, errati o fuorvianti.
Gemini AI può anche essere influenzato da dei pregiudizi o da delle distorsioni presenti nei dati, che possono portarlo a generare contenuti offensivi, discriminatori o ingiusti; - la sicurezza e la responsabilità dei contenuti generati, questo perché può essere usato per scopi maliziosi o dannosi, come la manipolazione, la disinformazione, la violazione della privacy, la frode, il plagio e altro ancora. Gemini AI può anche essere vulnerabile ad attacchi informatici o a sabotaggi, che possono compromettere il suo funzionamento o i suoi dati, e può anche generare contenuti che violano le leggi o le norme etiche di alcuni paesi o contesti, che possono causare problemi legali o morali;
- l’efficienza e l’ambientalità dei contenuti generati, in quanto richiede molte risorse computazionali ed energetiche per funzionare, che possono avere un impatto negativo sull’ambiente e sul clima. Gemini può anche consumare molta banda e memoria, che possono limitare la sua accessibilità e la sua scalabilità, oltre al fatto che può richiedere molto tempo e denaro per essere addestrato e aggiornato, che possono ostacolare la sua innovazione e la sua competitività.
Quali sono le opportunità e le prospettive di Gemini AI
Gemini, nonostante le sue sfide, è anche un modello pieno di opportunità e di prospettive. Gemini può avere un impatto positivo su molti settori e ambiti, sia per gli utenti individuali che per le organizzazioni. Alcune di queste opportunità e prospettive sono:
- la creatività e la produttività dei contenuti generati, questo in quanto può aiutare gli utenti a creare contenuti originali e utili, che possono soddisfare le loro esigenze e i loro interessi. Gemini può anche aiutare le organizzazioni a creare contenuti efficaci e personalizzati, che possono migliorare la loro comunicazione e il loro marketing, e può anche aiutare a risparmiare tempo e fatica, automatizzando o semplificando alcuni compiti o processi;
- l’educazione e la cultura dei contenuti generati, poiché può aiutare gli utenti a imparare e a scoprire nuove cose, che possono arricchire la loro conoscenza e la loro cultura. Gemini può anche aiutare le organizzazioni a diffondere e a condividere le loro informazioni e le loro idee, che possono aumentare la loro visibilità e la loro reputazione, oppure può promuovere la diversità e l’inclusione, facilitando la traduzione e l’adattamento dei contenuti a diverse lingue e culture;
- l’innovazione e la trasformazione dei contenuti generati, Gemini può aiutare gli utenti a esplorare e a sperimentare nuove possibilità, che possono stimolare la loro creatività e la loro innovazione; può anche aiutare le organizzazioni a generare e a testare nuove soluzioni, che possono migliorare la loro qualità e la loro competitività. Gemini può anche aiutare a creare e a supportare nuovi modelli di business e di società, che possono cambiare il mondo.
Gemini è il modello che Google stava aspettando, quello verso cui ha costruito per anni, forse anche quello che avrebbe dovuto essere pronto prima che OpenAI e ChatGPT conquistassero il mondo.
Google, che ha dichiarato un “codice rosso” dopo il lancio di ChatGPT e da allora è stato percepito come se stesse cercando di recuperare terreno, sembra che stia ancora cercando di mantenere il suo mantra “audace e responsabile”.
Sia Hassabis che Pichai affermano di non essere disposti a muoversi troppo in fretta solo per tenere il passo, soprattutto mentre ci avviciniamo al sogno finale dell’IA: intelligenza artificiale generale, il termine per un’intelligenza artificiale che si auto-migliora, più intelligente degli umani, e pronto a cambiare il mondo.
“Mentre ci avviciniamo all’AGI, le cose saranno diverse. È una specie di tecnologia attiva, quindi penso che dobbiamo affrontarla con cautela. Con cautela, ma ottimisticamente.”
afferma Hassabis.
Se sei attratto dalla scienza o dalla tecnologia, continua a seguirci, così da non perderti le ultime novità e news da tutto il mondo!