Tech iCrewPlay.comTech iCrewPlay.com
  • Scienza
  • Spazio
  • Natura
    • Cambiamenti climatici
  • Curiosità
  • Salute
  • Recensioni
  • Tecnologia
    • App e software
    • Prodotti Audio
    • Domotica e IoT
    • Elettrodomestici
    • Guide
    • Hardware e periferiche
    • Notebook e PC
    • Smartphone e tablet
    • Visione Digitale
    • Wearable
    • Cronologia
    • Seguiti
    • Segui
Cerca
  • Anime
  • Arte
  • Cinema
  • Cosechevalgono
  • gamecast
  • Libri
  • Videogiochi
Copyright © Alpha Unity. Tutti i diritti riservati.​
Lettura: Humanity’s Last Exam: il test che mette davvero alla prova l’intelligenza artificiale
Share
Notifica
Ridimensionamento dei caratteriAa
Tech iCrewPlay.comTech iCrewPlay.com
Ridimensionamento dei caratteriAa
  • Anime
  • Arte
  • Cinema
  • Cosechevalgono
  • gamecast
  • Libri
  • Videogiochi
Cerca
  • Scienza
  • Spazio
  • Natura
    • Cambiamenti climatici
  • Curiosità
  • Salute
  • Recensioni
  • Tecnologia
    • App e software
    • Prodotti Audio
    • Domotica e IoT
    • Elettrodomestici
    • Guide
    • Hardware e periferiche
    • Notebook e PC
    • Smartphone e tablet
    • Visione Digitale
    • Wearable
    • Cronologia
    • Seguiti
    • Segui
Seguici
  • Contatto
  • Media Kit
  • Chi siamo
  • Lavora con noi
  • Cookie Policy
  • Disclaimer
Copyright © Alpha Unity. Tutti i diritti riservati.​
Intelligenza ArtificialeScienza

Humanity’s Last Exam: il test che mette davvero alla prova l’intelligenza artificiale

Un nuovo benchmark globale mette alla prova i modelli più avanzati e rivela quanto il divario con l’intelligenza umana sia ancora significativo

Andrea Tasinato 1 minuto fa Commenta! 5
SHARE

Humanity’s Last Exam è l’esame finale per “mettere alla prova” le varie intelligenze artificiali, ma come funziona di preciso?

Contenuti di questo articolo
Che cos’è Humanity’s Last ExamUno sforzo globale per misurare i limiti dell’IAPerché servono nuovi benchmarkNon una minaccia, ma uno strumentoUn benchmark pensato per il futuroUna collaborazione su scala globale

Negli ultimi anni i sistemi di intelligenza artificiale hanno iniziato a ottenere risultati altissimi nei benchmark accademici tradizionali. Questo successo, però, ha fatto emergere un problema: molti dei test che un tempo rappresentavano una sfida reale oggi non sono più sufficienti per misurare le capacità dei modelli più avanzati.

Humanity’s last exam: il test che mette davvero alla prova l’intelligenza artificiale

Valutazioni note come il Massive Multitask Language Understanding (MMLU), un tempo considerate particolarmente impegnative, faticano ormai a distinguere tra diversi livelli di performance delle IA moderne. In altre parole, i test sono diventati troppo facili.

Leggi Altro

Tesla nello spazio: scambiata per un asteroide, ecco cosa è successo
Questi animali si fingono morti per sopravvivere (e alcuni lo fanno troppo bene!)
Il talco è cancerogeno? Classificazione OMS, miliardi di risarcimenti e una scienza ancora divisa
Carcinoma mammario avanzato: identificate le cellule ibride che accelerano la malattia

Per affrontare questa situazione, quasi 1.000 ricercatori da tutto il mondo – tra cui il professor Tung Nguyen della Texas A&M University – hanno sviluppato un nuovo benchmark pensato per essere molto più ampio, difficile e ancorato alla conoscenza specialistica umana.

Che cos’è Humanity’s Last Exam

Il risultato del progetto è Humanity’s Last Exam (HLE): un esame composto da circa 2.500 domande che spaziano tra matematica, discipline umanistiche, scienze naturali, lingue antiche e numerosi ambiti altamente specializzati.

Il lavoro è descritto in uno studio pubblicato su Nature, mentre ulteriori dettagli sono disponibili sul sito ufficiale del progetto.

Humanity’s last exam: il test che mette davvero alla prova l’intelligenza artificiale

Nguyen, che ha contribuito alla stesura di molte domande, sottolinea un punto chiave: “Quando l’IA ottiene risultati eccellenti nei benchmark umani, è facile pensare che si stia avvicinando a una comprensione di livello umano. Ma l’intelligenza non è solo riconoscimento di schemi: è profondità, contesto e competenza specialistica.”

L’obiettivo dell’esame non è “battere” i partecipanti umani, ma identificare con precisione le aree in cui l’IA continua a mostrare limiti.

Uno sforzo globale per misurare i limiti dell’IA

Le domande di Humanity’s Last Exam sono state scritte e revisionate da specialisti di tutto il mondo. Ogni quesito è stato progettato con una sola risposta verificabile e costruito in modo da evitare soluzioni rapide tramite semplici ricerche online.

Gli argomenti includono sfide accademiche avanzate: dalla traduzione di iscrizioni palmirene antiche all’identificazione di minuscole strutture anatomiche negli uccelli, fino all’analisi dettagliata della pronuncia dell’ebraico biblico.

Humanity’s last exam: il test che mette davvero alla prova l’intelligenza artificiale

Un aspetto particolarmente interessante è il processo di selezione: ogni domanda è stata testata sui principali modelli di IA e, se un sistema riusciva a rispondere correttamente, veniva eliminata dall’esame finale. In questo modo il benchmark resta leggermente oltre ciò che le IA attuali riescono a risolvere con affidabilità.

I risultati iniziali confermano l’efficacia dell’approccio:

  • GPT-4o ha ottenuto il 2,7%
  • Claude 3.5 Sonnet il 4,1%
  • OpenAI o1 circa l’8%
  • I sistemi più avanzati, come Gemini 3.1 Pro e Claude Opus 4.6, hanno raggiunto tra il 40% e il 50%

Perché servono nuovi benchmark

Secondo Nguyen, la necessità di aggiornare i benchmark non è solo una questione tecnica. Senza strumenti di valutazione affidabili, sviluppatori, decisori politici e utenti rischiano di sopravvalutare ciò che l’IA è realmente in grado di fare.

Humanity’s last exam: il test che mette davvero alla prova l’intelligenza artificiale

I benchmark tradizionali, infatti, misurano spesso la capacità di completare compiti progettati per studenti umani, ma non catturano necessariamente la comprensione profonda o la competenza specialistica.

Non una minaccia, ma uno strumento

Nonostante il nome suggestivo, Humanity’s Last Exam non intende suggerire che l’uomo stia diventando obsoleto. Al contrario, mette in evidenza quanto resti ancora unico del sapere umano.

“Non è una corsa contro l’IA”, spiega Nguyen. “È un modo per capire dove questi sistemi funzionano bene e dove invece faticano. Questo ci aiuta a costruire tecnologie più sicure e affidabili.”

Un benchmark pensato per il futuro

HLE è progettato per durare nel tempo come riferimento trasparente per valutare i sistemi futuri. Alcune domande sono state rese pubbliche, mentre la maggior parte resta nascosta per evitare che i modelli possano semplicemente memorizzarle.

Secondo Nguyen, al momento Humanity’s Last Exam rappresenta una delle misure più chiare del divario tra intelligenza artificiale e intelligenza umana: un divario che, nonostante i progressi, resta significativo.

Una collaborazione su scala globale

Il progetto dimostra anche il valore della collaborazione interdisciplinare: informatici, storici, fisici, linguisti e ricercatori medici hanno contribuito insieme.

E forse il dato più interessante è proprio questo: a evidenziare i limiti dell’IA, almeno per ora, sono stati ancora una volta gli esseri umani lavorando insieme.

 Texas UniversityNature
Condividi questo articolo
Facebook Twitter Copia il link
Share
Cosa ne pensi?
-0
-0
-0
-0
-0
-0
lascia un commento lascia un commento

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

  • Contatto
  • Media Kit
  • Chi siamo
  • Lavora con noi
  • Cookie Policy
  • Disclaimer

Copyright © Alpha Unity. Tutti i diritti riservati.​

  • Anime
  • Arte
  • Cinema
  • Cosechevalgono
  • gamecast
  • Libri
  • Videogiochi
Bentornato in iCrewPlay!

Accedi al tuo account

Hai dimenticato la password?