OpenAI mostra dove l'intelligenza artificiale sta già superando gli esperti umani
Che cos'è GDPval?
GDPval si basa sui nove settori che contribuiscono maggiormente al PIL degli Stati Uniti, tra cui sanità, finanza, produzione e pubblica amministrazione. All'interno di questi settori, il test ha coperto 44 professioni, dai programmatori agli infermieri ai giornalisti. La prima versione, GDPval-v0, si basa sul confronto tra report di intelligenza artificiale e report umani da parte di esperti, che selezionano i migliori.
Risultati dei test
- GPT-5-high (una versione aggiornata di GPT-5) è stato valutato come migliore o equivalente dagli esperti del settore in 40,6 casi %.
- Claude Opus 4.1 (Anthropic) ha ottenuto una valutazione migliore o uguale in 49 casi %. OpenAI attribuisce questo risultato alla capacità del modello di creare grafiche accattivanti, non necessariamente al suo contenuto.
- Per fare un paragone: GPT-4o, rilasciato circa 15 mesi fa, ha raggiunto solo 13,7 %.
Limitazioni dei test
OpenAI riconosce che la versione attuale di GDPval copre solo un insieme limitato di attività, principalmente la redazione di report di ricerca. La maggior parte delle professioni comporta molto più della semplice redazione di report. Per questo motivo, l'azienda prevede di rendere le versioni future più robuste, con più settori e flussi di lavoro interattivi.
Importanza per il futuro del lavoro
Nonostante i limiti, i progressi sono evidenti. Il Dott. Aaron Chatterji, capo economista di OpenAI, ritiene che i modelli di intelligenza artificiale possano ora delegare alcuni compiti e concentrarsi su quelli di maggior valore. Tejal Patwardhan di OpenAI aggiunge che i progressi degli ultimi 15 mesi sono incoraggianti e che prevede un'ulteriore crescita delle capacità.
La Silicon Valley ha già una serie di test (ad esempio, AIME 2025 per i problemi di matematica e GPQA Diamond per i quesiti scientifici a livello di dottorato). Tuttavia, molti modelli sono già prossimi al limite massimo di questi test. GDPval potrebbe quindi diventare uno strumento importante per misurare l'effettiva utilità dell'IA nell'economia. Per ora, OpenAI dovrà produrre versioni ancora più grandi prima di poter affermare con sicurezza che l'IA supera davvero gli esperti umani.