Informatica, telefonia
28.09.2025 07:49

Condividi con gli altri:

Condividere

OpenAI mostra dove l'intelligenza artificiale sta già superando gli esperti umani

OpenAI je razkril nov merilnik uspešnosti UI modelov, imenovan GDPval. S tem meri, kako dobro se njihovi modeli umetne inteligence odrežejo v primerjavi s človeškimi strokovnjaki v različnih panogah.
OpenAI pokazal, kje umetna inteligenca že prehiteva človeške strokovnjake

Che cos'è GDPval?

GDPval si basa sui nove settori che contribuiscono maggiormente al PIL degli Stati Uniti, tra cui sanità, finanza, produzione e pubblica amministrazione. All'interno di questi settori, il test ha coperto 44 professioni, dai programmatori agli infermieri ai giornalisti. La prima versione, GDPval-v0, si basa sul confronto tra report di intelligenza artificiale e report umani da parte di esperti, che selezionano i migliori.

Risultati dei test

  • GPT-5-high (una versione aggiornata di GPT-5) è stato valutato come migliore o equivalente dagli esperti del settore in 40,6 casi %.
  • Claude Opus 4.1 (Anthropic) ha ottenuto una valutazione migliore o uguale in 49 casi %. OpenAI attribuisce questo risultato alla capacità del modello di creare grafiche accattivanti, non necessariamente al suo contenuto.
  • Per fare un paragone: GPT-4o, rilasciato circa 15 mesi fa, ha raggiunto solo 13,7 %.

Limitazioni dei test

OpenAI riconosce che la versione attuale di GDPval copre solo un insieme limitato di attività, principalmente la redazione di report di ricerca. La maggior parte delle professioni comporta molto più della semplice redazione di report. Per questo motivo, l'azienda prevede di rendere le versioni future più robuste, con più settori e flussi di lavoro interattivi.

Importanza per il futuro del lavoro

Nonostante i limiti, i progressi sono evidenti. Il Dott. Aaron Chatterji, capo economista di OpenAI, ritiene che i modelli di intelligenza artificiale possano ora delegare alcuni compiti e concentrarsi su quelli di maggior valore. Tejal Patwardhan di OpenAI aggiunge che i progressi degli ultimi 15 mesi sono incoraggianti e che prevede un'ulteriore crescita delle capacità.

La Silicon Valley ha già una serie di test (ad esempio, AIME 2025 per i problemi di matematica e GPQA Diamond per i quesiti scientifici a livello di dottorato). Tuttavia, molti modelli sono già prossimi al limite massimo di questi test. GDPval potrebbe quindi diventare uno strumento importante per misurare l'effettiva utilità dell'IA nell'economia. Per ora, OpenAI dovrà produrre versioni ancora più grandi prima di poter affermare con sicurezza che l'IA supera davvero gli esperti umani.


Ti interessa saperne di più su questo argomento?
intelligenza artificiale


Cosa stanno leggendo gli altri?

_struttura('