OpenAI pokazuje gdje umjetna inteligencija već nadmašuje ljudske stručnjake
Što je BDPval?
GDPval se temelji na devet industrija koje najviše doprinose američkom BDP-u, uključujući zdravstvo, financije, proizvodnju i javnu upravu. Unutar tih područja, test je obuhvatio 44 zanimanja, od programera do medicinskih sestara i novinara. Prva verzija, GDPval-v0, funkcionira tako da iskusni stručnjaci uspoređuju izvješća umjetne inteligencije s ljudskim izvješćima i odabiru bolja.
Rezultati testiranja
- GPT-5-high (nadograđena verzija GPT-5) ocijenjen je kao bolji ili ekvivalentan od strane stručnjaka iz industrije u 40,6 % slučajeva.
- Claude Opus 4.1 (Anthropic) je ocijenjen kao bolji ili jednak u 49 % slučajeva. OpenAI to pripisuje sposobnosti modela da stvori zanimljivu grafiku, a ne nužno njegovom sadržaju.
- Za usporedbu: GPT-4o, objavljen prije otprilike 15 mjeseci, postigao je samo 13,7 %.
Ograničenja testiranja
OpenAI priznaje da trenutna verzija GDPvala pokriva samo ograničen skup zadataka - prvenstveno pisanje istraživačkih izvješća. Većina profesija uključuje puno više od samog pisanja izvješća. Zato planiraju buduće verzije učiniti robusnijima, s više industrija i interaktivnim tijekovima rada.
Važnost za budućnost rada
Unatoč ograničenjima, napredak je očit. Dr. Aaron Chatterji, glavni ekonomist u OpenAI-u, vjeruje da modeli umjetne inteligencije sada mogu rasteretiti neke zadatke i usredotočiti se na zadatke veće vrijednosti. Tejal Patwardhan iz OpenAI-a dodaje da je napredak u proteklih 15 mjeseci ohrabrujući te da očekuje daljnji rast mogućnosti.
Silicijska dolina već ima niz testova (npr. AIME 2025 za matematičke probleme i GPQA Diamond za znanstvena pitanja na doktorskoj razini). No mnogi su modeli već blizu gornje granice na tim testovima. GDPval bi stoga mogao postati važan alat za mjerenje stvarne korisnosti umjetne inteligencije u gospodarstvu. Zasad će OpenAI morati proizvesti još veće verzije prije nego što može s pouzdanjem tvrditi da umjetna inteligencija doista nadmašuje ljudske stručnjake.