Dom » OpenAI pokazuje gdje umjetna inteligencija već nadmašuje ljudske stručnjake

Računalstvo, telefonija

28.09.2025 07:49

Podijelite s drugima:

OpenAI pokazuje gdje umjetna inteligencija već nadmašuje ljudske stručnjake

OpenAI je predstavio novu metriku performansi AI modela pod nazivom GDPval, koja mjeri koliko dobro njihovi AI modeli rade u usporedbi s ljudskim stručnjacima u raznim industrijama.

Što je BDPval?

GDPval se temelji na devet industrija koje najviše doprinose američkom BDP-u, uključujući zdravstvo, financije, proizvodnju i javnu upravu. Unutar tih područja, test je obuhvatio 44 zanimanja, od programera do medicinskih sestara i novinara. Prva verzija, GDPval-v0, funkcionira tako da iskusni stručnjaci uspoređuju izvješća umjetne inteligencije s ljudskim izvješćima i odabiru bolja.

Rezultati testiranja

GPT-5-high (nadograđena verzija GPT-5) ocijenjen je kao bolji ili ekvivalentan od strane stručnjaka iz industrije u 40,6 % slučajeva.
Claude Opus 4.1 (Anthropic) je ocijenjen kao bolji ili jednak u 49 % slučajeva. OpenAI to pripisuje sposobnosti modela da stvori zanimljivu grafiku, a ne nužno njegovom sadržaju.
Za usporedbu: GPT-4o, objavljen prije otprilike 15 mjeseci, postigao je samo 13,7 %.

Ograničenja testiranja

OpenAI priznaje da trenutna verzija GDPvala pokriva samo ograničen skup zadataka - prvenstveno pisanje istraživačkih izvješća. Većina profesija uključuje puno više od samog pisanja izvješća. Zato planiraju buduće verzije učiniti robusnijima, s više industrija i interaktivnim tijekovima rada.

Važnost za budućnost rada

Unatoč ograničenjima, napredak je očit. Dr. Aaron Chatterji, glavni ekonomist u OpenAI-u, vjeruje da modeli umjetne inteligencije sada mogu rasteretiti neke zadatke i usredotočiti se na zadatke veće vrijednosti. Tejal Patwardhan iz OpenAI-a dodaje da je napredak u proteklih 15 mjeseci ohrabrujući te da očekuje daljnji rast mogućnosti.

Silicijska dolina već ima niz testova (npr. AIME 2025 za matematičke probleme i GPQA Diamond za znanstvena pitanja na doktorskoj razini). No mnogi su modeli već blizu gornje granice na tim testovima. GDPval bi stoga mogao postati važan alat za mjerenje stvarne korisnosti umjetne inteligencije u gospodarstvu. Zasad će OpenAI morati proizvesti još veće verzije prije nego što može s pouzdanjem tvrditi da umjetna inteligencija doista nadmašuje ljudske stručnjake.

Zanima vas više o ovoj temi?

umjetna inteligencija

OpenAI pokazuje gdje umjetna inteligencija već nadmašuje ljudske stručnjake

Što je BDPval?

Rezultati testiranja

Ograničenja testiranja

Važnost za budućnost rada

Zanima vas više o ovoj temi?

Povezane vijesti

Što drugi čitaju?

Izloženo

Najčitanije