OpenAI zeigt, wo künstliche Intelligenz menschliche Experten bereits übertrifft
Was ist GDPval?
GDPval basiert auf neun Branchen, die am meisten zum US-BIP beitragen, darunter Gesundheitswesen, Finanzen, Fertigung und öffentliche Verwaltung. Innerhalb dieser Bereiche deckte der Test 44 Berufe ab, von Programmierern über Krankenpfleger bis hin zu Journalisten. In der ersten Version, GDPval-v0, vergleichen erfahrene Experten KI-Berichte mit menschlichen Berichten und wählen die besseren aus.
Testergebnisse
- GPT-5-high (eine verbesserte Version von GPT-5) wurde von Branchenexperten in 40,6 %-Fällen als besser oder gleichwertig bewertet.
- Claude Opus 4.1 (Anthropic) wurde in 49 %-Fällen als besser oder gleich bewertet. OpenAI führt dies auf die Fähigkeit des Modells zurück, ansprechende Grafiken zu erstellen, nicht unbedingt auf dessen Inhalt.
- Zum Vergleich: GPT-4o, das vor etwa 15 Monaten veröffentlicht wurde, erreichte nur 13,7 %.
Testbeschränkungen
OpenAI räumt ein, dass die aktuelle Version von GDPval nur einen begrenzten Aufgabenbereich abdeckt – hauptsächlich das Verfassen von Forschungsberichten. Die meisten Berufe umfassen jedoch weit mehr als nur das Verfassen von Berichten. Daher plant OpenAI, zukünftige Versionen robuster zu gestalten und mehr Branchen und interaktive Workflows zu berücksichtigen.
Bedeutung für die Zukunft der Arbeit
Trotz der Einschränkungen sind Fortschritte erkennbar. Dr. Aaron Chatterji, Chefökonom bei OpenAI, ist überzeugt, dass KI-Modelle nun einige Aufgaben auslagern und sich auf höherwertige Aufgaben konzentrieren können. Tejal Patwardhan von OpenAI ergänzt, dass die Fortschritte der letzten 15 Monate ermutigend seien und er mit einem weiteren Ausbau der Fähigkeiten rechne.
Silicon Valley verfügt bereits über eine Reihe von Tests (z. B. AIME 2025 für mathematische Aufgaben und GPQA Diamond für naturwissenschaftliche Fragen auf Doktorandenniveau). Viele Modelle stoßen bei diesen Tests jedoch bereits an die Obergrenze. GDPval könnte daher zu einem wichtigen Instrument zur Messung des tatsächlichen Nutzens von KI in der Wirtschaft werden. OpenAI muss vorerst noch umfangreichere Versionen entwickeln, bevor es mit Sicherheit behaupten kann, dass KI menschliche Experten tatsächlich übertrifft.