Informatique, téléphonie
28.09.2025 07:49

Partager avec d'autres :

Partager

OpenAI montre où l'intelligence artificielle surpasse déjà les experts humains

OpenAI je razkril nov merilnik uspešnosti UI modelov, imenovan GDPval. S tem meri, kako dobro se njihovi modeli umetne inteligence odrežejo v primerjavi s človeškimi strokovnjaki v različnih panogah.
OpenAI pokazal, kje umetna inteligenca že prehiteva človeške strokovnjake

Qu'est-ce que GDPval ?

GDPval s'appuie sur neuf secteurs contribuant le plus au PIB américain, dont la santé, la finance, l'industrie manufacturière et l'administration publique. Dans ces domaines, le test a couvert 44 professions, des programmeurs aux infirmiers en passant par les journalistes. La première version, GDPval-v0, repose sur la comparaison par des experts expérimentés de rapports d'IA avec des rapports humains afin de sélectionner les meilleurs.

Résultats des tests

  • GPT-5-high (une version améliorée de GPT-5) a été jugé meilleur ou équivalent par les experts du secteur dans 40,6 cas %.
  • Claude Opus 4.1 (Anthropic) a obtenu une note supérieure ou égale dans 49 cas %. OpenAI attribue cela à la capacité du modèle à créer des graphismes attrayants, et non pas nécessairement à son contenu.
  • À titre de comparaison : GPT-4o, sorti il y a environ 15 mois, n'a atteint que 13,7 %.

Limites des tests

OpenAI reconnaît que la version actuelle de GDPval ne couvre qu'un nombre limité de tâches, principalement la rédaction de rapports de recherche. La plupart des professions impliquent bien plus que la simple rédaction de rapports. C'est pourquoi OpenAI prévoit de rendre les prochaines versions plus robustes, avec davantage de secteurs d'activité et de flux de travail interactifs.

Importance pour l'avenir du travail

Malgré les limites, les progrès sont évidents. Le Dr Aaron Chatterji, économiste en chef chez OpenAI, estime que les modèles d'IA peuvent désormais se décharger de certaines tâches et se concentrer sur des tâches à plus forte valeur ajoutée. Tejal Patwardhan, d'OpenAI, ajoute que les progrès réalisés au cours des 15 derniers mois sont encourageants et qu'il s'attend à une nouvelle croissance des capacités.

La Silicon Valley dispose déjà d'une série de tests (par exemple, AIME 2025 pour les problèmes mathématiques et GPQA Diamond pour les questions scientifiques de niveau doctorat). Cependant, de nombreux modèles approchent déjà de la limite supérieure de ces tests. GDPval pourrait donc devenir un outil important pour mesurer l'utilité réelle de l'IA dans l'économie. Pour l'instant, OpenAI devra produire des versions encore plus complètes avant de pouvoir affirmer avec certitude que l'IA surpasse véritablement les experts humains.


Vous souhaitez en savoir plus sur ce sujet ?
intelligence artificielle


Que lisent les autres ?

_cadre('