OpenAI muestra dónde la inteligencia artificial ya supera a los expertos humanos
¿Qué es GDPval?
GDPval se basa en nueve sectores que más contribuyen al PIB de EE. UU., como la salud, las finanzas, la manufactura y la administración pública. Dentro de estas áreas, la prueba abarcó 44 ocupaciones, desde programadores hasta enfermeros y periodistas. La primera versión, GDPval-v0, funciona mediante la comparación de informes de IA con informes humanos por parte de expertos con experiencia, quienes seleccionan los mejores.
Resultados de las pruebas
- GPT-5-high (una versión mejorada de GPT-5) fue calificado como mejor o equivalente por los expertos de la industria en 40,6 casos de %.
- Claude Opus 4.1 (Anthropic) obtuvo una calificación superior o igual en 49 casos de %. OpenAI atribuye esto a la capacidad del modelo para crear gráficos atractivos, no necesariamente a su contenido.
- A modo de comparación: GPT-4o, lanzado hace unos 15 meses, solo logró 13,7 %.
Limitaciones de las pruebas
OpenAI reconoce que la versión actual de GDPval solo cubre un conjunto limitado de tareas, principalmente la redacción de informes de investigación. La mayoría de las profesiones implican mucho más que la simple redacción de informes. Por eso planean que las futuras versiones sean más robustas, con más sectores y flujos de trabajo interactivos.
Importancia para el futuro del trabajo
A pesar de las limitaciones, el progreso es evidente. El Dr. Aaron Chatterji, economista jefe de OpenAI, cree que los modelos de IA ahora pueden delegar algunas tareas y centrarse en tareas de mayor valor. Tejal Patwardhan, de OpenAI, añade que el progreso de los últimos 15 meses es alentador y que espera un mayor crecimiento de las capacidades.
Silicon Valley ya cuenta con una serie de pruebas (p. ej., AIME 2025 para problemas de matemáticas y GPQA Diamond para preguntas de ciencias de nivel de doctorado). Sin embargo, muchos modelos ya están cerca del límite superior de estas pruebas. Por lo tanto, GDPval podría convertirse en una herramienta importante para medir la utilidad real de la IA en la economía. Por ahora, OpenAI necesitará producir versiones aún más grandes antes de poder afirmar con certeza que la IA realmente supera a los expertos humanos.