El Observatorio de la IA
Conceptos fundamentales

Benchmark de IA

Un benchmark es una prueba estandarizada para medir y comparar capacidades de modelos de IA. Cada benchmark es una colección de preguntas o tareas con respuestas conocidas y una métrica de puntuación. MMLU, GPQA, SWE-bench y HumanEval son ejemplos clásicos.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Un benchmark es una prueba estandarizada para medir y comparar capacidades de modelos de IA. Cada benchmark es una colección de preguntas o tareas con respuestas conocidas y una métrica de puntuación. MMLU, GPQA, SWE-bench y HumanEval son ejemplos clásicos.

Explicación ampliada

Sin benchmarks no se podrían comparar modelos de forma objetiva: cada proveedor diría que el suyo es el mejor. Los benchmarks dan una vara común. Los más usados a 2026: MMLU (15.908 preguntas tipo test sobre 57 materias; ya saturado, frontera por encima del 90%); MMLU-Pro (versión más difícil); GPQA Diamond (preguntas de doctorado en ciencia, donde Claude Mythos Preview lidera con 94,6% y Gemini 3.1 Pro con 94,3% según LLM Stats); HumanEval (164 problemas de programación en Python; saturado, frontera por encima del 95%); SWE-bench Verified (resolución de issues reales de GitHub, mucho más realista; MiniMax M2.5 80,2%, Claude Opus 4.6 80,8%); ARC-AGI-2 (razonamiento abstracto, lejos de saturación); HLE / Humanity's Last Exam (frontera más exigente, Grok 4 lidera con 50,7%); Arena Elo (valoración humana A/B). Cada uno mide algo distinto y los modelos no son uniformemente mejores: Claude lidera coding, Gemini lidera ciencia y multimodal, Grok lidera HLE. La saturación de un benchmark significa que los mejores modelos lo resuelven casi perfecto y deja de discriminar; cada año hay que renovar el catálogo.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa los benchmarks son útiles para descartar pero engañosos para elegir. Un modelo que saca 60% en GPQA está claramente por debajo de uno que saca 90%; pero entre 87% y 93% hay ruido y el orden puede cambiar entre versiones. Más importante: ningún benchmark mide lo que tu empresa hace. La práctica madura es usar benchmarks públicos como filtro inicial y construir tu propio mini-benchmark con 100-200 ejemplos reales de tus casos de uso. Ese es el que decide.

Ejemplo concreto

Caso real

Una consultora de RR. HH. evaluaba tres modelos para clasificación de candidaturas. Los benchmarks públicos los daban casi empatados (todos por encima del 88% en MMLU). Construyeron un benchmark propio con 150 candidaturas anónimas previamente clasificadas por su equipo experto. Resultado: el modelo "tercero" en MMLU sacaba 91% en su benchmark interno, frente al 78% del "primero". La diferencia eran sesgos del modelo en términos como "experiencia internacional" o "habilidades blandas" que se discriminaban distinto según el modelo. Eligieron el tercero. Lección: benchmarks públicos para filtrar; benchmark propio para decidir.