Benchmark de IA
Un benchmark es una prueba estandarizada para medir y comparar capacidades de modelos de IA. Cada benchmark es una colección de preguntas o tareas con respuestas conocidas y una métrica de puntuación. MMLU, GPQA, SWE-bench y HumanEval son ejemplos clásicos.
Definición rápida
Un benchmark es una prueba estandarizada para medir y comparar capacidades de modelos de IA. Cada benchmark es una colección de preguntas o tareas con respuestas conocidas y una métrica de puntuación. MMLU, GPQA, SWE-bench y HumanEval son ejemplos clásicos.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa los benchmarks son útiles para descartar pero engañosos para elegir. Un modelo que saca 60% en GPQA está claramente por debajo de uno que saca 90%; pero entre 87% y 93% hay ruido y el orden puede cambiar entre versiones. Más importante: ningún benchmark mide lo que tu empresa hace. La práctica madura es usar benchmarks públicos como filtro inicial y construir tu propio mini-benchmark con 100-200 ejemplos reales de tus casos de uso. Ese es el que decide.
Ejemplo concreto
Una consultora de RR. HH. evaluaba tres modelos para clasificación de candidaturas. Los benchmarks públicos los daban casi empatados (todos por encima del 88% en MMLU). Construyeron un benchmark propio con 150 candidaturas anónimas previamente clasificadas por su equipo experto. Resultado: el modelo "tercero" en MMLU sacaba 91% en su benchmark interno, frente al 78% del "primero". La diferencia eran sesgos del modelo en términos como "experiencia internacional" o "habilidades blandas" que se discriminaban distinto según el modelo. Eligieron el tercero. Lección: benchmarks públicos para filtrar; benchmark propio para decidir.