Modelos de lenguaje (LLM)

Evaluación de modelos (evals)

La evaluación de modelos, abreviado "evals", es el conjunto de métodos para medir la calidad y comportamiento de un modelo de IA en tareas concretas, normalmente con métricas automatizadas que se ejecutan tras cada actualización del modelo o del prompt. Es a IA lo que el testing es a software.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

En desarrollo de software hay tests unitarios; en IA, evals. Un sistema de evals típico tiene tres partes. (1) Un dataset: 50-500 ejemplos representativos del caso de uso, con respuestas esperadas o criterios de calidad. (2) Un runner: ejecuta el modelo sobre cada ejemplo y compara con la respuesta esperada. (3) Métricas: pueden ser exactas (la respuesta coincide letra por letra), aproximadas (similitud semántica), o "LLM as a judge" (otro modelo más potente puntúa la calidad). Frameworks de evals populares en 2026: OpenAI Evals, Anthropic's evals, Promptfoo, Langfuse, Braintrust, Inspect AI. La buena práctica del sector: cualquier sistema IA en producción debería tener evals que se ejecuten cada vez que cambia el prompt, el modelo o los datos, con un dashboard que muestre regresiones. Sin evals, optimizar un sistema IA es como programar sin tests: cada cambio puede mejorar una cosa y romper tres sin que nadie lo note.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa con sistemas IA en producción, los evals son la diferencia entre "funciona bien hoy" y "sigue funcionando bien dentro de seis meses". Sin evals no puedes saber si un modelo nuevo es mejor que el actual para tu caso, no puedes detectar deriva, no puedes justificar ante auditoría AI Act que el sistema sigue cumpliendo sus criterios de calidad. La inversión inicial es modesta —entre 1 y 5 días para montar un sistema básico— pero el retorno es enorme. Hacer cambios sin evals es la causa más frecuente de regresiones invisibles en sistemas IA empresariales.

Ejemplo concreto

Caso real

Un equipo de soporte técnico tenía un asistente IA que respondía consultas de clientes. Funcionaba bien al lanzamiento. Tres meses después decidieron cambiar el modelo a uno más barato. Sin evals, el cambio se hizo sin más; las primeras semanas todo "parecía ir bien". Auditoría a los dos meses: la calidad había bajado del 88% al 71% en un tipo concreto de consultas (configuraciones de red), invisibles desde el dashboard general. Tras incorporar evals con 80 casos representativos por categoría, cualquier cambio de modelo o prompt se valida automáticamente antes de promocionar a producción.