El Observatorio de la IA
Ciberaula Observatorio IA Glosario Modelos de lenguaje (LLM) Destilación (distillation)
Modelos de lenguaje (LLM)

Destilación (distillation)

La destilación es la técnica para crear un modelo pequeño y rápido a partir de uno grande y potente. El modelo grande actúa de "profesor" y el pequeño de "alumno": el pequeño se entrena imitando las respuestas del grande hasta acercarse mucho a su calidad, pero ejecutándose con una fracción del coste. Es la razón por la que existen versiones "Haiku", "Mini" o "Flash" de los modelos.

Por Ana María González Actualizado: 28 de abril de 2026

Definición rápida

Respuesta directa

La destilación es la técnica para crear un modelo pequeño y rápido a partir de uno grande y potente. El modelo grande actúa de "profesor" y el pequeño de "alumno": el pequeño se entrena imitando las respuestas del grande hasta acercarse mucho a su calidad, pero ejecutándose con una fracción del coste. Es la razón por la que existen versiones "Haiku", "Mini" o "Flash" de los modelos.

Explicación ampliada

Entrenar un modelo grande desde cero cuesta cientos de millones de dólares y meses de procesamiento en miles de GPUs. Hacer un modelo pequeño de calidad equivalente desde cero sería casi tan caro y produciría peor resultado. La destilación resuelve eso: una vez tienes un modelo grande de calidad, generas con él millones de ejemplos pregunta-respuesta y entrenas a un modelo pequeño usando esos ejemplos. El pequeño aprende a imitar al grande con una fidelidad sorprendente. El resultado son las "familias" de modelos: cada gran fabricante publica varias tallas a partir del mismo entrenamiento base. Anthropic ofrece <strong>Opus</strong> (grande, máximo capaz), <strong>Sonnet</strong> (mediano, equilibrio coste-calidad) y <strong>Haiku</strong> (pequeño, rápido y barato). OpenAI hace lo mismo con <strong>GPT-5.5 Pro / Standard / Mini / Nano</strong>. Google con <strong>Gemini Pro / Flash / Flash-Lite</strong>. Meta con las distintas tallas de Llama. La diferencia de precio entre el más grande y el más pequeño de la misma familia suele ser de 20 a 100 veces. La destilación no es magia: el modelo pequeño destilado siempre rinde algo peor que su profesor, especialmente en tareas que requieren razonamiento profundo o conocimiento de cola larga. Pero para muchas tareas empresariales (clasificar correos, redactar respuestas estándar, extraer datos de documentos, traducir) la calidad del modelo destilado pequeño es indistinguible de la del grande para uso práctico.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que usa IA en volumen, conocer la destilación explica por qué hay que elegir modelo: usar Opus o GPT-5.5 Standard para todo es derrochar dinero. La estrategia profesional es usar el modelo pequeño destilado por defecto y solo escalar al grande cuando la tarea concreta lo requiere. Esa decisión por caso de uso puede dividir la factura mensual de IA entre 5 y 10 sin pérdida real de calidad percibida.

Ejemplo concreto

Caso real

Una empresa de e-commerce con 15.000 consultas mensuales en su asistente de soporte hizo el cálculo. Usando Claude Opus 4.7 para todo, la factura mensual estimada era de 4.200 dólares. Hizo una clasificación inicial: el 90% de las consultas eran rutinarias (estado de pedido, política de devoluciones, talla y disponibilidad) y se podían resolver perfectamente con Haiku 4.5. Solo el 10% (reclamaciones complejas, casos especiales) escalaba a Opus. El cambio bajaba la factura mensual a 480 dólares, casi 9 veces menos, sin que los clientes percibieran diferencia en calidad de respuesta.