Modelos de lenguaje (LLM)

Modelo base vs modelo instruct

Un modelo "base" es el modelo recién salido del pre-entrenamiento: sabe completar texto pero no se comporta como asistente. Un modelo "instruct" (o "chat") es el mismo modelo después de fine-tuning instructivo y RLHF: sigue instrucciones, conversa, rechaza peticiones inapropiadas. Casi siempre que usas un modelo público, usas la versión instruct.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Cuando un proveedor publica un modelo abierto, normalmente publica dos versiones. La versión "base" (también llamada "foundation", "pretrained" o simplemente sin sufijo) es la materia prima: sabe predecir la siguiente palabra dado un contexto, pero si le preguntas "¿cuál es la capital de Francia?" puede contestar con otra pregunta similar en lugar de "París", porque ha leído más textos donde las preguntas se encadenan que diálogos pregunta-respuesta. La versión "instruct" (a veces llamada "chat", "it" o "Instruct") es el mismo modelo después de pasar por fine-tuning supervisado con conversaciones de calidad y por RLHF. Ese segundo paso es el que le da la habilidad de seguir instrucciones, mantener tono coherente y rechazar peticiones problemáticas. Llama 3.1 8B y Llama 3.1 8B Instruct son el mismo "cerebro" con dos personalidades distintas. La versión base tiene un valor de nicho: es el punto de partida ideal para fine-tuning empresarial muy específico, porque no arrastra las preferencias del RLHF original. Para casi todo lo demás, se usa la instruct.

Por qué importa para tu empresa

Aplicación práctica

Importa para una empresa cuando se decide hacer fine-tuning. Si entrenas sobre la versión instruct, te peleas contra el alineamiento previo: el modelo "ya tiene opinión" y tus 1.000 ejemplos compiten contra millones del RLHF original. Si entrenas sobre la versión base, partes de cero pero tienes que añadir mucho más volumen de datos para enseñarle a comportarse. Equipos con poca experiencia suelen ir a la instruct; equipos con MLOps maduro a veces eligen base.

Ejemplo concreto

Caso real

Una empresa de marketing intentó hacer fine-tuning sobre Llama 3 8B Instruct con 800 ejemplos de su tono de marca. El resultado conservaba un sesgo claro hacia el estilo "asistente útil" del modelo original, mezclado a ratos con el tono que querían. Repitiendo el experimento sobre Llama 3 8B base con los mismos 800 ejemplos más 5.000 conversaciones genéricas adicionales, obtuvieron un modelo que sonaba más nítidamente "como ellos", aunque les costó tres veces más tiempo de entrenamiento.