Modelo base vs modelo instruct
Un modelo "base" es el modelo recién salido del pre-entrenamiento: sabe completar texto pero no se comporta como asistente. Un modelo "instruct" (o "chat") es el mismo modelo después de fine-tuning instructivo y RLHF: sigue instrucciones, conversa, rechaza peticiones inapropiadas. Casi siempre que usas un modelo público, usas la versión instruct.
Definición rápida
Un modelo "base" es el modelo recién salido del pre-entrenamiento: sabe completar texto pero no se comporta como asistente. Un modelo "instruct" (o "chat") es el mismo modelo después de fine-tuning instructivo y RLHF: sigue instrucciones, conversa, rechaza peticiones inapropiadas. Casi siempre que usas un modelo público, usas la versión instruct.
Explicación ampliada
Por qué importa para tu empresa
Importa para una empresa cuando se decide hacer fine-tuning. Si entrenas sobre la versión instruct, te peleas contra el alineamiento previo: el modelo "ya tiene opinión" y tus 1.000 ejemplos compiten contra millones del RLHF original. Si entrenas sobre la versión base, partes de cero pero tienes que añadir mucho más volumen de datos para enseñarle a comportarse. Equipos con poca experiencia suelen ir a la instruct; equipos con MLOps maduro a veces eligen base.
Ejemplo concreto
Una empresa de marketing intentó hacer fine-tuning sobre Llama 3 8B Instruct con 800 ejemplos de su tono de marca. El resultado conservaba un sesgo claro hacia el estilo "asistente útil" del modelo original, mezclado a ratos con el tono que querían. Repitiendo el experimento sobre Llama 3 8B base con los mismos 800 ejemplos más 5.000 conversaciones genéricas adicionales, obtuvieron un modelo que sonaba más nítidamente "como ellos", aunque les costó tres veces más tiempo de entrenamiento.