Modelos de lenguaje (LLM)

RLHF (aprendizaje por refuerzo con feedback humano)

RLHF (Reinforcement Learning from Human Feedback) es la técnica que convierte un modelo de lenguaje crudo en un asistente conversacional útil y seguro. Personas humanas valoran respuestas del modelo, esas valoraciones entrenan un "juez" automático y el modelo aprende a producir las respuestas que el juez considera mejores.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Un modelo recién pre-entrenado puede continuar texto, pero no se comporta como ChatGPT: si le pides un consejo, puede contestar con una lista de preguntas similares en lugar de una respuesta; si le pides algo peligroso, puede seguir la corriente. El RLHF lo arregla en tres pasos. Primero, anotadores humanos comparan respuestas generadas por el modelo a la misma pregunta y eligen la mejor. Con miles de comparaciones se entrena un "modelo de recompensa" que aprende a puntuar respuestas como lo haría un humano. Segundo, ese modelo de recompensa se usa para entrenar al modelo principal mediante aprendizaje por refuerzo: el modelo intenta producir respuestas y se refuerza cuando obtiene puntuaciones altas. Tercero, se itera. El RLHF lo introdujo OpenAI en 2022 con InstructGPT y luego ChatGPT; hoy es el estándar de facto. Variantes modernas: DPO (más simple), Constitutional AI de Anthropic (sustituye buena parte del feedback humano por reglas escritas), RLAIF (la IA misma es el juez). El sesgo del proceso explica por qué los asistentes tienden a sonar parecidos: están alineados con preferencias humanas similares.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa esto importa por dos motivos. El primero es entender que la "personalidad" de un asistente IA no es magia neutra: es el resultado de las preferencias de los anotadores que entrenaron el RLHF, normalmente trabajadores de Estados Unidos, Filipinas o Kenia con criterios definidos por el proveedor. Eso introduce sesgos culturales reales (más cercanía a valores anglosajones, evitación de ciertos temas, tono "servicial"). El segundo es que el fine-tuning empresarial sobre un modelo abierto puede hacerse vía DPO o RLHF para alinearlo a tu propia política sin tener que reescribirla en cada prompt.

Ejemplo concreto

Caso real

Una aseguradora europea probó dos versiones de su asistente interno: el modelo base instruct genérico y una versión con DPO (variante de RLHF) entrenada con 2.000 conversaciones reales valoradas por su equipo de cumplimiento. La versión alineada redujo en un 73% las respuestas en las que mencionaba productos competidores y aumentó la consistencia en el uso de la terminología corporativa. Coste del entrenamiento: 4.200 €. Coste de inferencia: idéntico al modelo base.