RLHF (aprendizaje por refuerzo con feedback humano)
RLHF (Reinforcement Learning from Human Feedback) es la técnica que convierte un modelo de lenguaje crudo en un asistente conversacional útil y seguro. Personas humanas valoran respuestas del modelo, esas valoraciones entrenan un "juez" automático y el modelo aprende a producir las respuestas que el juez considera mejores.
Definición rápida
RLHF (Reinforcement Learning from Human Feedback) es la técnica que convierte un modelo de lenguaje crudo en un asistente conversacional útil y seguro. Personas humanas valoran respuestas del modelo, esas valoraciones entrenan un "juez" automático y el modelo aprende a producir las respuestas que el juez considera mejores.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa esto importa por dos motivos. El primero es entender que la "personalidad" de un asistente IA no es magia neutra: es el resultado de las preferencias de los anotadores que entrenaron el RLHF, normalmente trabajadores de Estados Unidos, Filipinas o Kenia con criterios definidos por el proveedor. Eso introduce sesgos culturales reales (más cercanía a valores anglosajones, evitación de ciertos temas, tono "servicial"). El segundo es que el fine-tuning empresarial sobre un modelo abierto puede hacerse vía DPO o RLHF para alinearlo a tu propia política sin tener que reescribirla en cada prompt.
Ejemplo concreto
Una aseguradora europea probó dos versiones de su asistente interno: el modelo base instruct genérico y una versión con DPO (variante de RLHF) entrenada con 2.000 conversaciones reales valoradas por su equipo de cumplimiento. La versión alineada redujo en un 73% las respuestas en las que mencionaba productos competidores y aumentó la consistencia en el uso de la terminología corporativa. Coste del entrenamiento: 4.200 €. Coste de inferencia: idéntico al modelo base.