Conceptos fundamentales

Aprendizaje por refuerzo (RL)

El aprendizaje por refuerzo es una técnica de entrenamiento en la que un modelo aprende a través de prueba y error, recibiendo recompensas cuando hace algo bien y penalizaciones cuando lo hace mal. Es la base de los modelos de razonamiento modernos como o3, Claude con extended thinking o DeepSeek-R1.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

A diferencia del pre-entrenamiento (que solo busca predecir la siguiente palabra) o del fine-tuning supervisado (que copia ejemplos correctos), el aprendizaje por refuerzo deja al modelo intentar resolver problemas y le da una señal de "esto está bien" o "esto está mal" según el resultado. Aplicado a matemáticas o programación, esto significa darle un problema con respuesta verificable: si el modelo llega al resultado correcto, refuerza el camino que tomó; si falla, lo desincentiva. Repetido a escala masiva, el modelo descubre por sí mismo trucos de razonamiento, autocorrección y planificación que no estaban explícitamente en los datos de entrenamiento. Es lo que explica el salto cualitativo en capacidad matemática y de programación de los modelos lanzados desde finales de 2024 (o1 de OpenAI inauguró la era; o3, Claude 4.x, DeepSeek-R1 y Gemini Thinking la consolidaron). El RL es también lo que está detrás del RLHF, donde la "recompensa" la marca el feedback humano.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa la palabra "razonamiento" en el marketing de un modelo casi siempre apunta a aprendizaje por refuerzo aplicado durante el entrenamiento. Estos modelos son más caros y más lentos por respuesta, pero resuelven problemas que los modelos clásicos no resolvían: depuración de código complejo, demostraciones matemáticas, planificación de tareas en varios pasos. La regla práctica: para extracción de datos, redacción y resúmenes, basta un modelo clásico (más barato); para análisis profundo de un caso o código difícil, conviene pagar el extra de un modelo de razonamiento.

Ejemplo concreto

Caso real

Un equipo de finanzas tenía dificultades para que un asistente de IA reconciliara cuentas con casos límite (intereses partidos, asientos compensados, divisas). Con el modelo estándar fallaba en un 12% de los casos. Cambiando al modelo de razonamiento del mismo proveedor, el error bajó al 2%, pero el coste por consulta se multiplicó por 4 y el tiempo de respuesta pasó de 3 a 25 segundos. Para ese caso de uso (auditoría mensual, no tiempo real) el cambio compensaba.