Conceptos fundamentales

Leyes de escalado (scaling laws)

Las leyes de escalado son relaciones matemáticas observadas en la literatura científica que predicen cómo mejora la calidad de un modelo de lenguaje cuando se aumentan sus tres factores principales: tamaño del modelo (parámetros), volumen de datos de entrenamiento y cómputo dedicado. Han sido la base de la apuesta por modelos cada vez más grandes durante 2020-2024.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Las primeras leyes de escalado fueron establecidas por Kaplan et al. (OpenAI, 2020) y refinadas por Hoffmann et al. (DeepMind, 2022, conocidas como "Chinchilla scaling laws"). Lo que muestran: la pérdida (error) de un modelo durante el entrenamiento sigue una curva predecible cuando se aumenta uno de los tres factores manteniendo los otros constantes. La ley de Chinchilla añadió un matiz importante: para un presupuesto de cómputo dado, la mejor estrategia es escalar parámetros y datos en proporción aproximadamente igual (cada parámetro debe entrenarse con ~20 tokens). Modelos anteriores (GPT-3, etc.) estaban "sobre-parametrizados": demasiados parámetros para los datos que se les daban. Las leyes guiaron la apuesta de la industria por modelos cada vez más grandes con más datos, cuyo coste creció exponencialmente. En 2024-2025 aparecieron señales de que las leyes clásicas se están deformando en el extremo de la curva: añadir más cómputo y datos da retornos decrecientes para los modelos frontera. La nueva apuesta de escalado se ha trasladado hacia "scaling de inferencia" (modelos de razonamiento que piensan más tiempo antes de responder, como o3 o Claude con extended thinking) y hacia mejores datos antes que más datos.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa esta palabra importa por dos motivos prácticos. Primero, justifica por qué los modelos frontera siguen mejorando: no es marketing, hay leyes empíricas detrás. Segundo, ayuda a no caer en el simplismo "más grande siempre es mejor": para tu caso de uso, un modelo de tamaño medio bien entrenado y bien ajustado puede ser preferible al modelo más grande disponible, especialmente con su coste. Y tercero, explica por qué empresas como Anthropic, OpenAI, Google y xAI gastan miles de millones en próximas generaciones: las leyes predicen mejoras seguidas, aunque cada vez más caras.

Ejemplo concreto

Caso real

Un comité de inversión de una multinacional debatía si firmar contrato a 3 años con un proveedor IA. La pregunta clave: "¿van los modelos a ser mucho mejores en 3 años?". Tras leer un informe sobre scaling laws, entendieron que sí: la mejora seguía siendo predecible aunque más cara. Decidieron no firmar a 3 años (el modelo del momento estaría obsoleto), sino contrato anual con cláusula de actualización a la última versión. Un año después, los modelos efectivamente eran ~30% mejores en sus tareas; haberse atado al de hace 12 meses habría sido caro.