Conceptos fundamentales

Capacidad emergente

Una capacidad emergente es una habilidad que un modelo de IA no muestra en tamaños pequeños y aparece "de repente" cuando el modelo cruza cierto umbral de escala. Modelos de 1.000 millones de parámetros pueden ser incapaces de hacer aritmética; los de 70.000 millones pueden hacerla bien sin que nadie les enseñara explícitamente.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

El término se popularizó en 2022 con un paper de Wei et al. que mostró cómo ciertas tareas (aritmética con varios pasos, razonamiento simbólico, traducción a idiomas raros) seguían un patrón curioso: a tamaños pequeños, los modelos puntuaban en torno al azar; al cruzar cierto umbral de cómputo y parámetros, las puntuaciones daban un salto cualitativo. Es la base del argumento "más grande = cualitativamente mejor" que ha guiado la inversión de la industria. Hay un debate científico activo: investigaciones posteriores (Schaeffer et al. 2023) cuestionan que las capacidades sean realmente emergentes y argumentan que pueden ser un artefacto de cómo se miden (métricas binarias en lugar de continuas). El término sigue usándose pero con más matiz: hay capacidades que sí parecen aparecer súbitamente con la escala (chain-of-thought solo funciona bien en modelos grandes), otras que mejoran de forma continua. La discusión académica es relevante porque afecta a la planificación de inversiones: si todo es emergencia, hay que apostar por modelos enormes; si todo es continuidad, modelos medianos bien entrenados pueden bastar.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, la idea de capacidad emergente justifica por qué a veces vale la pena pagar por un modelo grande: hay tareas que un modelo de 7B simplemente no hace, no es cuestión de prompting, ni de fine-tuning, ni de paciencia. Razonamiento de varios pasos, comprensión de instrucciones complejas y sensibilidad a matices culturales son ejemplos típicos. La regla práctica: probar el caso de uso en un modelo pequeño primero; si falla, no es seguro que un modelo más grande lo resuelva, pero merece la pena probarlo antes de descartar el caso.

Ejemplo concreto

Caso real

Una empresa probaba un modelo IA local de 7B parámetros para extraer información de facturas con formatos mixtos. Funcionaba al 60% — fallaba en facturas con cuadros complejos. Asumiendo que el problema era el modelo, probaron uno de 70B: precisión 92%. La diferencia no se podía cubrir con prompting o fine-tuning del 7B; era una capacidad que solo aparecía con la escala. Migraron a la API del modelo grande aunque costaba 8x más por consulta, porque el 32% adicional de aciertos suprimía el trabajo manual de revisión de un FTE.