Modelos de lenguaje (LLM)

Contexto efectivo vs nominal

La ventana de contexto nominal es el máximo de tokens que un modelo admite técnicamente (por ejemplo, 200.000 o 1 millón). El contexto efectivo es cuánto de esa ventana el modelo realmente usa bien sin degradar la calidad. Casi siempre el efectivo es menor que el nominal: meter un millón de tokens no garantiza que el modelo los aproveche todos.

Por Ana María González Actualizado: 16 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Los proveedores anuncian ventanas de contexto cada vez mayores como argumento comercial: 128K, 200K, 1M de tokens. Pero capacidad nominal no es igual a capacidad efectiva. En la práctica, la calidad de uso de la información tiende a degradarse cuanto más larga es la entrada: los modelos atienden mejor al inicio y al final del contexto que al medio (el problema conocido como lost in the middle), y la precisión para recuperar un dato concreto enterrado en un texto enorme baja a medida que el texto crece. El contexto efectivo es la porción de la ventana dentro de la cual el modelo mantiene fiabilidad alta para la tarea. Depende del modelo, del tipo de tarea y de cómo esté organizada la información. La consecuencia práctica es importante y poco intuitiva: a menudo un sistema RAG que selecciona y entrega 8.000 tokens muy relevantes funciona mejor que uno que vuelca 400.000 tokens "por si acaso". Más contexto no es mejor contexto; el arte del context engineering está justamente en dar lo justo y bien ordenado, no lo máximo.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, confundir contexto nominal con efectivo lleva a diseños caros y peores: pagar por procesar contextos enormes que el modelo no aprovecha y que encima diluyen la respuesta. La regla práctica: no llenar la ventana porque se pueda; seleccionar y ordenar la información relevante, poner lo crítico al principio o al final, y probar empíricamente a partir de qué volumen empieza a degradarse la calidad para ese caso de uso concreto. Es una decisión de diseño, no un parámetro del proveedor.

Ejemplo concreto

Caso real

Una empresa con un asistente de soporte cargaba en cada consulta los 350.000 tokens del manual completo de producto "para que tuviera todo el contexto". Las respuestas eran lentas, caras y, sorprendentemente, a veces peores: el modelo se perdía entre tanta información. Sustituyeron el volcado por un RAG que recuperaba los 6.000 tokens más relevantes a la consulta. Resultado: respuestas más precisas, latencia un 80% menor y coste por consulta reducido a una fracción. El manual completo no cabía en el contexto efectivo aunque cupiera en el nominal.