Modelos de lenguaje (LLM)

Lost in the middle (problema del contexto largo)

"Lost in the middle" es un fenómeno documentado en 2023 por Liu et al.: los modelos de lenguaje, al recibir contextos largos, tienden a prestar mucha atención al principio y al final del contexto, pero rinden peor con la información situada en el medio. La curva de precisión por posición tiene forma de U.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

El paper de Liu et al. ("Lost in the Middle: How Language Models Use Long Contexts", 2023) puso números a un fenómeno conocido informalmente: los modelos pierden información del medio del contexto. Con la pregunta clave colocada al principio del contexto, la precisión era alta; al final, también; en posiciones intermedias, podía caer 20-30 puntos porcentuales. El efecto era más pronunciado cuanto más largo el contexto. Causas hipotéticas: distribución de los datos de entrenamiento (la información importante en textos suele estar al inicio o final), formación posicional de los embeddings, mezcla de RoPE y mecanismos de atención. Modelos posteriores (GPT-4 Turbo, Claude 3 series y Claude 4, Gemini 2-3 Pro) han mitigado el problema con datos sintéticos largos durante el entrenamiento, mejor positional encoding y técnicas como needle-in-a-haystack tests integrados en evaluación. En 2026 los mejores modelos pasan haystack tests sintéticos al 95%+ en contextos de 128K-1M, pero el efecto persiste de forma más sutil: tareas con razonamiento complejo sobre el medio del contexto siguen siendo más difíciles.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, "lost in the middle" tiene tres consecuencias prácticas. Primero, no asumas que pegar un PDF de 200 páginas y preguntar es lo mismo que extraer las 5-10 secciones relevantes y consultar sobre ellas; lo segundo suele rendir mejor. Segundo, si el caso de uso lo permite, repite la pregunta o las instrucciones al final del contexto largo; los modelos siguen prestando más atención al final. Tercero, en RAG bien diseñado, ordena los fragmentos recuperados poniendo los más relevantes al inicio y al final, no en el medio. Estas tres prácticas son baratas (sin coste extra de modelo) y mejoran la precisión sensiblemente.

Ejemplo concreto

Caso real

Un equipo de soporte legal usaba un asistente IA conectado a su biblioteca de jurisprudencia. Caso típico: 30 sentencias relevantes recuperadas por RAG y enviadas como contexto al modelo. Calidad inicial del análisis: aceptable pero con omisiones en sentencias del medio. Aplicaron tres cambios: (1) reordenar los fragmentos con las dos más relevantes al inicio y al final; (2) repetir la pregunta del usuario al final del contexto; (3) reducir de 30 a 10-15 fragmentos pero más cuidadosamente seleccionados. Mejora medida: análisis cubrían el 92% de las sentencias relevantes (antes el 71%). Cero coste adicional, solo cambios de prompt y orden.