Infraestructura y técnica

Atención de ventana deslizante (sliding window)

La atención de ventana deslizante es una técnica de optimización del transformer que permite procesar contextos muy largos a coste lineal (no cuadrático). En lugar de que cada token mire a todos los demás, mira solo a los k tokens más cercanos. Sacrifica algo de precisión en dependencias muy largas a cambio de eficiencia.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

El coste de la atención clásica del transformer crece como n² con la longitud de la secuencia: procesar 100K tokens cuesta 4 veces más que procesar 50K. Eso hace prohibitivos los contextos extremos. La atención de ventana deslizante (sliding window attention) restringe la atención: cada token mira solo a una "ventana" de k tokens vecinos, normalmente 4K, 8K o 16K. El coste pasa a ser O(n × k) en lugar de O(n²), lineal con la longitud total. Para mantener cierta capacidad de capturar dependencias largas se combina con otras técnicas: tokens "globales" que sí ven todo (Longformer); ventana ampliada en algunas capas (BigBird); jerarquías de ventanas; o "attention sinks" (Mistral). Modelos importantes que la usan: Mistral 7B y derivados (sliding window de 4K-32K), Longformer, Streaming-LLM. Otra técnica relacionada y muy de actualidad: KV cache compression y posiciones relativas que permiten extender contextos en inferencia. Las mejoras conjuntas son lo que ha permitido que Claude Opus 4.x, Gemini 3.x y otros modelos ofrezcan ventanas de 1M tokens a precios razonables.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, sliding window y técnicas afines son las que han hecho económicamente viables los modelos con contextos largos. Hace dos años, procesar un contrato de 200 páginas con IA costaba decenas de céntimos por consulta y tardaba minutos; hoy cuesta céntimos y tarda segundos. Sin entender los detalles técnicos, conviene saber que: distintos modelos manejan el contexto largo con eficiencia distinta (no todos los "1M tokens" cuestan o rinden igual); algunos modelos pierden calidad en el medio del contexto largo (problema "lost in the middle"); evaluar siempre el caso de uso real antes de comprometerse con un modelo por su tamaño de contexto teórico.

Ejemplo concreto

Caso real

Un equipo legal procesaba contratos de 80-300 páginas con un modelo IA. En 2024 con un modelo sin sliding window optimizada, costaba ~3 € por contrato y tardaba 60-90 segundos. En 2026 con un modelo moderno (Claude Sonnet 4.6 con atención optimizada), el mismo contrato cuesta 0,15-0,30 € y tarda 5-10 segundos. La calidad del análisis no era ya el factor limitante: el coste y la velocidad lo eran. La ficha técnica que el equipo IT compartió con el negocio incluyó "el modelo que elegimos usa atención de ventana deslizante mejorada, por eso es asumible".