Atención de ventana deslizante (sliding window)
La atención de ventana deslizante es una técnica de optimización del transformer que permite procesar contextos muy largos a coste lineal (no cuadrático). En lugar de que cada token mire a todos los demás, mira solo a los k tokens más cercanos. Sacrifica algo de precisión en dependencias muy largas a cambio de eficiencia.
Definición rápida
La atención de ventana deslizante es una técnica de optimización del transformer que permite procesar contextos muy largos a coste lineal (no cuadrático). En lugar de que cada token mire a todos los demás, mira solo a los k tokens más cercanos. Sacrifica algo de precisión en dependencias muy largas a cambio de eficiencia.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa, sliding window y técnicas afines son las que han hecho económicamente viables los modelos con contextos largos. Hace dos años, procesar un contrato de 200 páginas con IA costaba decenas de céntimos por consulta y tardaba minutos; hoy cuesta céntimos y tarda segundos. Sin entender los detalles técnicos, conviene saber que: distintos modelos manejan el contexto largo con eficiencia distinta (no todos los "1M tokens" cuestan o rinden igual); algunos modelos pierden calidad en el medio del contexto largo (problema "lost in the middle"); evaluar siempre el caso de uso real antes de comprometerse con un modelo por su tamaño de contexto teórico.
Ejemplo concreto
Un equipo legal procesaba contratos de 80-300 páginas con un modelo IA. En 2024 con un modelo sin sliding window optimizada, costaba ~3 € por contrato y tardaba 60-90 segundos. En 2026 con un modelo moderno (Claude Sonnet 4.6 con atención optimizada), el mismo contrato cuesta 0,15-0,30 € y tarda 5-10 segundos. La calidad del análisis no era ya el factor limitante: el coste y la velocidad lo eran. La ficha técnica que el equipo IT compartió con el negocio incluyó "el modelo que elegimos usa atención de ventana deslizante mejorada, por eso es asumible".