FlashAttention y FlashAttention-3
FlashAttention es un algoritmo que acelera radicalmente el cálculo de la atención en GPUs minimizando lecturas y escrituras a memoria HBM. FlashAttention-3, presentado en 2024 por Tri Dao y colaboradores, alcanza 1,5-2x más velocidad que la versión 2 en GPUs NVIDIA Hopper (H100), llegando a 740 TFLOPs/s en FP16 (75% del máximo teórico) y casi 1,2 PFLOPs/s en FP8.
Definición rápida
FlashAttention es un algoritmo que acelera radicalmente el cálculo de la atención en GPUs minimizando lecturas y escrituras a memoria HBM. FlashAttention-3, presentado en 2024 por Tri Dao y colaboradores, alcanza 1,5-2x más velocidad que la versión 2 en GPUs NVIDIA Hopper (H100), llegando a 740 TFLOPs/s en FP16 (75% del máximo teórico) y casi 1,2 PFLOPs/s en FP8.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa que despliegue modelos en su propio hardware (caso LLM local con GPU profesional, o cloud con GPU reservada), FlashAttention-3 es una de las optimizaciones que más rendimiento da gratis. En vLLM o TensorRT-LLM se activa por defecto en H100/H200/B200; basta con asegurar versiones actualizadas (vLLM 0.6+, PyTorch 2.4+). Para empresas que usan APIs de proveedores comerciales, importa indirectamente: los modernos throughputs y precios bajos por token reflejan que los proveedores usan FlashAttention-3 internamente. Conviene saberlo para entender que la diferencia de coste/velocidad entre proveedores de inferencia (Together AI, Groq, Fireworks, Anyscale) depende mucho de hardware y de qué optimizaciones usan, no solo del modelo.
Ejemplo concreto
Un equipo de ingeniería que evaluaba desplegar un modelo Llama 3.3 70B propio para atención al cliente probó dos configuraciones en 2 GPUs H100. Configuración A: vLLM v0.5 con FlashAttention-2: throughput 1.200 tokens/s con concurrencia de 16. Configuración B: vLLM v0.6 con FlashAttention-3: throughput 2.100 tokens/s con misma concurrencia. La misma inversión hardware procesaba 75% más peticiones por segundo. Solución antes de producción: actualizar siempre a la versión más reciente de vLLM + drivers + librerías. Ganancia "gratis" (solo software): equivalente a una segunda máquina H100 que no tuvieron que comprar.