Infraestructura y técnica

FlashAttention y FlashAttention-3

FlashAttention es un algoritmo que acelera radicalmente el cálculo de la atención en GPUs minimizando lecturas y escrituras a memoria HBM. FlashAttention-3, presentado en 2024 por Tri Dao y colaboradores, alcanza 1,5-2x más velocidad que la versión 2 en GPUs NVIDIA Hopper (H100), llegando a 740 TFLOPs/s en FP16 (75% del máximo teórico) y casi 1,2 PFLOPs/s en FP8.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

La atención clásica del transformer es teóricamente eficiente (matmul + softmax) pero en la práctica está limitada por el ancho de banda de memoria de la GPU: leer y escribir las matrices de atención de la HBM externa al chip cuesta más que las propias multiplicaciones. FlashAttention (2022, también de Tri Dao) reorganizó el cálculo en bloques que caben en la SRAM rápida del chip, evitando idas y vueltas a memoria HBM. FlashAttention-2 (2023) optimizó la paralelización: ~70% del máximo teórico en GPUs Ampere (A100), pero solo 35% en Hopper (H100) porque no aprovechaba sus nuevas capacidades. FlashAttention-3 (julio 2024, paper destacado en NeurIPS) explota tres novedades de Hopper: WGMMA (Warpgroup Matrix Multiply-Accumulate), TMA (Tensor Memory Accelerator) y soporte FP8 nativo. Resultado: 740 TFLOPs/s en FP16 (1,5-2x sobre v2), 1,2 PFLOPs/s en FP8, y 2,6x menor error numérico que la cuantización per-tensor estándar. Está integrado en vLLM, TensorRT-LLM, PyTorch SDPA, Hugging Face Transformers. Es uno de los componentes invisibles que han hecho económicamente viables los contextos largos de los modelos frontera.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que despliegue modelos en su propio hardware (caso LLM local con GPU profesional, o cloud con GPU reservada), FlashAttention-3 es una de las optimizaciones que más rendimiento da gratis. En vLLM o TensorRT-LLM se activa por defecto en H100/H200/B200; basta con asegurar versiones actualizadas (vLLM 0.6+, PyTorch 2.4+). Para empresas que usan APIs de proveedores comerciales, importa indirectamente: los modernos throughputs y precios bajos por token reflejan que los proveedores usan FlashAttention-3 internamente. Conviene saberlo para entender que la diferencia de coste/velocidad entre proveedores de inferencia (Together AI, Groq, Fireworks, Anyscale) depende mucho de hardware y de qué optimizaciones usan, no solo del modelo.

Ejemplo concreto

Caso real

Un equipo de ingeniería que evaluaba desplegar un modelo Llama 3.3 70B propio para atención al cliente probó dos configuraciones en 2 GPUs H100. Configuración A: vLLM v0.5 con FlashAttention-2: throughput 1.200 tokens/s con concurrencia de 16. Configuración B: vLLM v0.6 con FlashAttention-3: throughput 2.100 tokens/s con misma concurrencia. La misma inversión hardware procesaba 75% más peticiones por segundo. Solución antes de producción: actualizar siempre a la versión más reciente de vLLM + drivers + librerías. Ganancia "gratis" (solo software): equivalente a una segunda máquina H100 que no tuvieron que comprar.