Infraestructura y técnica

Decodificación especulativa (speculative decoding)

La decodificación especulativa es una técnica de optimización de inferencia en la que un modelo pequeño y rápido propone varios tokens de respuesta en paralelo, y el modelo grande "verifica" si son correctos en una sola pasada. Permite reducir la latencia de respuesta de los modelos grandes hasta 2-3x sin perder calidad.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

En la generación clásica de un modelo de lenguaje, los tokens se producen uno tras otro: el modelo predice el token 1, lo añade al contexto, predice el 2, etc. Cada token requiere una pasada completa por el modelo. Para un modelo de 70B parámetros eso es lento. La decodificación especulativa, popularizada por papers de Google y DeepMind en 2022-2023, usa dos modelos: un "borrador" (draft model) pequeño y rápido (3-7B típicamente) propone los próximos K tokens (K=4 a 8); el modelo grande los procesa todos en una sola pasada y "verifica" cuáles son correctos según su propia distribución de probabilidad. Si los K tokens son aceptados, el modelo grande ha procesado K tokens en el tiempo de uno. Si solo los primeros j son aceptados, sigue siendo más rápido. La técnica es matemáticamente exacta: la salida final es indistinguible de la del modelo grande sin especulación. Variantes recientes: medusa (varios "cabezales" que predicen tokens futuros sin necesitar modelo borrador), look-ahead decoding, paraghraph-level decoding. La mayoría de proveedores de inferencia (Groq, Together AI, Cerebras, Fireworks) usan estas técnicas internamente para ofrecer latencias bajas.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, esto importa indirectamente: explica por qué algunos proveedores de inferencia (como Groq, conocido por sus latencias muy bajas) ofrecen el mismo modelo más rápido que la API original. La decodificación especulativa, junto con hardware especializado, es la razón. Si tu caso de uso es sensible a latencia (chat en tiempo real, asistente de voz), conviene comparar varios proveedores con tu carga real, no solo basarte en el precio por token. Diferencias de velocidad de 3-5x son habituales para el mismo modelo según dónde lo ejecutes.

Ejemplo concreto

Caso real

Un asistente IA conversacional para clientes de una empresa de seguros tenía latencias de 4-7 segundos por respuesta con su API original. Para conversación en tiempo real esto era frustrante. Migraron a un proveedor de inferencia (Groq) que ofrecía Llama 3.3 70B con decodificación especulativa y hardware LPU; latencia bajó a 0,4-1 segundo por respuesta sin perder calidad. Costes por token similares. La satisfacción de uso del asistente subió notablemente medida en NPS interno; la velocidad importaba más que la "marca" del modelo.