Infraestructura y técnica

Latencia

En IA, la latencia es el tiempo que tarda un modelo en producir una respuesta desde que recibe la pregunta. Se mide habitualmente en milisegundos hasta el primer token (TTFT) y en tokens por segundo durante la generación. La latencia determina si un caso de uso es viable en tiempo real (asistente conversacional, atención al cliente) o solo en proceso por lotes (análisis nocturno, generación de informes).

Por Ana María González Actualizado: 28 de abril de 2026

Definición rápida

Respuesta directa

Explicación ampliada

La latencia tiene dos componentes que se suelen reportar por separado. Primero, el tiempo hasta el primer token (Time To First Token, TTFT): cuánto tarda el modelo en empezar a responder, dependiente del tamaño del prompt de entrada y de la capacidad del servidor. Segundo, la velocidad de generación: cuántos tokens por segundo produce el modelo una vez ha empezado, típicamente entre 30 y 200 tk/s en modelos grandes, hasta 1.000 tk/s en modelos pequeños o en hardware especializado (Groq, Cerebras). La latencia depende de varios factores: tamaño del modelo (más grande = más lento), longitud del prompt de entrada (procesar 50.000 tokens de contexto puede añadir varios segundos), proveedor (los modelos servidos directamente por el fabricante suelen ser más rápidos que mediante intermediarios), región geográfica del servidor (Europa o Estados Unidos cambia 50-200 ms), y si el sistema usa optimizaciones como streaming, caché de prompt o procesamiento por lotes. Para conversación en tiempo real con voz se considera aceptable una latencia total de 500-800 ms. Para asistentes conversacionales por texto, hasta 2-3 segundos antes del primer token sigue siendo natural. Por encima de 5 segundos el usuario percibe la herramienta como lenta y abandona la tarea.

Por qué importa para tu empresa

Aplicación práctica

Para casos de uso en producción, la latencia es a menudo el factor determinante para elegir entre un modelo grande y uno pequeño. Un asistente que ayuda a un comercial mientras está al teléfono con un cliente no puede tardar 8 segundos en responder, aunque la respuesta sea brillante. Un sistema que genera el informe mensual de ventas sí puede permitirse esos 8 segundos a cambio de mayor calidad. Saber qué latencia toleran tus casos de uso permite ahorrar dinero usando modelos pequeños donde no se necesita el grande.

Ejemplo concreto

Caso real

Una correduria de seguros probó dos configuraciones para su asistente al call center. La primera, con Claude Opus directo (modelo grande): respuestas excelentes pero 6 segundos de latencia, los agentes se desconcentraban esperando. La segunda, con Claude Haiku 4.5 (modelo pequeño, más rápido y más barato) configurado con un prompt sistema cuidado y RAG sobre las pólizas: 1,2 segundos de latencia, calidad un 12% inferior medida por encuesta a los propios agentes, pero adopción del 95% frente al 40% del modelo lento. La empresa eligió Haiku.