Latencia
En IA, la latencia es el tiempo que tarda un modelo en producir una respuesta desde que recibe la pregunta. Se mide habitualmente en milisegundos hasta el primer token (TTFT) y en tokens por segundo durante la generación. La latencia determina si un caso de uso es viable en tiempo real (asistente conversacional, atención al cliente) o solo en proceso por lotes (análisis nocturno, generación de informes).
Definición rápida
En IA, la latencia es el tiempo que tarda un modelo en producir una respuesta desde que recibe la pregunta. Se mide habitualmente en milisegundos hasta el primer token (TTFT) y en tokens por segundo durante la generación. La latencia determina si un caso de uso es viable en tiempo real (asistente conversacional, atención al cliente) o solo en proceso por lotes (análisis nocturno, generación de informes).
Explicación ampliada
Por qué importa para tu empresa
Para casos de uso en producción, la latencia es a menudo el factor determinante para elegir entre un modelo grande y uno pequeño. Un asistente que ayuda a un comercial mientras está al teléfono con un cliente no puede tardar 8 segundos en responder, aunque la respuesta sea brillante. Un sistema que genera el informe mensual de ventas sí puede permitirse esos 8 segundos a cambio de mayor calidad. Saber qué latencia toleran tus casos de uso permite ahorrar dinero usando modelos pequeños donde no se necesita el grande.
Ejemplo concreto
Una correduria de seguros probó dos configuraciones para su asistente al call center. La primera, con Claude Opus directo (modelo grande): respuestas excelentes pero 6 segundos de latencia, los agentes se desconcentraban esperando. La segunda, con Claude Haiku 4.5 (modelo pequeño, más rápido y más barato) configurado con un prompt sistema cuidado y RAG sobre las pólizas: 1,2 segundos de latencia, calidad un 12% inferior medida por encuesta a los propios agentes, pero adopción del 95% frente al 40% del modelo lento. La empresa eligió Haiku.