Caché de prompt (prompt caching)
La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas distintas a un modelo de IA, reduciendo coste y latencia. Si una empresa envía 10.000 veces al día al modelo el mismo prompt sistema largo seguido de preguntas distintas, la caché evita reprocesar el prompt sistema cada vez. Reduce costes hasta el 90% y latencia de primer token hasta el 80% en cargas reales.
Definición rápida
La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas distintas a un modelo de IA, reduciendo coste y latencia. Si una empresa envía 10.000 veces al día al modelo el mismo prompt sistema largo seguido de preguntas distintas, la caché evita reprocesar el prompt sistema cada vez. Reduce costes hasta el 90% y latencia de primer token hasta el 80% en cargas reales.
Explicación ampliada
Por qué importa para tu empresa
Para cualquier empresa que use IA a volumen (chatbots con muchas consultas diarias, asistentes integrados en producto, análisis batch), la caché de prompt es la optimización que más reduce la factura mensual sin cambiar nada visible para el usuario. Para uso individual de IA (un usuario con su cuenta ChatGPT) no aplica directamente porque la gestión es interna del proveedor. En cambio para integraciones via API es la primera optimización a configurar.
Ejemplo concreto
Una empresa de soporte técnico desplegó un chatbot interno con prompt sistema de 28.000 tokens (incluyendo manuales de productos y ejemplos de conversaciones). En el primer mes, sin caché de prompt, la factura de Anthropic fue de 1.840 dólares por 18.000 consultas. Activó prompt caching marcando los 28.000 tokens de prompt sistema como cacheables (caché válida 5 minutos en Anthropic). Al mes siguiente, con el mismo volumen de consultas, la factura bajó a 240 dólares. Ahorro: 1.600 dólares al mes. Tiempo de configuración: 30 minutos de un desarrollador.