El Observatorio de la IA
Ciberaula Observatorio IA Glosario Infraestructura y técnica Caché de prompt (prompt caching)
Infraestructura y técnica

Caché de prompt (prompt caching)

La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas distintas a un modelo de IA, reduciendo coste y latencia. Si una empresa envía 10.000 veces al día al modelo el mismo prompt sistema largo seguido de preguntas distintas, la caché evita reprocesar el prompt sistema cada vez. Reduce costes hasta el 90% y latencia de primer token hasta el 80% en cargas reales.

Por Ana María González Actualizado: 28 de abril de 2026 Verificado vigente: 30 de abril de 2026

Definición rápida

Respuesta directa

La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas distintas a un modelo de IA, reduciendo coste y latencia. Si una empresa envía 10.000 veces al día al modelo el mismo prompt sistema largo seguido de preguntas distintas, la caché evita reprocesar el prompt sistema cada vez. Reduce costes hasta el 90% y latencia de primer token hasta el 80% en cargas reales.

Explicación ampliada

Sin caché de prompt, cada llamada al modelo es independiente: el sistema lee el prompt sistema entero, lo procesa internamente, y empieza a generar la respuesta. Si el prompt sistema tiene 50.000 tokens de contexto (manuales, ejemplos, base de conocimiento RAG), eso son 50.000 tokens de entrada que se procesan y se cobran cada vez que llega una pregunta de un usuario. La caché de prompt cambia ese patrón. La primera vez que el modelo recibe el prompt sistema, lo procesa normalmente y guarda el estado interno calculado. La segunda vez que recibe el mismo prompt sistema (o uno con el mismo prefijo), recupera ese estado de la caché y solo procesa las partes nuevas. El resultado es que las llamadas posteriores con prompt sistema repetido cuestan una fracción y son notablemente más rápidas. Las implementaciones varían por proveedor. <strong>Anthropic</strong> ofrece prompt caching explícito desde 2024: el desarrollador marca qué partes del prompt deben cachearse. Lectura de caché cuesta el 10% del precio normal de tokens de entrada. <strong>OpenAI</strong> tiene caché automática desde 2024 sin intervención del desarrollador, con descuento del 50% para tokens cacheados. <strong>Google</strong> ofrece context caching explícito en Gemini, con descuentos similares. El impacto en costes reales es enorme. Un asistente con prompt sistema de 30.000 tokens y 10.000 consultas diarias de promedio: sin caché, factura 90 dólares al día solo en procesamiento del prompt sistema; con caché, baja a 9 dólares. Anualizado: 32.000 dólares de ahorro al año sin cambiar absolutamente nada de funcionalidad.

Por qué importa para tu empresa

Aplicación práctica

Para cualquier empresa que use IA a volumen (chatbots con muchas consultas diarias, asistentes integrados en producto, análisis batch), la caché de prompt es la optimización que más reduce la factura mensual sin cambiar nada visible para el usuario. Para uso individual de IA (un usuario con su cuenta ChatGPT) no aplica directamente porque la gestión es interna del proveedor. En cambio para integraciones via API es la primera optimización a configurar.

Ejemplo concreto

Caso real

Una empresa de soporte técnico desplegó un chatbot interno con prompt sistema de 28.000 tokens (incluyendo manuales de productos y ejemplos de conversaciones). En el primer mes, sin caché de prompt, la factura de Anthropic fue de 1.840 dólares por 18.000 consultas. Activó prompt caching marcando los 28.000 tokens de prompt sistema como cacheables (caché válida 5 minutos en Anthropic). Al mes siguiente, con el mismo volumen de consultas, la factura bajó a 240 dólares. Ahorro: 1.600 dólares al mes. Tiempo de configuración: 30 minutos de un desarrollador.