KV cache (caché de claves y valores)
El KV cache es la memoria temporal donde un modelo de lenguaje guarda los cálculos intermedios de la atención durante la generación de una respuesta. Permite no recalcular desde cero los tokens anteriores cada vez que se genera uno nuevo. Es uno de los componentes que más memoria de GPU consume en inferencia.
Definición rápida
El KV cache es la memoria temporal donde un modelo de lenguaje guarda los cálculos intermedios de la atención durante la generación de una respuesta. Permite no recalcular desde cero los tokens anteriores cada vez que se genera uno nuevo. Es uno de los componentes que más memoria de GPU consume en inferencia.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa, el KV cache importa indirectamente por la función de "prompt caching" que ofrecen Claude, OpenAI, Google y otros proveedores. Si tus llamadas comparten un prefijo común (un system prompt largo, una guía de estilo, ejemplos few-shot), activar caching puede reducir los costes de input hasta el 90% para los tokens cacheados. La implementación es trivial: en la API de Claude, marcar con cache_control la sección a cachear. En cargas de trabajo con prompts repetitivos, esto cambia el cálculo del coste por completo.
Ejemplo concreto
Una agencia de marketing tenía un asistente de redacción con un prompt sistema de ~3.500 tokens (instrucciones, tono, ejemplos). Cada llamada (10.000 al mes) procesaba esos 3.500 tokens. Coste mensual de input en Claude Sonnet sin caching: 10.000 × 3.500 × $3/M = $105/mes solo por el prompt sistema. Activaron caching de 1 hora: pagan el prefijo cacheado al 10% ($0.30/M en lugar de $3). Coste tras caching: ~$10.50/mes en la parte cacheada. Ahorro: ~$94/mes con un cambio de tres líneas de código. Para clientes más grandes con volúmenes de millones de llamadas, los ahorros son del orden de miles de euros mensuales.