Infraestructura y técnica

KV cache (caché de claves y valores)

El KV cache es la memoria temporal donde un modelo de lenguaje guarda los cálculos intermedios de la atención durante la generación de una respuesta. Permite no recalcular desde cero los tokens anteriores cada vez que se genera uno nuevo. Es uno de los componentes que más memoria de GPU consume en inferencia.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Cuando un modelo genera el token N, el mecanismo de atención necesita comparar el token N con todos los tokens anteriores (1 a N-1). Sin caché, esos cálculos se repetirían cada vez que se genera un token nuevo. El KV cache resuelve este desperdicio: durante la primera pasada del prompt, se calculan y guardan las claves (K) y valores (V) de cada token. Cuando llega el token N+1, no hay que recalcular las K y V de los anteriores; basta con calcular las del nuevo y combinar con la caché. El truco hace la generación viable. Pero el KV cache crece linealmente con la longitud del contexto y con el número de capas y cabezas de atención: para un modelo de 70B con 100K tokens de contexto puede ocupar decenas de GB de memoria de GPU. Optimizaciones modernas: paged attention (vLLM, dispone la caché en bloques como un sistema de paginación), KV cache compression (FP8, INT4 quantization de la caché), context caching o prompt caching de los proveedores de API (cobran solo el 10% del precio de input por tokens cacheados). Esta última es relevante para empresas: si tu prompt sistema es estable entre llamadas, hay que activar caching y ahorrar hasta 90% en input.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, el KV cache importa indirectamente por la función de "prompt caching" que ofrecen Claude, OpenAI, Google y otros proveedores. Si tus llamadas comparten un prefijo común (un system prompt largo, una guía de estilo, ejemplos few-shot), activar caching puede reducir los costes de input hasta el 90% para los tokens cacheados. La implementación es trivial: en la API de Claude, marcar con cache_control la sección a cachear. En cargas de trabajo con prompts repetitivos, esto cambia el cálculo del coste por completo.

Ejemplo concreto

Caso real

Una agencia de marketing tenía un asistente de redacción con un prompt sistema de ~3.500 tokens (instrucciones, tono, ejemplos). Cada llamada (10.000 al mes) procesaba esos 3.500 tokens. Coste mensual de input en Claude Sonnet sin caching: 10.000 × 3.500 × $3/M = $105/mes solo por el prompt sistema. Activaron caching de 1 hora: pagan el prefijo cacheado al 10% ($0.30/M en lugar de $3). Coste tras caching: ~$10.50/mes en la parte cacheada. Ahorro: ~$94/mes con un cambio de tres líneas de código. Para clientes más grandes con volúmenes de millones de llamadas, los ahorros son del orden de miles de euros mensuales.