El Observatorio de la IA
Ciberaula Observatorio IA Glosario Infraestructura y técnica Coste por token (input/output)
Infraestructura y técnica

Coste por token (input/output)

El coste por token es lo que un proveedor de IA cobra por cada millón de tokens de entrada (input) y de salida (output) que procesa un modelo. Es la métrica fundamental para presupuestar IA en empresa: dos modelos pueden tener calidad parecida pero diferir 5-10x en coste, y los precios del input y del output suelen ser muy distintos.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

El coste por token es lo que un proveedor de IA cobra por cada millón de tokens de entrada (input) y de salida (output) que procesa un modelo. Es la métrica fundamental para presupuestar IA en empresa: dos modelos pueden tener calidad parecida pero diferir 5-10x en coste, y los precios del input y del output suelen ser muy distintos.

Explicación ampliada

Los proveedores de IA como servicio cobran por uso, no por suscripción, y la unidad es el token (ver "Tokenización"). Las tarifas se publican en USD por millón de tokens (M tokens) y diferencian input (lo que envías al modelo: prompt + contexto) y output (lo que el modelo te devuelve). En mayo de 2026 las tarifas de referencia son: Claude Opus 4.7 $5 / $25 por millón (input/output); Claude Sonnet 4.6 $3 / $15; Claude Haiku 4.5 $1 / $5; GPT-5.2 $1.75 / $14; GPT-4o $2.50 / $10; Gemini 3.1 Pro $2 / $12; Gemini 3 Flash $0.50 / $3; Grok 4.1 $0.20 / $0.50. Patrón general: el output cuesta entre 4 y 8 veces más que el input. Los descuentos importantes a aprovechar: Batch API (procesamiento asíncrono diferido, normalmente con SLA de 24 h) descuenta el 50%; prompt caching (reutilizar prefijos del prompt entre llamadas) puede ahorrar hasta el 90% sobre los tokens cacheados. Combinando ambos, el coste efectivo puede bajar hasta el 95% del de tarifa estándar para cargas de trabajo bien diseñadas.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, el cálculo correcto antes de adoptar un caso de uso a escala es: tokens promedio por petición × peticiones al mes × precio del modelo. La trampa típica es subestimar el output (porque cuesta más): si una petición media usa 2.000 tokens de input pero el modelo responde con 500 tokens, en Sonnet 4.6 el output ($15/M × 500 = $0.0075) cuesta más que el input ($3/M × 2.000 = $0.006). Otro error frecuente: contar tokens "como palabras". En español, multiplica por 1,3-1,5 lo que estimes. Y a la hora de comparar proveedores, siempre comparar sobre tu carga real con tus prompts, no sobre cifras de marketing.

Ejemplo concreto

Caso real

Un servicio de atención al cliente con 30.000 tickets/mes contemplaba usar IA para borradores de respuesta. Estimación inicial: 1.500 tokens input + 400 output por ticket. En Sonnet 4.6: (45 M × $3) + (12 M × $15) = $135 + $180 = $315/mes. Mismo cálculo en Haiku 4.5: (45 M × $1) + (12 M × $5) = $45 + $60 = $105/mes. Probaron ambos, Haiku daba calidad suficiente para el 70% de tickets sencillos. Diseñaron un enrutador: Haiku para los simples, Sonnet solo para los complejos. Coste mensual real: ~$140. Ahorro vs usar siempre Sonnet: 55%. Misma calidad percibida.