Tokenización
La tokenización es el proceso por el que un texto se rompe en piezas pequeñas (tokens) que el modelo puede procesar numéricamente. No siempre coincide con palabras: "extraordinario" puede ser 1 token o 4 tokens según el tokenizador. Es lo que explica por qué el español "cuesta" más caro que el inglés en muchos modelos.
Definición rápida
La tokenización es el proceso por el que un texto se rompe en piezas pequeñas (tokens) que el modelo puede procesar numéricamente. No siempre coincide con palabras: "extraordinario" puede ser 1 token o 4 tokens según el tokenizador. Es lo que explica por qué el español "cuesta" más caro que el inglés en muchos modelos.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa española con uso intensivo de IA, esto deja de ser una curiosidad y se vuelve dinero. Si una compañía paga 6.000 €/mes en API por trabajar todos sus documentos en español, podría estar pagando 4.500-5.000 € si esos mismos documentos se procesaran en inglés. La decisión correcta no es traducir todo al inglés (se pierden matices), pero sí: medir cuántos tokens están consumiendo de verdad sus prompts típicos antes de elegir modelo, y comparar tokenizadores entre proveedores como factor del coste real.
Ejemplo concreto
Una consultora con 4 millones de tokens-mes en Sonnet 4.6 ($3 input por millón) calculó: 4 M × $3 = $12/mes solo en input, suena trivial. Pero al revisar logs descubrió que en realidad sus 1,5 M de palabras españolas se contabilizaban como 4 M de tokens (factor 2,7x palabra→token), no como 1,5 M directos. Y al pasar la misma carga a Opus 4.7, los tokens subieron a 5,3 M por el nuevo tokenizador. Decidieron quedarse en Sonnet hasta hacer prueba A/B de calidad real.