Modelos de lenguaje (LLM)

Tokenización

La tokenización es el proceso por el que un texto se rompe en piezas pequeñas (tokens) que el modelo puede procesar numéricamente. No siempre coincide con palabras: "extraordinario" puede ser 1 token o 4 tokens según el tokenizador. Es lo que explica por qué el español "cuesta" más caro que el inglés en muchos modelos.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Un modelo de lenguaje no procesa caracteres ni palabras directamente: procesa tokens, que son piezas de texto de longitud variable mapeadas a números enteros. Casi todos los tokenizadores modernos usan algoritmos como Byte Pair Encoding (BPE) o SentencePiece, que aprenden estadísticamente qué secuencias son frecuentes y merecen un token propio. Los tokenizadores de los grandes modelos están entrenados sobre todo con texto en inglés, así que las palabras inglesas comunes son normalmente 1 token, mientras que palabras españolas largas o con muchas tildes pueden ser 2-4 tokens. Reglas de andar por casa: 1 token ≈ 4 caracteres en inglés, ≈ 3 caracteres en español, ≈ 1-2 caracteres en idiomas como chino, japonés, árabe o coreano. Esto tiene un efecto económico y de capacidad: el mismo texto, traducido al español, suele ocupar un 15-30% más de tokens que en inglés. Para textos en chino o árabe, puede ocupar el doble o más. Cada modelo trae su propio tokenizador; no son intercambiables. Cambiar de modelo a uno con tokenizador distinto puede mover los costes de forma inesperada (Claude Opus 4.7, por ejemplo, lanzó un tokenizador nuevo que produce hasta un 35% más tokens que Opus 4.6 con el mismo texto).

Por qué importa para tu empresa

Aplicación práctica

Para una empresa española con uso intensivo de IA, esto deja de ser una curiosidad y se vuelve dinero. Si una compañía paga 6.000 €/mes en API por trabajar todos sus documentos en español, podría estar pagando 4.500-5.000 € si esos mismos documentos se procesaran en inglés. La decisión correcta no es traducir todo al inglés (se pierden matices), pero sí: medir cuántos tokens están consumiendo de verdad sus prompts típicos antes de elegir modelo, y comparar tokenizadores entre proveedores como factor del coste real.

Ejemplo concreto

Caso real

Una consultora con 4 millones de tokens-mes en Sonnet 4.6 ($3 input por millón) calculó: 4 M × $3 = $12/mes solo en input, suena trivial. Pero al revisar logs descubrió que en realidad sus 1,5 M de palabras españolas se contabilizaban como 4 M de tokens (factor 2,7x palabra→token), no como 1,5 M directos. Y al pasar la misma carga a Opus 4.7, los tokens subieron a 5,3 M por el nuevo tokenizador. Decidieron quedarse en Sonnet hasta hacer prueba A/B de calidad real.