Modelos de lenguaje (LLM)

Atención (mecanismo de atención)

La atención es el mecanismo matemático por el que un modelo de lenguaje, al procesar una palabra, "mira" a otras palabras del contexto y les asigna pesos según cuánto importan para entender la actual. Es el componente clave del transformer y la razón por la que los modelos modernos entienden referencias y dependencias largas.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Cuando una frase dice "María dejó las llaves en la mesa porque pesaban demasiado", para entender a qué se refiere "pesaban" un humano vuelve mentalmente a "llaves". El mecanismo de atención hace lo equivalente para el modelo. Por cada token, calcula tres vectores —query (consulta), key (clave) y value (valor)— y los compara con los de todos los demás tokens del contexto. La similitud entre query del token actual y key de cada otro token produce un peso de atención: cuánto va a influir cada token en la representación del actual. Después suma los values ponderados por esos pesos. El resultado: el token actual se enriquece con información relevante de todos los demás. La "self-attention" es cuando esto se hace dentro de la misma secuencia. Hay variantes: atención multi-cabeza (varios mecanismos en paralelo, cada uno aprendiendo a fijarse en cosas distintas), atención causal (solo se mira hacia atrás, usada en GPT y otros modelos generativos), atención cruzada (entre dos secuencias, usada en traducción). El coste computacional crece como n² donde n es la longitud de la secuencia, lo que explica por qué el contexto largo sale caro.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa no hace falta entender las matemáticas, pero sí saber tres consecuencias prácticas. (1) La atención es lo que permite que el modelo siga el hilo de un documento largo o de un código entero —cuanto mejor está implementada, mejor entiende el modelo. (2) El coste cuadrático es la razón por la que los precios suben cuando metes contextos enormes: procesar 200K tokens cuesta cuatro veces más que procesar 100K, no el doble. (3) Las mejoras recientes (Flash Attention, sliding window, atención dispersa) se centran en reducir ese coste, lo que está abaratando los contextos largos.

Ejemplo concreto

Caso real

Una empresa que procesaba contratos de 80-150 páginas con un modelo IA notó que los costes API mensuales saltaron de 800 € a 3.400 € cuando empezaron a meter contratos enteros (~120K tokens) en lugar de fragmentos (~30K). Investigando, su CTO descubrió que el coste por petición no era lineal con el tamaño: cuadruplicaron contexto pero el coste se multiplicó por 16 por la naturaleza cuadrática de la atención del modelo elegido. Migraron a un modelo con atención optimizada y recortaron a 1.900 € sin perder calidad.