Atención (mecanismo de atención)
La atención es el mecanismo matemático por el que un modelo de lenguaje, al procesar una palabra, "mira" a otras palabras del contexto y les asigna pesos según cuánto importan para entender la actual. Es el componente clave del transformer y la razón por la que los modelos modernos entienden referencias y dependencias largas.
Definición rápida
La atención es el mecanismo matemático por el que un modelo de lenguaje, al procesar una palabra, "mira" a otras palabras del contexto y les asigna pesos según cuánto importan para entender la actual. Es el componente clave del transformer y la razón por la que los modelos modernos entienden referencias y dependencias largas.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa no hace falta entender las matemáticas, pero sí saber tres consecuencias prácticas. (1) La atención es lo que permite que el modelo siga el hilo de un documento largo o de un código entero —cuanto mejor está implementada, mejor entiende el modelo. (2) El coste cuadrático es la razón por la que los precios suben cuando metes contextos enormes: procesar 200K tokens cuesta cuatro veces más que procesar 100K, no el doble. (3) Las mejoras recientes (Flash Attention, sliding window, atención dispersa) se centran en reducir ese coste, lo que está abaratando los contextos largos.
Ejemplo concreto
Una empresa que procesaba contratos de 80-150 páginas con un modelo IA notó que los costes API mensuales saltaron de 800 € a 3.400 € cuando empezaron a meter contratos enteros (~120K tokens) en lugar de fragmentos (~30K). Investigando, su CTO descubrió que el coste por petición no era lineal con el tamaño: cuadruplicaron contexto pero el coste se multiplicó por 16 por la naturaleza cuadrática de la atención del modelo elegido. Migraron a un modelo con atención optimizada y recortaron a 1.900 € sin perder calidad.