Transformer
El transformer es la arquitectura de red neuronal que está detrás de prácticamente todos los grandes modelos de IA actuales (GPT, Claude, Gemini, Llama, DeepSeek). Fue presentada en 2017 por investigadores de Google en el paper "Attention is all you need" y revolucionó el campo al hacer posible procesar secuencias largas de forma eficiente.
Definición rápida
El transformer es la arquitectura de red neuronal que está detrás de prácticamente todos los grandes modelos de IA actuales (GPT, Claude, Gemini, Llama, DeepSeek). Fue presentada en 2017 por investigadores de Google en el paper "Attention is all you need" y revolucionó el campo al hacer posible procesar secuencias largas de forma eficiente.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa esta palabra importa por dos motivos prácticos. El primero es entender que cuando un proveedor habla de "modelo basado en transformer" no está aportando nada distintivo: todos lo son. Las diferencias reales están en tamaño, datos de entrenamiento, fine-tuning y RLHF, no en la arquitectura. Lo segundo, los transformers heredan limitaciones específicas: el coste de la atención crece cuadráticamente con la longitud del contexto (procesar 100K tokens cuesta más del doble que procesar 50K), lo que explica las ventanas de contexto y sus precios.
Ejemplo concreto
En la documentación técnica que recibió un equipo de IT al evaluar tres proveedores de asistentes para empresa, los tres anunciaban "tecnología transformer state-of-the-art". El evaluador inicialmente lo tomó como factor diferenciador. Tras profundizar entendió que era equivalente a tres fabricantes de coches anunciando "motor de combustión interna": cierto y útil saberlo, pero no algo que distinguiese unos de otros. Las preguntas que sí distinguían eran "¿qué tamaño de modelo?", "¿con qué datos entrenado?", "¿con qué políticas de RLHF?".