El Observatorio de la IA
Conceptos fundamentales

Transformer

El transformer es la arquitectura de red neuronal que está detrás de prácticamente todos los grandes modelos de IA actuales (GPT, Claude, Gemini, Llama, DeepSeek). Fue presentada en 2017 por investigadores de Google en el paper "Attention is all you need" y revolucionó el campo al hacer posible procesar secuencias largas de forma eficiente.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

El transformer es la arquitectura de red neuronal que está detrás de prácticamente todos los grandes modelos de IA actuales (GPT, Claude, Gemini, Llama, DeepSeek). Fue presentada en 2017 por investigadores de Google en el paper "Attention is all you need" y revolucionó el campo al hacer posible procesar secuencias largas de forma eficiente.

Explicación ampliada

Antes de 2017, el procesamiento de lenguaje en redes neuronales se hacía con redes recurrentes (RNN, LSTM): leían la frase palabra por palabra de izquierda a derecha, manteniendo un estado interno. Eran lentas de entrenar (no se paralelizaban bien) y tenían dificultades con dependencias largas (perdían el contexto del principio de un párrafo cuando llegaban al final). El transformer introdujo dos innovaciones clave. Primero, la atención (self-attention): cada palabra puede "mirar" directamente a cualquier otra palabra de la secuencia, sin pasar secuencialmente por las intermedias, lo que captura dependencias largas. Segundo, todo el procesamiento es paralelizable, lo que permite entrenarlo en miles de GPUs a la vez con eficiencia. Los transformers se aplicaron primero a traducción y luego a generación de texto (GPT-1 en 2018, BERT, T5…), después a imagen (Vision Transformer, 2020), audio (Whisper), vídeo (Sora) y multimodalidad. Hoy son el "ladrillo" universal del que están hechos todos los modelos frontera.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa esta palabra importa por dos motivos prácticos. El primero es entender que cuando un proveedor habla de "modelo basado en transformer" no está aportando nada distintivo: todos lo son. Las diferencias reales están en tamaño, datos de entrenamiento, fine-tuning y RLHF, no en la arquitectura. Lo segundo, los transformers heredan limitaciones específicas: el coste de la atención crece cuadráticamente con la longitud del contexto (procesar 100K tokens cuesta más del doble que procesar 50K), lo que explica las ventanas de contexto y sus precios.

Ejemplo concreto

Caso real

En la documentación técnica que recibió un equipo de IT al evaluar tres proveedores de asistentes para empresa, los tres anunciaban "tecnología transformer state-of-the-art". El evaluador inicialmente lo tomó como factor diferenciador. Tras profundizar entendió que era equivalente a tres fabricantes de coches anunciando "motor de combustión interna": cierto y útil saberlo, pero no algo que distinguiese unos de otros. Las preguntas que sí distinguían eran "¿qué tamaño de modelo?", "¿con qué datos entrenado?", "¿con qué políticas de RLHF?".