Modelos de lenguaje (LLM)

Mezcla de expertos (MoE)

Mezcla de expertos (Mixture of Experts) es una arquitectura de modelo en la que, en lugar de un solo "cerebro" gigante, hay varios "expertos" especializados y un enrutador que decide cuáles usar para cada palabra. Permite tener modelos con muchísimos parámetros totales pero un coste por inferencia mucho menor.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

En un modelo denso clásico, cada token de entrada activa todos los parámetros del modelo. Si tiene 70B parámetros, cada palabra que el modelo procesa pasa por los 70B. En MoE, los parámetros se organizan en, por ejemplo, 32 "expertos" de 12B cada uno, y un componente llamado router decide qué 2 expertos activar para cada token. Resultado: el modelo tiene en total ~400B parámetros pero solo activa ~24B por token. Eso da la calidad de un modelo de 200-400B con el coste por respuesta de uno de 25-30B. Modelos públicos con esta arquitectura: Mixtral 8x7B y Mixtral 8x22B de Mistral, DeepSeek-V3 (671B totales, 37B activados), Llama 4 Maverick y Scout, así como (según se cree, no oficialmente confirmado) GPT-4 y sucesores. El precio del MoE: requiere más memoria para guardar todos los expertos, aunque solo uses unos pocos a la vez. Y el entrenamiento es más delicado por el balanceo de carga entre expertos.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que evalúa modelos abiertos para uso interno, el MoE es lo que permite que un modelo "tipo GPT-4" corra en hardware más razonable de lo que parecía hace dos años. DeepSeek-V3 es el ejemplo más comentado: calidad competitiva con los mejores modelos cerrados, distribución abierta, ejecutable en una máquina con 8 GPUs profesionales (cara pero asumible para una mediana empresa o un consorcio). Es la arquitectura que está acercando la IA frontera al on-premise.

Ejemplo concreto

Caso real

Un grupo editorial español comparó dos modelos abiertos para resúmenes de prensa: Llama 3.3 70B (denso) y Mixtral 8x22B (MoE, ~141B totales pero ~39B activos). Mixtral dio mejor calidad en pruebas A/B con sus editores y, sorprendentemente, fue un 30% más rápido por respuesta en su servidor de 8 GPUs, porque solo activaba parte de sus parámetros. Coste de hardware similar; coste eléctrico también. Eligieron Mixtral.