Infraestructura y técnica

GPU clustering (H100, H200, B200, NVLink)

GPU clustering es la técnica de conectar muchas GPUs entre sí para entrenar o servir modelos demasiado grandes para caber en una sola tarjeta. Se basa en interconexiones de muy alto ancho de banda (NVLink, NVSwitch, InfiniBand) que permiten que decenas o miles de GPUs se comporten como un único sistema cooperativo.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Los modelos frontera de 2026 (centenares de miles de millones de parámetros, contextos de 1M tokens) son demasiado grandes para una sola GPU. Hay que repartirlos. Las técnicas: tensor parallelism (cada GPU tiene una porción de cada capa), pipeline parallelism (cada GPU tiene un grupo de capas), data parallelism (cada GPU procesa un batch distinto), expert parallelism (en MoE, cada GPU tiene unos expertos). Combinarlas bien es no trivial. El hardware NVIDIA Hopper marcó el camino: GPU H100 con 80 GB de HBM3, conectadas con NVLink (900 GB/s entre 8 GPUs en un servidor DGX/HGX) y entre nodos con InfiniBand 400G NDR. Su sucesora, NVIDIA Hopper H200 (memoria HBM3e 141 GB), llegó en 2024. La generación Blackwell (B100, B200, GB200) llegó en 2024-2025 con FP4 nativo y NVLink 5 (1,8 TB/s entre GPUs); GB200 NVL72 conecta 72 GPUs en un solo dominio NVLink. La generación siguiente Rubin se anuncia para 2026-2027. Frameworks que orquestan el clustering: NVIDIA Megatron-LM, DeepSpeed (Microsoft), FSDP de PyTorch, JAX/TPU para Google. Las cargas de entrenamiento de modelos frontera ocupan miles de GPUs durante semanas; las de inferencia ocupan decenas a centenares.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa media, GPU clustering casi nunca es algo que se compre o construya: lo manejan los hyperscalers y los proveedores de modelos. Importa indirectamente para tres cosas. Primero, los precios y la disponibilidad de los modelos vienen del coste de estos clusters; cuando hay escasez de GPUs, los precios suben. Segundo, los proveedores de inferencia (Together AI, Lambda Labs, CoreWeave, Crusoe) ofrecen acceso a clusters por horas; útil si tu empresa entrena un modelo a medida o despliega uno abierto a gran escala. Tercero, conviene saberlo si negocias compras de capacidad cloud reservada para cargas IA propias: 2-4 GPUs H100 para un fine-tuning serio o despliegue mediano son ya un proyecto de cinco a seis dígitos.

Ejemplo concreto

Caso real

Una empresa española de servicios profesionales valoró internamente desplegar un modelo Llama 3.3 70B propio para garantizar privacidad sobre datos de cliente. Cálculo: 2 GPUs H100 alquiladas en cloud (~$3,5 USD/hora cada una en 2026) en 24/7 = ~5.000 USD/mes en hardware, más electricidad y operación. Equipo de 1 ingeniero para mantenerlo: ~6.000 €/mes. Total ~12.000 €/mes. Volumen estimado: 10 M tokens/día. Misma carga vía Anthropic API: ~3.500 USD/mes. Conclusión: a su volumen no compensa cluster propio; quedaron en API empresarial con DPA y zero data retention. Si el volumen creciera 10x, la ecuación se invertiría. La respuesta correcta dependía de su escala, no de un argumento abstracto sobre privacidad.