Infraestructura y técnica

Aprendizaje federado (federated learning)

El aprendizaje federado es una técnica para entrenar un modelo de IA con datos distribuidos en muchos dispositivos o servidores, sin que esos datos salgan nunca de su origen. Cada participante entrena localmente con sus datos, y solo se comparten las actualizaciones del modelo (gradientes o pesos), que se agregan en un servidor central para producir el modelo global.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

El aprendizaje federado, popularizado por Google en 2017 con su uso en el teclado predictivo de Android (Gboard), invierte el modelo clásico de "todos los datos al servidor". En lugar de eso, "el modelo va a los datos". Etapa típica: el servidor envía la versión actual del modelo a N dispositivos o nodos; cada nodo entrena con sus datos locales unas pocas iteraciones; los nodos envían al servidor solo las actualizaciones de pesos (no los datos); el servidor las agrega (típicamente con FedAvg) y produce la nueva versión global; se repite. La técnica se complementa con privacidad diferencial (añadir ruido a las actualizaciones), agregación segura (los pesos se cifran de forma que ni el servidor ve los individuales) y compresión (las actualizaciones pesan menos que los datos). Casos de uso emblemáticos: Gboard de Google, Apple Intelligence aprendiendo de uso del iPhone sin enviar datos personales, hospitales colaborando para entrenar modelos médicos sin compartir historias clínicas (proyectos como Owkin Connect, MELLODDY en farma), bancos detectando fraude colaborativamente sin compartir datos de transacciones. Frameworks abiertos: TensorFlow Federated, PySyft, Flower, OpenFL de Intel.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, el aprendizaje federado es la respuesta técnica al dilema "queremos beneficiarnos de aprendizaje colaborativo pero no podemos compartir datos". Los casos donde compensa son: salud (hospitales colaborando), finanzas (entidades detectando fraude conjuntamente), industria (fabricantes optimizando sin revelar procesos), telecom (operadores con datos de red). Las limitaciones reales: la implementación es compleja, requiere coordinación entre participantes, los modelos resultantes suelen rendir un 5-15% peor que un entrenamiento centralizado equivalente, y existen ataques específicos (envenenamiento del modelo desde un nodo, inferencia de datos a partir de los gradientes). Para casos típicos de empresa, el coste y la complejidad rara vez compensan; conviene cuando hay una colaboración multi-organización con incentivo claro y datos imposibles de centralizar por motivos legales.

Ejemplo concreto

Caso real

Un consorcio de cinco hospitales españoles colaboró en 2024-2025 para entrenar un modelo de detección temprana de sepsis a partir de historiales clínicos. La centralización de datos era inviable por RGPD, secreto profesional médico y por separación entre titulares. Implementación con federated learning vía Owkin Connect: cada hospital entrena localmente con sus pacientes, las actualizaciones se agregan en servidor neutro auditado. Modelo resultante: AUC 0,89 (vs 0,84 del mejor modelo individual), validado con datos retrospectivos de los cinco. Coste del proyecto: ~340.000 € repartidos. Resultado científico publicable y modelo desplegable en cada hospital con sus datos locales. Caso de uso paradigmático del valor real de federated learning donde la centralización era simplemente imposible.