Conceptos fundamentales

Datos sintéticos (synthetic data)

Los datos sintéticos son datos generados artificialmente —a menudo por otro modelo de IA— en lugar de recogidos del mundo real. Se usan para entrenar o ajustar modelos cuando los datos reales escasean, son caros, o no pueden usarse por privacidad. Son una herramienta potente pero con riesgos: si se generan mal, degradan el modelo y propagan sesgos.

Por Ana María González Actualizado: 16 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Conseguir datos reales etiquetados de calidad es uno de los cuellos de botella de la IA aplicada: cuestan tiempo, dinero, y muchas veces contienen información personal que el RGPD restringe. Los datos sintéticos ofrecen una salida: generar ejemplos artificiales que imitan la distribución de los reales. Casos típicos: aumentar un conjunto pequeño de ejemplos, crear casos raros que rara vez aparecen pero importan, o sustituir datos personales por equivalentes ficticios estadísticamente similares para poder trabajar sin exponer información real. La técnica madura rápidamente, pero tiene dos riesgos serios. El primero es el colapso del modelo: si se entrena recursivamente con datos generados por IA sin suficiente anclaje en datos reales, la calidad se degrada progresivamente. El segundo es el sesgo: los datos sintéticos heredan y a veces amplifican los sesgos del modelo que los generó, con la falsa apariencia de objetividad por ser "datos nuevos". Por eso los datos sintéticos no eliminan la necesidad de datos reales de calidad ni la de auditar sesgos; los complementan bajo control.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, los datos sintéticos resuelven a menudo el problema de "no tengo suficientes ejemplos" o "no puedo usar estos datos por privacidad", pero solo si se usan con criterio. La regla práctica: usarlos para aumentar y equilibrar, nunca como sustituto total de datos reales; validar siempre el modelo resultante contra un conjunto real reservado; y documentar que parte del entrenamiento fue sintético, porque es relevante para auditoría y para el AI Act. Generados sin control, parecen una solución y son una fuente silenciosa de degradación.

Ejemplo concreto

Caso real

Una empresa de atención al cliente quería un clasificador de reclamaciones graves, pero apenas tenía 60 casos reales de la categoría más crítica (insuficientes para entrenar). En lugar de exponer transcripciones reales con datos personales, generaron 800 reclamaciones sintéticas variadas con un modelo de lenguaje, las revisó un supervisor humano, y se entrenó el clasificador con la mezcla. Validado contra los 60 casos reales reservados, el sistema alcanzó precisión suficiente. Clave del éxito: los datos reales nunca se usaron para entrenar, solo para validar, y un humano filtró lo sintético antes de usarlo.