Datos sintéticos (synthetic data)
Los datos sintéticos son datos generados artificialmente —a menudo por otro modelo de IA— en lugar de recogidos del mundo real. Se usan para entrenar o ajustar modelos cuando los datos reales escasean, son caros, o no pueden usarse por privacidad. Son una herramienta potente pero con riesgos: si se generan mal, degradan el modelo y propagan sesgos.
Definición rápida
Los datos sintéticos son datos generados artificialmente —a menudo por otro modelo de IA— en lugar de recogidos del mundo real. Se usan para entrenar o ajustar modelos cuando los datos reales escasean, son caros, o no pueden usarse por privacidad. Son una herramienta potente pero con riesgos: si se generan mal, degradan el modelo y propagan sesgos.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa, los datos sintéticos resuelven a menudo el problema de "no tengo suficientes ejemplos" o "no puedo usar estos datos por privacidad", pero solo si se usan con criterio. La regla práctica: usarlos para aumentar y equilibrar, nunca como sustituto total de datos reales; validar siempre el modelo resultante contra un conjunto real reservado; y documentar que parte del entrenamiento fue sintético, porque es relevante para auditoría y para el AI Act. Generados sin control, parecen una solución y son una fuente silenciosa de degradación.
Ejemplo concreto
Una empresa de atención al cliente quería un clasificador de reclamaciones graves, pero apenas tenía 60 casos reales de la categoría más crítica (insuficientes para entrenar). En lugar de exponer transcripciones reales con datos personales, generaron 800 reclamaciones sintéticas variadas con un modelo de lenguaje, las revisó un supervisor humano, y se entrenó el clasificador con la mezcla. Validado contra los 60 casos reales reservados, el sistema alcanzó precisión suficiente. Clave del éxito: los datos reales nunca se usaron para entrenar, solo para validar, y un humano filtró lo sintético antes de usarlo.