Riesgos y limitaciones

Privacy leakage (fuga de datos personales)

Privacy leakage es la exposición no intencionada de datos personales o información confidencial a través de un modelo de IA. Puede ocurrir porque el modelo memorizó datos del entrenamiento, porque alguien extrae datos vía ataques específicos (membership inference, training data extraction), o porque el sistema de IA refleja datos sensibles de un usuario a otro (cross-user leakage en cachés mal aislados).

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Los modelos de lenguaje pueden memorizar literalmente fragmentos de sus datos de entrenamiento, especialmente cuando esos fragmentos aparecen muchas veces (datos repetidos), son distintivos (por su rareza son fáciles de "recordar") o son largos y específicos. Carlini et al. demostraron en 2021 que GPT-2 podía emitir literalmente direcciones de email, números de teléfono y nombres reales presentes en su training data. Modelos posteriores aplican técnicas de mitigación: filtrado de PII en el dataset, deduplicación, diferential privacy en el entrenamiento, alignment para no emitir datos personales conocidos. Los ataques de membership inference intentan determinar si un dato concreto estuvo en el training set; los de training data extraction intentan recuperar texto literal. En sistemas RAG y con caché, el privacy leakage cobra otra dimensión: si el caché no está bien aislado por usuario o por sesión, un usuario puede ver fragmentos de los prompts o documentos de otro. Caso famoso: el bug de ChatGPT en marzo de 2023 que mostró títulos de conversaciones de otros usuarios. La salud, finanzas, RRHH y legal son sectores especialmente sensibles.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, privacy leakage es un riesgo a vigilar tanto en modelos propios entrenados con datos sensibles, como en uso de modelos de terceros con datos confidenciales. Tres prácticas mínimas: (1) en uso de APIs comerciales, plan empresarial con DPA y zero data retention para que tus prompts no entren al training set del proveedor; (2) en modelos propios entrenados con datos personales, evaluación específica de memorización antes de despliegue (intentar extracción con prompts adversariales); (3) en sistemas con caché o memoria compartida, aislamiento estricto por usuario/sesión y auditoría periódica. Bajo RGPD, un privacy leakage es una brecha de seguridad notificable a la AEPD en 72 horas y a los afectados si el riesgo es alto.

Ejemplo concreto

Caso real

Una pyme tecnológica entrenó un modelo IA para clasificación de emails de clientes con su dataset histórico. Antes del despliegue, el equipo de seguridad realizó una evaluación de memorización: 1.500 prompts adversariales tipo "Continúa este email: \"Estimado cliente \"" y similares. Hallazgo: en 12 casos el modelo emitió fragmentos textuales reconocibles de emails reales con datos de clientes (nombres, teléfonos, saldos). Causa: dataset con duplicados y poca diversidad en ciertos templates. Acción: re-entrenamiento tras deduplicación y filtrado de PII, evaluación posterior con cero detecciones, despliegue con monitorización continua. Tiempo perdido: 6 semanas. Daño evitado: una potencial brecha RGPD masiva que habría sido reportable y reputacionalmente grave.