Prompt leaking (fuga de prompt)
Prompt leaking es un tipo de ataque en el que un usuario consigue que un asistente IA revele su prompt de sistema —las instrucciones internas que recibió de la empresa que lo configuró—, exponiendo a veces información sensible sobre cómo funciona, qué reglas tiene o qué datos puede acceder. Es la versión "exfiltración" de la inyección de prompt.
Definición rápida
Prompt leaking es un tipo de ataque en el que un usuario consigue que un asistente IA revele su prompt de sistema —las instrucciones internas que recibió de la empresa que lo configuró—, exponiendo a veces información sensible sobre cómo funciona, qué reglas tiene o qué datos puede acceder. Es la versión "exfiltración" de la inyección de prompt.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa con asistentes IA expuestos a clientes o público general, el prompt leaking es un riesgo de propiedad intelectual y de seguridad operativa. Si tu prompt contiene datos sensibles, asume que tarde o temprano se exfiltrarán y diseña en consecuencia. Mitigaciones prácticas: no incluir datos sensibles en el prompt, ponerlos en herramientas a las que el modelo accede solo cuando los necesita; añadir instrucciones explícitas anti-leak en el propio prompt (ayuda algo, no es bala de plata); validar respuestas con un segundo paso que detecte si el modelo está revelando el prompt; evaluar regularmente con un "red team" que intente extraerlo.
Ejemplo concreto
Una marca de retail tenía un asistente de productos en su web. Su prompt incluía la regla "si el cliente menciona al competidor X o al producto Y de la competencia, responde con el guion comercial Z". Un periodista hizo prompt leaking en 20 minutos y publicó capturas. Resultado: artículo de prensa hostil, polémica en redes, y la regla "no hablar mal de la competencia" tuvo que rediseñarse de raíz como sistema separado, no como pretexto del prompt. Tras el incidente reformaron el sistema: el prompt es ahora genérico ("eres asesor neutral"), las reglas comerciales sensibles viven en una capa de filtros y reglas que el modelo no puede revelar.