Model extraction (robo de modelo)
Model extraction es un ataque en el que alguien con acceso solo a las respuestas de un modelo (vía API o UI) intenta entrenar un modelo propio que replique sus capacidades, sin pagar por el entrenamiento original. La técnica está bien documentada y motiva muchas restricciones de uso de los proveedores comerciales.
Definición rápida
Model extraction es un ataque en el que alguien con acceso solo a las respuestas de un modelo (vía API o UI) intenta entrenar un modelo propio que replique sus capacidades, sin pagar por el entrenamiento original. La técnica está bien documentada y motiva muchas restricciones de uso de los proveedores comerciales.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa la palabra importa por dos lados. Como usuaria de un modelo cerrado, los términos de servicio prohíben extraer; violarlos puede costar la cuenta, una demanda y reputación. Como propietaria de un modelo propio (fine-tuned, entrenado), debe saber que no puede impedir totalmente la extracción si lo expone vía API: puede dificultarla pero no impedirla, así que el modelo no debería contener datos confidenciales que su exfiltración vía outputs sería un problema. Para modelos sensibles, conviene desplegar capas de seguridad: rate limiting agresivo, monitorización de patrones, advertencias contractuales claras.
Ejemplo concreto
Una startup que ofrecía un servicio de clasificación legal con un modelo fine-tuned propio observó tráfico anómalo: una IP recibía 80.000 consultas al mes con prompts repetitivos y diversos, manifiestamente automatizado. Investigaron: era un competidor lanzando millones de pares pregunta-respuesta para entrenar su clon. La startup endureció el rate limit por cuenta a 1.000 consultas/día por defecto, añadió detección de patrones (consultas casi idénticas con pequeñas variaciones) y watermarking sutil en respuestas. Aun así, la cuenta atacante había recogido material para un fine-tuning útil; la lección fue que el modelo no debía contener tanta diferenciación competitiva en el modelo en sí, sino en el sistema y los datos que lo alimentan.