El Observatorio de la IA
Ciberaula Observatorio IA Glosario Riesgos y limitaciones Copyright en entrenamiento de modelos
Riesgos y limitaciones

Copyright en entrenamiento de modelos

El copyright en entrenamiento de modelos es la cuestión legal abierta de si entrenar un modelo de IA con obras protegidas (textos, imágenes, vídeos, código) sin licencia constituye infracción. En 2026 hay decenas de demandas activas (NYT contra OpenAI, Universal/Sony/Warner contra Suno y Udio, Getty Images contra Stability AI, autores y artistas contra Meta, Anthropic, Stability) y un mosaico de criterios judiciales por jurisdicción.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

El copyright en entrenamiento de modelos es la cuestión legal abierta de si entrenar un modelo de IA con obras protegidas (textos, imágenes, vídeos, código) sin licencia constituye infracción. En 2026 hay decenas de demandas activas (NYT contra OpenAI, Universal/Sony/Warner contra Suno y Udio, Getty Images contra Stability AI, autores y artistas contra Meta, Anthropic, Stability) y un mosaico de criterios judiciales por jurisdicción.

Explicación ampliada

La pregunta jurídica es: ¿usar millones de obras protegidas para entrenar un modelo es uso transformativo (fair use en EE.UU., excepción de minería de texto y datos en la UE) o es infracción que requiere licencia? Las respuestas hasta mayo de 2026 no son uniformes. En EE.UU., algunos jueces han admitido fair use parcialmente (caso Authors Guild contra Google Books como precedente) pero los litigios contra OpenAI, Anthropic, Stability AI y Suno/Udio siguen abiertos sin resolución firme. En la UE, la Directiva 2019/790 sobre Copyright en el Mercado Único Digital prevé una excepción para text and data mining (Art. 4) pero permite a los titulares de derechos optar por excluir sus obras (opt-out, normalmente vía robots.txt o términos del sitio). El AI Act, en su Art. 53, obliga a proveedores de modelos GPAI a respetar el opt-out, publicar resumen de los datos de entrenamiento y cumplir derechos de autor europeos. Casos resueltos: en 2025 el New York Times alcanzó un acuerdo confidencial con OpenAI (que también firmó licencias con Reuters, AP, FT, Time, Le Monde, Axel Springer, etc.). El sector va hacia un modelo mixto de licencias explícitas con grandes editores + uso de contenido bajo excepción de TDM con opt-out respetado.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que use modelos de terceros, esto importa porque las decisiones judiciales pueden afectar a la disponibilidad o coste de los modelos que ya usas. Un modelo declarado infractor podría ser retirado, alterado, o requerir licencias retroactivas que sus proveedores trasladen al precio. La práctica madura: revisar los términos de cada modelo (¿asume el proveedor responsabilidad por copyright en outputs? Microsoft, Google, OpenAI, Anthropic ofrecen indemnización en planes empresariales); evitar usar outputs de modelos GenAI para producir contenidos que claramente reproduzcan obras conocidas; conservar logs por si una reclamación específica obliga a investigar. Para empresas que entrenan modelos propios, hay que ser muy estrictos con las fuentes y respetar opt-out europeo.

Ejemplo concreto

Caso real

Una pyme española de software adoptó Claude API para diversas funciones. Su asesor legal le señaló que aunque Anthropic ofrece indemnización por copyright en plan empresarial (cobertura de demandas que recaigan sobre outputs si el cliente actuó de buena fe), eso no protege todos los casos. Adoptaron tres precauciones: (1) plan Enterprise con indemnización contractual, (2) política interna de no usar outputs IA para generar contenidos cuya estética imite la obra de un artista o autor identificable, (3) registro de qué contenidos se han generado con qué herramienta para trazabilidad si llega reclamación. Coste extra: cero. Tranquilidad jurídica: significativa.