Riesgos y limitaciones
Alucinación, sesgo, deriva, jailbreak, deepfake · 20 términos en este bloque.
Riesgos y limitaciones 20
Alucinación
Una alucinación ocurre cuando un modelo de IA genera información que parece cierta pero es falsa o inventada. El modelo no miente consciente…
Cadena de suministro del modelo (model supply chain)
La cadena de suministro del modelo es el conjunto de elementos —datos de entrenamiento, modelo base, librerías, plugins, herramientas conect…
Copyright en entrenamiento de modelos
El copyright en entrenamiento de modelos es la cuestión legal abierta de si entrenar un modelo de IA con obras protegidas (textos, imágenes,…
Deepfake
Un deepfake es una imagen, audio o vídeo manipulado o generado completamente por IA en el que una persona real aparece diciendo o haciendo a…
Deriva del modelo (model drift)
La deriva del modelo es la pérdida progresiva de calidad de un sistema de IA a medida que pasa el tiempo y el mundo cambia respecto a sus da…
Detección de deepfakes
La detección de deepfakes es el conjunto de técnicas y herramientas para identificar contenidos sintéticos generados con IA (vídeos manipula…
Envenenamiento de datos (data poisoning)
El envenenamiento de datos es un ataque en el que se introducen ejemplos manipulados en los datos que un modelo de IA usa para entrenar o ap…
Fuga de datos
Una fuga de datos en el contexto de IA ocurre cuando información confidencial de la empresa se introduce en un sistema externo (típicamente …
Goal misgeneralization (generalización errónea del objetivo)
Goal misgeneralization es un modo de fallo en el que un sistema IA aprende un objetivo durante el entrenamiento que parece correcto en los e…
Grounding (anclaje a fuentes)
El grounding es el conjunto de técnicas que obligan a un modelo de IA a basar sus respuestas en fuentes verificables y citarlas, en lugar de…
Inyección de prompt (prompt injection)
La inyección de prompt es un tipo de ataque contra sistemas de IA en el que un atacante introduce instrucciones maliciosas dentro del conten…
Jailbreak (eludir restricciones del modelo)
Jailbreak es una técnica de manipulación por la que un usuario hace que un modelo de IA produzca respuestas que sus políticas internas prohí…
Model extraction (robo de modelo)
Model extraction es un ataque en el que alguien con acceso solo a las respuestas de un modelo (vía API o UI) intenta entrenar un modelo prop…
Privacy leakage (fuga de datos personales)
Privacy leakage es la exposición no intencionada de datos personales o información confidencial a través de un modelo de IA. Puede ocurrir p…
Prompt leaking (fuga de prompt)
Prompt leaking es un tipo de ataque en el que un usuario consigue que un asistente IA revele su prompt de sistema —las instrucciones interna…
Sesgo algorítmico
El sesgo algorítmico es la tendencia de un sistema de IA a producir resultados sistemáticamente desfavorables para ciertos grupos (por géner…
Sesgo de automatización (automation bias)
El sesgo de automatización es la tendencia humana a confiar excesivamente en las decisiones que produce un sistema automatizado, incluso cua…
Sobreconfianza en la IA (overreliance)
La sobreconfianza en la IA es el patrón humano de aceptar las respuestas de un asistente IA sin contrastarlas, especialmente cuando suenan c…
Sycophancy (modelos aduladores)
Sycophancy es la tendencia de un modelo de lenguaje a estar de acuerdo con el usuario, validar sus opiniones y reforzar lo que cree, incluso…
Watermarking de contenido IA
El watermarking de contenido IA es la inserción de marcas invisibles o difícilmente detectables en imágenes, vídeos, audios o textos generad…