El Observatorio de la IA
Ciberaula Observatorio IA Glosario Generación y creatividad Clonación de voz (voice cloning)
Generación y creatividad

Clonación de voz (voice cloning)

La clonación de voz es la técnica que permite generar audio sintético con la voz de una persona concreta a partir de pocos segundos o minutos de muestra. En 2026, herramientas como ElevenLabs, OpenAI Voice Engine, HeyGen Voice o Resemble AI permiten clonar una voz con calidad casi indistinguible de la original con apenas 30 segundos de audio.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

La clonación de voz es la técnica que permite generar audio sintético con la voz de una persona concreta a partir de pocos segundos o minutos de muestra. En 2026, herramientas como ElevenLabs, OpenAI Voice Engine, HeyGen Voice o Resemble AI permiten clonar una voz con calidad casi indistinguible de la original con apenas 30 segundos de audio.

Explicación ampliada

Hasta 2022 clonar una voz requería horas de grabación de la persona y resultados notablemente artificiales. Los modelos actuales (basados en transformers y modelos de difusión adaptados al audio) consiguen reproducir timbre, entonación, acento y matices emocionales con muy poca muestra. Las aplicaciones legítimas son numerosas: doblaje multilingüe (un actor habla en su idioma y la IA lo dobla a otros 30 con su propia voz), accesibilidad (recuperar la voz de personas con enfermedades degenerativas), audiolibros con voces de autor, agentes de voz para empresa con identidad sonora propia. El reverso es inquietante: la clonación de voz es la base de un nuevo género de fraude (suplantación de directivos para autorizar transferencias, llamadas falsas a familiares pidiendo ayuda económica). El AI Act incluye la deepfake de voz como contenido sintético sujeto a obligación de etiquetado (Art. 50). Los proveedores serios (ElevenLabs, OpenAI) requieren consentimiento explícito de la persona cuya voz se clona y aplican controles internos contra abuso.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, voice cloning tiene dos lecturas. Como herramienta legítima, abre casos de uso de comunicación multilingüe, audiobranding y accesibilidad a coste viable. Como riesgo, exige preparar al personal contra fraudes por voz: una llamada del CEO o del responsable del banco pidiendo una transferencia urgente, con voz exacta, ya no es ciencia ficción. La práctica recomendada en 2026: protocolos de verificación de canal alternativo para cualquier instrucción financiera o sensible recibida por voz; formación específica sobre fraudes con voz clonada para finanzas, RR. HH. y dirección.

Ejemplo concreto

Caso real

Una empresa de servicios sufrió un intento de fraude en marzo de 2026: el responsable de finanzas recibió llamada con la voz exacta del director general (que estaba de viaje) pidiendo una transferencia urgente de 38.000 € a una cuenta nueva por una operación confidencial. La voz, el tono y los giros del jefe eran indistinguibles. La operación se evitó porque el responsable, formado tras un caso similar en una empresa amiga, pidió confirmación por canal alternativo. Resultó ser una clonación a partir de un vídeo de presentación pública del director. Tras el incidente, la empresa estableció el protocolo: ninguna instrucción financiera por solo voz; siempre confirmación por al menos dos canales independientes.