Clonación de voz (voice cloning)
La clonación de voz es la técnica que permite generar audio sintético con la voz de una persona concreta a partir de pocos segundos o minutos de muestra. En 2026, herramientas como ElevenLabs, OpenAI Voice Engine, HeyGen Voice o Resemble AI permiten clonar una voz con calidad casi indistinguible de la original con apenas 30 segundos de audio.
Definición rápida
La clonación de voz es la técnica que permite generar audio sintético con la voz de una persona concreta a partir de pocos segundos o minutos de muestra. En 2026, herramientas como ElevenLabs, OpenAI Voice Engine, HeyGen Voice o Resemble AI permiten clonar una voz con calidad casi indistinguible de la original con apenas 30 segundos de audio.
Explicación ampliada
Por qué importa para tu empresa
Para una empresa, voice cloning tiene dos lecturas. Como herramienta legítima, abre casos de uso de comunicación multilingüe, audiobranding y accesibilidad a coste viable. Como riesgo, exige preparar al personal contra fraudes por voz: una llamada del CEO o del responsable del banco pidiendo una transferencia urgente, con voz exacta, ya no es ciencia ficción. La práctica recomendada en 2026: protocolos de verificación de canal alternativo para cualquier instrucción financiera o sensible recibida por voz; formación específica sobre fraudes con voz clonada para finanzas, RR. HH. y dirección.
Ejemplo concreto
Una empresa de servicios sufrió un intento de fraude en marzo de 2026: el responsable de finanzas recibió llamada con la voz exacta del director general (que estaba de viaje) pidiendo una transferencia urgente de 38.000 € a una cuenta nueva por una operación confidencial. La voz, el tono y los giros del jefe eran indistinguibles. La operación se evitó porque el responsable, formado tras un caso similar en una empresa amiga, pidió confirmación por canal alternativo. Resultó ser una clonación a partir de un vídeo de presentación pública del director. Tras el incidente, la empresa estableció el protocolo: ninguna instrucción financiera por solo voz; siempre confirmación por al menos dos canales independientes.