Generación y creatividad

Síntesis de voz (TTS)

La síntesis de voz, conocida por sus siglas en inglés TTS (text-to-speech), convierte texto escrito en audio hablado con voz humana sintética. Las versiones modernas, basadas en redes neuronales, producen voces casi indistinguibles de una persona real, con entonación natural, pausas adecuadas y soporte multilingüe. Es la base de audiolibros automáticos, narración de cursos, asistentes de voz y atención al cliente.

Por Ana María González Actualizado: 28 de abril de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Hasta 2022 las voces sintéticas tenían entonación robótica reconocible. Las arquitecturas neuronales actuales (basadas en transformers y técnicas de difusión adaptadas a audio) han cerrado esa brecha: un buen TTS produce hoy voz expresiva, con respiraciones, énfasis correcto y manejo natural de cifras, abreviaturas y nombres propios. Los proveedores principales son ElevenLabs (líder en clonación y expresividad), OpenAI TTS (incluido en Plus), Microsoft Neural Voices, Google Cloud TTS, Amazon Polly y Piper TTS (open-source, ejecutable en local). Dos capacidades clave separan las herramientas de calidad: la clonación de voz a partir de pocos segundos de muestra (delicada éticamente: requiere consentimiento explícito) y el control de estilo (susurro, entusiasmo, calma) por instrucción. La latencia ha bajado hasta el punto de permitir conversación en tiempo real con un agente IA, abriendo casos de uso como atención telefónica automatizada o tutorías de idiomas. Del lado del coste, generar una hora de audio sintético cuesta entre 0,15 y 5 euros según calidad y proveedor, frente a los 50-200 euros que cobra un locutor profesional por una hora grabada. La calidad ya es suficiente para audiobook, podcast corporativo y formación interna; en publicidad de marca seguramente sigue compensando una voz humana real, aunque ya hay marcas usando TTS sin que la audiencia lo note.

Por qué importa para tu empresa

Aplicación práctica

Tres aplicaciones empresariales directas en pyme española: producción de contenido formativo (un curso de 20 horas se locuta en una tarde con coste despreciable), accesibilidad (lectura de webs y documentos para personas con discapacidad visual o lectores poco fluidos), y atención al cliente automatizada (centralitas que entienden y hablan con voz natural, reduciendo derivaciones a operador humano). Para empresas que comunican en varios idiomas, la posibilidad de mantener la misma voz en todas las versiones aporta consistencia de marca.

Ejemplo concreto

Caso real

Una academia de inglés online produce 200 cursos al año. Antes contrataba locutores nativos (15 minutos por hora locutada × 50 horas por curso × 80 euros la hora = 4.000 euros por curso solo en locución). Ahora usa ElevenLabs con voz nativa británica clonada de un locutor con contrato (35 euros al mes por toda la producción). Cada curso se locuta en 4 horas de proceso supervisado por un editor. El locutor original cobra royalty por uso de su voz. Resultado: producción 25 veces más barata, consistencia total entre cursos, y los alumnos no detectan diferencia respecto a las voces humanas anteriores.