El Observatorio de la IA
Ciberaula Observatorio IA Glosario Generación y creatividad Reconocimiento de voz (ASR)
Generación y creatividad

Reconocimiento de voz (ASR)

El reconocimiento de voz, conocido por las siglas ASR (automatic speech recognition) o STT (speech-to-text), convierte audio hablado en texto escrito. Las versiones modernas, basadas en redes neuronales, transcriben con altas tasas de acierto en docenas de idiomas, identifican distintos hablantes y manejan acentos. Es la tecnología detrás del dictado, la transcripción automática de reuniones y los asistentes de voz.

Por Ana María González Actualizado: 28 de abril de 2026

Definición rápida

Respuesta directa

El reconocimiento de voz, conocido por las siglas ASR (automatic speech recognition) o STT (speech-to-text), convierte audio hablado en texto escrito. Las versiones modernas, basadas en redes neuronales, transcriben con altas tasas de acierto en docenas de idiomas, identifican distintos hablantes y manejan acentos. Es la tecnología detrás del dictado, la transcripción automática de reuniones y los asistentes de voz.

Explicación ampliada

Hasta 2022 el reconocimiento de voz era irregular: funcionaba aceptablemente en inglés en condiciones ideales pero fallaba con acentos, ruido de fondo o terminología especializada. La llegada de Whisper (modelo open-source de OpenAI publicado en septiembre de 2022) cambió el panorama: tasas de error bajas en más de 90 idiomas y tolerancia robusta al ruido. Whisper puso el reconocimiento de voz de calidad al alcance de cualquier desarrollador, sin coste de licencia. En abril de 2026 los principales sistemas son <strong>Whisper v3 large</strong> (OpenAI, gratuito y open-source), <strong>Deepgram Nova 3</strong> (comercial, líder en latencia baja para tiempo real), <strong>Google Cloud Speech-to-Text</strong> y <strong>Azure Speech</strong> (integrados en sus respectivos clouds), <strong>AssemblyAI</strong> (popular para transcripción de podcasts y reuniones), y los módulos integrados en los grandes asistentes (ChatGPT Voice, Google Gemini Live, Microsoft Copilot voz). La calidad típica en castellano es ya equivalente a la transcripción humana profesional para audio limpio. En audio con varios hablantes superpuestos, ruido fuerte o acentos muy marcados sigue habiendo un margen de error notable. La latencia para conversación en tiempo real ha bajado por debajo de 200 ms en los mejores sistemas, suficiente para asistentes de voz naturales. El coste es despreciable: Whisper en local cuesta solo electricidad, las APIs cobran del orden de 0,005 a 0,03 dólares por minuto de audio. Una hora de transcripción cuesta menos de 1 euro frente a los 30-60 euros que cobra un transcriptor humano profesional.

Por qué importa para tu empresa

Aplicación práctica

Tres aplicaciones empresariales directas: transcripción automática de reuniones (Teams, Zoom, Meet ya lo integran nativamente), dictado en lugar de teclado para profesionales que producen mucho texto (médicos, abogados, periodistas), y atención al cliente con voz natural (centralitas que entienden lo que dice el cliente y actúan). Para una pyme la utilidad más inmediata suele ser el primero: cualquier reunión queda transcrita, indexada y resumible sin esfuerzo humano.

Ejemplo concreto

Caso real

Un despacho de abogados de 12 personas activó la transcripción automática de reuniones en Microsoft Teams (incluida en su plan Business). Las reuniones con clientes quedan transcritas automáticamente, los abogados pueden buscar en el archivo "¿qué dijo el cliente Acme sobre la propuesta de transacción el mes pasado?" y obtener el extracto exacto con marca de tiempo. Esto sustituyó una práctica anterior basada en notas manuscritas durante la reunión. Tiempo ganado por abogado: estimado en 3 horas semanales. Coste adicional: cero, ya estaba incluido en la licencia.