Reconocimiento de voz (ASR)
El reconocimiento de voz, conocido por las siglas ASR (automatic speech recognition) o STT (speech-to-text), convierte audio hablado en texto escrito. Las versiones modernas, basadas en redes neuronales, transcriben con altas tasas de acierto en docenas de idiomas, identifican distintos hablantes y manejan acentos. Es la tecnología detrás del dictado, la transcripción automática de reuniones y los asistentes de voz.
Definición rápida
El reconocimiento de voz, conocido por las siglas ASR (automatic speech recognition) o STT (speech-to-text), convierte audio hablado en texto escrito. Las versiones modernas, basadas en redes neuronales, transcriben con altas tasas de acierto en docenas de idiomas, identifican distintos hablantes y manejan acentos. Es la tecnología detrás del dictado, la transcripción automática de reuniones y los asistentes de voz.
Explicación ampliada
Por qué importa para tu empresa
Tres aplicaciones empresariales directas: transcripción automática de reuniones (Teams, Zoom, Meet ya lo integran nativamente), dictado en lugar de teclado para profesionales que producen mucho texto (médicos, abogados, periodistas), y atención al cliente con voz natural (centralitas que entienden lo que dice el cliente y actúan). Para una pyme la utilidad más inmediata suele ser el primero: cualquier reunión queda transcrita, indexada y resumible sin esfuerzo humano.
Ejemplo concreto
Un despacho de abogados de 12 personas activó la transcripción automática de reuniones en Microsoft Teams (incluida en su plan Business). Las reuniones con clientes quedan transcritas automáticamente, los abogados pueden buscar en el archivo "¿qué dijo el cliente Acme sobre la propuesta de transacción el mes pasado?" y obtener el extracto exacto con marca de tiempo. Esto sustituyó una práctica anterior basada en notas manuscritas durante la reunión. Tiempo ganado por abogado: estimado en 3 horas semanales. Coste adicional: cero, ya estaba incluido en la licencia.