¿Por qué es difícil hacer el reconocimiento de voz?

De hecho, el reconocimiento de voz es difícil, pero ¿por qué? Para comprender este problema, comencemos desde un escenario no realista para el habla humana. ¿Qué tan fácil sería si todos en el mundo hablaran exactamente la misma palabra en inglés “Hola”? Si ese es el caso, el reconocimiento de voz no sería difícil. Porque al igual que la señal de tono de marcado del teléfono, puede escribir un detector para detectar dicha señal. Así que no hay problema para resolver.

Pero en la vida real, nuestros “Hola” son inmensamente diferentes del POV de la computadora. No solo estoy hablando de las diferencias entre “hola” de hablantes nativos y no nativos. Tampoco estoy hablando de la diferencia entre “hola” entre hombres y mujeres de hablantes nativos. Estoy hablando de que dirías “hola” de maneras ligeramente diferentes cada vez a pesar de tu mejor esfuerzo.

Este concepto de “hablamos diferente cada vez” se refiere simplemente como “variación”. Es por eso que el reconocimiento de voz moderno está intrínsecamente basado en estadísticas: solo analizando una gran cantidad de voz de múltiples hablantes, podemos llegar a un modelo que es una “plantilla” de cómo hablas. Y debido a que este es un método estadístico, lograr una alta precisión es un camino interminable de investigación: algunos de los estadísticos, matemáticos y lingüistas más inteligentes han trabajado en este problema. Hay avances en los últimos años, pero para mí está claro que podemos hacer más.

Debido a que no hay dos personas que digan cada palabra exactamente de la misma manera, lo que hace que el número de variaciones sea casi imposible de procesar rápidamente y obtenga la respuesta correcta. Ejemplo: como californiano, pronuncio el nombre de Harry como “peludo”; los neoyorquinos lo pronuncian de manera completamente diferente. Además, algunas personas murmuran una o más palabras, y los acentos regionales afectan el reconocimiento de voz, los homónimos presentan otra área problemática.

Hola Chris,

Interesante pregunta. Me imagino que estás hablando del software de reconocimiento de voz. No soy un gran fanático de eso. Me paso tanto tiempo corrigiendo errores y cambiando nombres propios que me resulta menos frustrante escribir el texto a mano. Siento que todavía no han perfeccionado el software a pesar de que ha existido durante más de 10 años. Espero que esto ayude. Pablo

Diría que es porque el reconocimiento de voz se realiza mediante técnicas de aprendizaje automático, requiere mucha potencia de procesamiento para entrenar, por ejemplo, muchos desarrolladores no pueden hacer esa tarea, pero para grandes empresas como Google y Microsoft que tienen todos los datos, potencia procesamiento y personas para hacerlo.

Creo que en 10 años tendremos datos y poder de procesamiento para hacerlo, y la comunidad de IA proporcionará bibliotecas y tutoriales.

Ya tenemos cmu sphinx, pero no es como el reconocimiento de voz de google.