¿Por qué es difícil hacer el reconocimiento de voz?

De hecho, el reconocimiento de voz es difícil, pero ¿por qué? Para comprender este problema, comencemos desde un escenario no realista para el habla humana. ¿Qué tan fácil sería si todos en el mundo hablaran exactamente la misma palabra en inglés “Hola”? Si ese es el caso, el reconocimiento de voz no sería difícil. Porque al igual que la señal de tono de marcado del teléfono, puede escribir un detector para detectar dicha señal. Así que no hay problema para resolver.

Pero en la vida real, nuestros “Hola” son inmensamente diferentes del POV de la computadora. No solo estoy hablando de las diferencias entre “hola” de hablantes nativos y no nativos. Tampoco estoy hablando de la diferencia entre “hola” entre hombres y mujeres de hablantes nativos. Estoy hablando de que dirías “hola” de maneras ligeramente diferentes cada vez a pesar de tu mejor esfuerzo.

Este concepto de “hablamos diferente cada vez” se refiere simplemente como “variación”. Es por eso que el reconocimiento de voz moderno está intrínsecamente basado en estadísticas: solo analizando una gran cantidad de voz de múltiples hablantes, podemos llegar a un modelo que es una “plantilla” de cómo hablas. Y debido a que este es un método estadístico, lograr una alta precisión es un camino interminable de investigación: algunos de los estadísticos, matemáticos y lingüistas más inteligentes han trabajado en este problema. Hay avances en los últimos años, pero para mí está claro que podemos hacer más.

¿Qué puedes hacer con un impedimento del habla horrible cuando tienes 21 años?

Cómo escribir un discurso de agradecimiento al pastor

¿Cuáles son algunas buenas palabras para usar al pronunciar un discurso?

¿Cuál es el mejor libro sobre hablar en público?

Cómo dejar de buscar palabras cuando hablo frente a una multitud

¿Están los medios de comunicación de la India abusando de su libertad de expresión?

Debido a que no hay dos personas que digan cada palabra exactamente de la misma manera, lo que hace que el número de variaciones sea casi imposible de procesar rápidamente y obtenga la respuesta correcta. Ejemplo: como californiano, pronuncio el nombre de Harry como “peludo”; los neoyorquinos lo pronuncian de manera completamente diferente. Además, algunas personas murmuran una o más palabras, y los acentos regionales afectan el reconocimiento de voz, los homónimos presentan otra área problemática.

Pedro Lima

Hola Chris,

Interesante pregunta. Me imagino que estás hablando del software de reconocimiento de voz. No soy un gran fanático de eso. Me paso tanto tiempo corrigiendo errores y cambiando nombres propios que me resulta menos frustrante escribir el texto a mano. Siento que todavía no han perfeccionado el software a pesar de que ha existido durante más de 10 años. Espero que esto ayude. Pablo

Michael Chavez

Diría que es porque el reconocimiento de voz se realiza mediante técnicas de aprendizaje automático, requiere mucha potencia de procesamiento para entrenar, por ejemplo, muchos desarrolladores no pueden hacer esa tarea, pero para grandes empresas como Google y Microsoft que tienen todos los datos, potencia procesamiento y personas para hacerlo.

Creo que en 10 años tendremos datos y poder de procesamiento para hacerlo, y la comunidad de IA proporcionará bibliotecas y tutoriales.

Ya tenemos cmu sphinx, pero no es como el reconocimiento de voz de google.

Pedro Lima

More Interesting

¿Qué modelos de ML se utilizan para el reconocimiento automático de voz?

¿Ve Estados Unidos el derecho a la libertad de expresión de manera diferente a la mayoría del resto del mundo?

Cómo convertirse en un patólogo del habla y el lenguaje

¿Cómo sería diferente la libertad de expresión en Internet si la tecnología no se hubiera originado en los Estados Unidos?

¿Qué son las figuras retóricas?

¿Cuál es su perspectiva sobre el análisis del habla?

¿Qué opinas del discurso de Modi el día de CA?

¿Cuál sería un buen discurso de 2 minutos sobre la importancia de la educación?