De hecho, el reconocimiento de voz es difícil, pero ¿por qué? Para comprender este problema, comencemos desde un escenario no realista para el habla humana. ¿Qué tan fácil sería si todos en el mundo hablaran exactamente la misma palabra en inglés “Hola”? Si ese es el caso, el reconocimiento de voz no sería difícil. Porque al igual que la señal de tono de marcado del teléfono, puede escribir un detector para detectar dicha señal. Así que no hay problema para resolver.
Pero en la vida real, nuestros “Hola” son inmensamente diferentes del POV de la computadora. No solo estoy hablando de las diferencias entre “hola” de hablantes nativos y no nativos. Tampoco estoy hablando de la diferencia entre “hola” entre hombres y mujeres de hablantes nativos. Estoy hablando de que dirías “hola” de maneras ligeramente diferentes cada vez a pesar de tu mejor esfuerzo.
Este concepto de “hablamos diferente cada vez” se refiere simplemente como “variación”. Es por eso que el reconocimiento de voz moderno está intrínsecamente basado en estadísticas: solo analizando una gran cantidad de voz de múltiples hablantes, podemos llegar a un modelo que es una “plantilla” de cómo hablas. Y debido a que este es un método estadístico, lograr una alta precisión es un camino interminable de investigación: algunos de los estadísticos, matemáticos y lingüistas más inteligentes han trabajado en este problema. Hay avances en los últimos años, pero para mí está claro que podemos hacer más.
- Cómo dejar de buscar palabras cuando hablo frente a una multitud
- ¿Son buenos los INFP-Ts para hablar extemporáneamente?
- ¿Cuáles son algunos buenos programas para evaluar la salida de un sistema de reconocimiento de voz?
- ¿Cuál es la mejor manera de practicar y desarrollar habilidades, como un nuevo lenguaje, hablar en público y negociar?
- Cómo decir más con menos palabras.