Creo que un código abierto brinda una excelente oportunidad para aprender la tecnología. Puede jugar con el proyecto de código abierto que implementa el motor de reconocimiento de voz, aprender de él y comprender cómo funciona la tecnología.
Puede comenzar con CMU Sphinx, un popular kit de herramientas de reconocimiento de voz de código abierto.
Comience con los pasos del Tutorial de CMUSphinx para desarrolladores, pruebe los comandos descritos allí para familiarizarse con los conceptos y las características. Para mejorar su comprensión, ejecute cualquiera de los siguientes proyectos simples de dos semanas:
1. Entrene un modelo acústico inicial para su idioma nativo.
2. Rastrear wiktionary para crear un diccionario fonético en muchos idiomas.
3. Rastrear wiktionary para recoger la pronunciación de nuevas palabras como Instagram.
4. Cree una herramienta simple para adaptarse para facilitar la adaptación de los modelos.
5. Agregar detección de formato de datos a pocketsphinx
6. Soporte de puerto g2p de sphinxtrain a pocketsphinx.
- ¿Cuál es el papel del giro frontal inferior izquierdo en la comprensión de oraciones?
- ¿Cuáles son las últimas palabras más apropiadas y por qué?
- ¿Cuál sería su impresión de una persona que habla con fluidez pero a un ritmo significativamente acelerado?
- ¿Por qué algunos acentos pronuncian mal ‘th’ como ‘s’ mientras que otros como ‘t’?
- ¿Cuáles son algunos de los beneficios de hablar árabe?
Para pedir ayuda y encontrar mentores, únase al canal #cmusphinx o haga preguntas en el foro, vea los detalles Únase a nuestra comunidad.
Una vez que obtenga una comprensión inicial de cómo funcionan las cosas, puede aprender más sobre la tecnología de reconocimiento de voz leyendo libros como el Reconocimiento automático de voz. Después de familiarizarse con el reconocimiento de voz, puede mejorar su comprensión profundizando en las características e implementando una mejora significativa.