¿Qué debo hacer para comenzar a trabajar en el reconocimiento de voz?

Creo que un código abierto brinda una excelente oportunidad para aprender la tecnología. Puede jugar con el proyecto de código abierto que implementa el motor de reconocimiento de voz, aprender de él y comprender cómo funciona la tecnología.

Puede comenzar con CMU Sphinx, un popular kit de herramientas de reconocimiento de voz de código abierto.

Comience con los pasos del Tutorial de CMUSphinx para desarrolladores, pruebe los comandos descritos allí para familiarizarse con los conceptos y las características. Para mejorar su comprensión, ejecute cualquiera de los siguientes proyectos simples de dos semanas:

1. Entrene un modelo acústico inicial para su idioma nativo.
2. Rastrear wiktionary para crear un diccionario fonético en muchos idiomas.
3. Rastrear wiktionary para recoger la pronunciación de nuevas palabras como Instagram.
4. Cree una herramienta simple para adaptarse para facilitar la adaptación de los modelos.
5. Agregar detección de formato de datos a pocketsphinx
6. Soporte de puerto g2p de sphinxtrain a pocketsphinx.

Para pedir ayuda y encontrar mentores, únase al canal #cmusphinx o haga preguntas en el foro, vea los detalles Únase a nuestra comunidad.

Una vez que obtenga una comprensión inicial de cómo funcionan las cosas, puede aprender más sobre la tecnología de reconocimiento de voz leyendo libros como el Reconocimiento automático de voz. Después de familiarizarse con el reconocimiento de voz, puede mejorar su comprensión profundizando en las características e implementando una mejora significativa.

Seguir estos pasos lo ayudaría a comenzar con el reconocimiento de voz:
1.Tome un MOOC sobre procesamiento de señales
Esto lo ayudará a comprender las complejidades del tema, como las diversas transformaciones (Fourier, Fourier rápido, Transformaciones Z, etc.) Más adelante, a medida que avance en los conceptos, tendrá una idea de lo que realmente está sucediendo en el tema.
2. Ir a través de ‘Fundamentos del reconocimiento de voz’ – por Lawrence Rabiner
Después de pasar por el procesamiento básico de la señal, debe pasar por el libro mencionado anteriormente. Aunque el libro es demasiado bueno para dejarlo sin leer, pero dado que conoce los conceptos básicos del procesamiento de señales, puede comprender mejor los conceptos e incluso omitir una o dos cosas.
Intente codificar los conceptos en cualquier idioma de su elección.
A medida que vaya leyendo el libro, se encontrará con varios conceptos y modelos nuevos, a saber, extracción de características de MFCC, modelo oculto de Markov, etc. Intente escribir códigos básicos para todos ellos. C o MATLAB es suficiente para los propósitos de codificación. Debería descargar uno o dos paquetes para C. Simplemente busque en Google y descárguelos para comenzar.
4.Utilice tecnologías de reconocimiento de voz
La mayoría de los investigadores de electrónica intentan omitir el paso 3 y tienden a pasar a este paso. Es porque usan las tecnologías ya establecidas y tratan de probar varios tipos de datos de su interés y obtener algunos resultados valiosos. Como eres estudiante de informática, te recomiendo que sigas el paso 3. Se encuentran disponibles varios kits de herramientas de reconocimiento de voz de código abierto: CMU-Sphinx, HTK, que contienen todos los códigos necesarios para construir un sistema de reconocimiento de voz y, por lo tanto, se pueden usar fácilmente para construir un sistema simple. Para dispositivos móviles, use Pocket Sphinx.
5. Ir a través de documentos de investigación
Por último, puede pasar por trabajos de investigación e intentar codificar los conceptos e intentar crear aplicaciones esenciales en Speech Processing, porque eso es lo que hacen los desarrolladores.
Espero que esto sea suficiente para tu necesidad.

Hizo un descubrimiento muy importante (revolucionario e inédito): la invención del primer dispositivo práctico para leer pensamientos humanos o Brain Computer Interface. No puedo publicar mi descubrimiento (no puedo proteger sus derechos de autor) e invito a la asociación. Gracias. Сурен Акопов. Sobre el problema, por ejemplo, busque en You Tube:
1.Jack Gallant, máquina de lectura de la mente humana;
2.John – Dylan Haynes, máquina de lectura de la mente humana, etc.