¿Qué debo hacer para comenzar a trabajar en el reconocimiento de voz?

Creo que un código abierto brinda una excelente oportunidad para aprender la tecnología. Puede jugar con el proyecto de código abierto que implementa el motor de reconocimiento de voz, aprender de él y comprender cómo funciona la tecnología.

Puede comenzar con CMU Sphinx, un popular kit de herramientas de reconocimiento de voz de código abierto.

Comience con los pasos del Tutorial de CMUSphinx para desarrolladores, pruebe los comandos descritos allí para familiarizarse con los conceptos y las características. Para mejorar su comprensión, ejecute cualquiera de los siguientes proyectos simples de dos semanas:

1. Entrene un modelo acústico inicial para su idioma nativo.
2. Rastrear wiktionary para crear un diccionario fonético en muchos idiomas.
3. Rastrear wiktionary para recoger la pronunciación de nuevas palabras como Instagram.
4. Cree una herramienta simple para adaptarse para facilitar la adaptación de los modelos.
5. Agregar detección de formato de datos a pocketsphinx
6. Soporte de puerto g2p de sphinxtrain a pocketsphinx.

Para pedir ayuda y encontrar mentores, únase al canal #cmusphinx o haga preguntas en el foro, vea los detalles Únase a nuestra comunidad.

Una vez que obtenga una comprensión inicial de cómo funcionan las cosas, puede aprender más sobre la tecnología de reconocimiento de voz leyendo libros como el Reconocimiento automático de voz. Después de familiarizarse con el reconocimiento de voz, puede mejorar su comprensión profundizando en las características e implementando una mejora significativa.

¿Crees en las advertencias de activación o limitan la libertad de expresión?

¿Qué se podría decir en un discurso improvisado de 3 minutos sobre el tema ‘caramelo’?

Estoy en B.Tech el primer año y necesito dar un discurso en clase la próxima semana. ¿Alguien puede sugerir algún buen tema alucinante?

Tengo un problema para pronunciar un discurso. Mi vocabulario es bueno, pero la gente no me entiende a veces. Soy demasiado rápido ¿Cuáles son algunos consejos sobre cómo puedo controlar mi flujo?

¿Cuál es el papel del giro frontal inferior izquierdo en la comprensión de oraciones?

Quiero escribir un discurso de dos minutos. ¿Cuántos personajes necesito?

Seguir estos pasos lo ayudaría a comenzar con el reconocimiento de voz:
1.Tome un MOOC sobre procesamiento de señales –
Esto lo ayudará a comprender las complejidades del tema, como las diversas transformaciones (Fourier, Fourier rápido, Transformaciones Z, etc.) Más adelante, a medida que avance en los conceptos, tendrá una idea de lo que realmente está sucediendo en el tema.
2. Ir a través de ‘Fundamentos del reconocimiento de voz’ – por Lawrence Rabiner –
Después de pasar por el procesamiento básico de la señal, debe pasar por el libro mencionado anteriormente. Aunque el libro es demasiado bueno para dejarlo sin leer, pero dado que conoce los conceptos básicos del procesamiento de señales, puede comprender mejor los conceptos e incluso omitir una o dos cosas.
Intente codificar los conceptos en cualquier idioma de su elección.
A medida que vaya leyendo el libro, se encontrará con varios conceptos y modelos nuevos, a saber, extracción de características de MFCC, modelo oculto de Markov, etc. Intente escribir códigos básicos para todos ellos. C o MATLAB es suficiente para los propósitos de codificación. Debería descargar uno o dos paquetes para C. Simplemente busque en Google y descárguelos para comenzar.
4.Utilice tecnologías de reconocimiento de voz
La mayoría de los investigadores de electrónica intentan omitir el paso 3 y tienden a pasar a este paso. Es porque usan las tecnologías ya establecidas y tratan de probar varios tipos de datos de su interés y obtener algunos resultados valiosos. Como eres estudiante de informática, te recomiendo que sigas el paso 3. Se encuentran disponibles varios kits de herramientas de reconocimiento de voz de código abierto: CMU-Sphinx, HTK, que contienen todos los códigos necesarios para construir un sistema de reconocimiento de voz y, por lo tanto, se pueden usar fácilmente para construir un sistema simple. Para dispositivos móviles, use Pocket Sphinx.
5. Ir a través de documentos de investigación
Por último, puede pasar por trabajos de investigación e intentar codificar los conceptos e intentar crear aplicaciones esenciales en Speech Processing, porque eso es lo que hacen los desarrolladores.
Espero que esto sea suficiente para tu necesidad.

Nickolay Shmyrev

Hizo un descubrimiento muy importante (revolucionario e inédito): la invención del primer dispositivo práctico para leer pensamientos humanos o Brain Computer Interface. No puedo publicar mi descubrimiento (no puedo proteger sus derechos de autor) e invito a la asociación. Gracias. Сурен Акопов. Sobre el problema, por ejemplo, busque en You Tube:
1.Jack Gallant, máquina de lectura de la mente humana;
2.John – Dylan Haynes, máquina de lectura de la mente humana, etc.

Nickolay Shmyrev

More Interesting

¿Cómo se puede tener claridad en los pensamientos y el habla?

¿Cuáles son las cualidades de un buen discurso, por escrito y al realizarlo?

¿Cuál es la delgada línea entre la libertad de expresión y el discurso de odio o la intimidación?

Hablo muy rapido En algún momento mi colega no puede entender lo que digo. ¿Cómo puedo hablar de manera más inteligible?

¿Cuáles son las técnicas de debate más efectivas?

¿Cómo debo dar mi mejor tiro en un extempore?

¿Cómo se conecta el emprendimiento con hablar en público y asistir a hablar en público? ¿Cómo te enteras de los eventos y ceremonias de hablar en público?

Cómo dar un discurso improvisado de un minuto

¿Cuál es el mejor discurso nacionalista (nombre del tema) que se puede dar en una competencia de elocución?

¿Cuáles son las desventajas entre aprovechar Kaldi y HTK para aplicaciones de reconocimiento de voz?