Cómo usar KALDI (kit de herramientas de reconocimiento de voz) para construir nuestro propio sistema de reconocimiento automático de voz

¡Hola a todos!

Utilizo mucho Kaldi en mi investigación, y tengo una colección de publicaciones / tutoriales / documentación en mi blog:

Sitio web de Josh Meyer

Aquí hay un tutorial que escribí sobre la construcción de un modelo acústico de red neuronal con Kaldi:

Cómo entrenar un modelo acústico de red neuronal profunda con Kaldi

Si recién está comenzando, aquí hay un tutorial sobre cómo instalar y ejecutar la demostración con Kaldi:

Instalando Kaldi

Si desea que Kaldi trabaje en AWS:

Kaldi en AWS

Aquí hay una colección de notas sobre varios aspectos del entrenamiento y decodificación de Kaldi:

Algunas notas de Kaldi

¡Espero que algo de esto sea útil! Cuando me encuentro con algo que creo que será interesante para una comunidad más amplia de Kaldi, escribo una publicación, ¡así que avíseme si hay algo que le interese!

Mejor,

Josh

¿Por qué la campaña de Trump está cambiando su historia para permitir que el discurso de Melania sea plagiado?

¿Escribir y hablar tiene alguna correlación?

¿Cuál es el mejor guión de anclaje en hindi para la competencia de habla?

¿Cuál es el discurso de despedida de Bilbo Baggins?

¿Cuál es el discurso de Vivekananda en Chicago?

¿Qué figura retórica muestra la frase ‘persona persona’?

Mira este enlace:

grupos de Google

Para entrenar un ASR, debe entrenar un modelo de lenguaje (LM) y un modelo acústico (AM).

El entrenamiento básico de AM implica:

Entrenamiento de Monophone HMM con un subconjunto de datos de entrenamiento.
Alinee el conjunto de datos de entrenamiento con el modelo monófono
Triphone HMM entrenamiento.

Hay varias recetas de entrenamiento disponibles en la carpeta ‘egs’ de Kaldi toolkit. Le sugiero que comience con un pequeño conjunto de datos, como la gestión de recursos o el conjunto de datos Chime1, que están disponibles en línea para descargar. Si tiene una configuración de clúster, puede probar con conjuntos de datos más grandes como Voxforge o Tedlium.

El archivo de entrenamiento principal es un script run.sh. Ejecute cada línea de este script en la línea de comandos por separado y estudie los registros para comprender lo que está sucediendo.

Joshua Meyer

More Interesting

¿Cuáles son algunas ideas de discurso sobre el miedo?

¿Viste el discurso de aceptación de Hillary y qué pensaste y sentiste?

Soy malo hablando en público. ¿Puedo escribir lo que quiero decir y que lo lea por mí?

¿Cuál es el truco más rápido para hablar en público?

¿Qué desafíos enfrentan los patólogos del habla?

¿Taiwán tiene derechos de libre expresión?

¿Cuáles son los mejores insultos y líneas sarcásticas en un discurso de debate?

¿Cómo pensó Melania Trump que nadie se daría cuenta de que su discurso fue tomado del discurso de Michelle Obama?

¿Qué tan importante es el discurso de Melania Trump copiando el de Michelle Obama?

¿Cómo están viendo los medios de comunicación paquistaníes el discurso de Nawaz Sharif en la AGNU?