Cómo usar KALDI (kit de herramientas de reconocimiento de voz) para construir nuestro propio sistema de reconocimiento automático de voz

¡Hola a todos!

Utilizo mucho Kaldi en mi investigación, y tengo una colección de publicaciones / tutoriales / documentación en mi blog:

Sitio web de Josh Meyer

Aquí hay un tutorial que escribí sobre la construcción de un modelo acústico de red neuronal con Kaldi:

Cómo entrenar un modelo acústico de red neuronal profunda con Kaldi

Si recién está comenzando, aquí hay un tutorial sobre cómo instalar y ejecutar la demostración con Kaldi:

Instalando Kaldi

Si desea que Kaldi trabaje en AWS:

Kaldi en AWS

Aquí hay una colección de notas sobre varios aspectos del entrenamiento y decodificación de Kaldi:

Algunas notas de Kaldi

¡Espero que algo de esto sea útil! Cuando me encuentro con algo que creo que será interesante para una comunidad más amplia de Kaldi, escribo una publicación, ¡así que avíseme si hay algo que le interese!

Mejor,

Josh

Mira este enlace:

grupos de Google

Para entrenar un ASR, debe entrenar un modelo de lenguaje (LM) y un modelo acústico (AM).

El entrenamiento básico de AM implica:

  1. Entrenamiento de Monophone HMM con un subconjunto de datos de entrenamiento.
  2. Alinee el conjunto de datos de entrenamiento con el modelo monófono
  3. Triphone HMM entrenamiento.

Hay varias recetas de entrenamiento disponibles en la carpeta ‘egs’ de Kaldi toolkit. Le sugiero que comience con un pequeño conjunto de datos, como la gestión de recursos o el conjunto de datos Chime1, que están disponibles en línea para descargar. Si tiene una configuración de clúster, puede probar con conjuntos de datos más grandes como Voxforge o Tedlium.

El archivo de entrenamiento principal es un script run.sh. Ejecute cada línea de este script en la línea de comandos por separado y estudie los registros para comprender lo que está sucediendo.