Cómo usar los MFCC para el reconocimiento de voz

Dado que la dimensión de la característica que está especificando es 26, sospecho que tiene un coeficiente de banco de filtros que mfcc. O podrían ser mfcc con características delta agregadas. Describiré aquí cómo hacer reconocimiento de fonemas usando el marco kaldi usando redes neuronales profundas.

  1. Obtenga la transcripción y los archivos de voz correspondientes
  2. Convierta la transcripción en secuencia de fonemas usando el convertidor de grafema a fonema.
  3. Extraiga mfcc usando kaldi make_mfcc. Archivo Sh
  4. Monofono de tren modelo GMM-HMM
  5. Alinee los datos de entrenamiento usando un modelo previamente entrenado
  6. Modelo de GMM-HMM basado en triphone de tren
  7. Alinear de nuevo
  8. Modelo de tren DNN-HMM
  9. Ahora puede obtener la secuencia de fonemas para cualquier nueva emisión de voz.

Si necesita ayuda, contácteme en [correo electrónico protegido]

Esta es nuestra matriz de coeficiente mfcc para cada cuadro, los pls también nos dicen si es correcto y nos guían más