Dado que la dimensión de la característica que está especificando es 26, sospecho que tiene un coeficiente de banco de filtros que mfcc. O podrían ser mfcc con características delta agregadas. Describiré aquí cómo hacer reconocimiento de fonemas usando el marco kaldi usando redes neuronales profundas.
- Obtenga la transcripción y los archivos de voz correspondientes
- Convierta la transcripción en secuencia de fonemas usando el convertidor de grafema a fonema.
- Extraiga mfcc usando kaldi make_mfcc. Archivo Sh
- Monofono de tren modelo GMM-HMM
- Alinee los datos de entrenamiento usando un modelo previamente entrenado
- Modelo de GMM-HMM basado en triphone de tren
- Alinear de nuevo
- Modelo de tren DNN-HMM
- Ahora puede obtener la secuencia de fonemas para cualquier nueva emisión de voz.
Si necesita ayuda, contácteme en [correo electrónico protegido]