¿Cuáles son las diversas representaciones de características del uso del habla en el reconocimiento del habla? ¿Cómo comenzar con la extracción de características de MFCC para el reconocimiento de voz?

Hay muchas características que se han probado para el reconocimiento de voz. Los principales son los coeficientes cepstrales del filtro Mel (MFCC), los coeficientes de predicción lineal (LPC), los coeficientes de predicción lineal perceptual (PLP), rasta-PLP, los coeficientes cepstrales normalizados de potencia (PNCC) y las características de cuello de botella profundo recientemente (DBNF) .

El artículo de Kim y Stern sobre PNCC [1] compara el proceso de extracción de características de MFCC, Rasta-PLP y PNCC. Aquí hay una instantánea del proceso de comparación tomado de la versión del diario del artículo:

Comparación del proceso de extracción de características para MFCC, Rasta-PLP y PNCC

[1] Kim, Chanwoo y Richard M. Stern. “Coeficientes cepstrales normalizados en potencia (PNCC) para un reconocimiento de voz robusto”. Procesamiento acústico, del habla y de la señal (ICASSP), Conferencia internacional IEEE 2012 sobre . IEEE, 2012.