Hay muchas características que se han probado para el reconocimiento de voz. Los principales son los coeficientes cepstrales del filtro Mel (MFCC), los coeficientes de predicción lineal (LPC), los coeficientes de predicción lineal perceptual (PLP), rasta-PLP, los coeficientes cepstrales normalizados de potencia (PNCC) y las características de cuello de botella profundo recientemente (DBNF) .
El artículo de Kim y Stern sobre PNCC [1] compara el proceso de extracción de características de MFCC, Rasta-PLP y PNCC. Aquí hay una instantánea del proceso de comparación tomado de la versión del diario del artículo:
Comparación del proceso de extracción de características para MFCC, Rasta-PLP y PNCC
[1] Kim, Chanwoo y Richard M. Stern. “Coeficientes cepstrales normalizados en potencia (PNCC) para un reconocimiento de voz robusto”. Procesamiento acústico, del habla y de la señal (ICASSP), Conferencia internacional IEEE 2012 sobre . IEEE, 2012.
- ¿Hay un acento sofisticado para hablar chino mandarín?
- Audio: ¿Cómo debo configurar mi ecualizador gráfico para agacharme al habla?
- ¿Cómo funciona el dispositivo de habla de Stephen Hawking?
- ¿Cuál es un conjunto de características de uso común para representar las firmas del habla humana?
- ¿Hablas coreano, chino y japonés? ¿Qué se siente al hablar esos idiomas? ¿Cómo se comparan entre sí?