Una cosa importante sobre el habla es que el habla es un proceso dinámico, no se trata solo de tomar algunos valores, el habla continúa con el tiempo y cada período de tiempo en el habla es importante para la identificación del hablante.
Por lo tanto, la tarea de identificación no se trata de la firma de voz donde se toma la voz y se calcula una firma, la tarea es bastante diferente. Dado el proceso aleatorio (una secuencia de marcos de voz) necesita estimar la probabilidad de que este proceso pertenezca a una determinada clase (a una determinada persona). Esencialmente, desea estimar la distribución previa del proceso aleatorio. Por lo tanto, debe calcular la función de cada cuadro, no del discurso en su conjunto.
La característica más directa del marco es el marco en sí con cierta normalización. Las características de MFCC son esencialmente los valores del habla normalizados por canal, volumen y ajustados al tracto auditivo humano. Entonces, lo que está buscando es la distribución de las funciones de MFCC.
Las MFCC son características comunes que se usan en la identificación de los altavoces, podría haber algunas modificaciones, pero se puede obtener un rendimiento bastante bueno simplemente mediante la estimación de la distribución de MFCC. MFCC podría reemplazar todas las demás características solo porque son una proyección de la información contenida en MFCC. La distribución previa se puede estimar con distribución GMM o con GMM factorizado (i-vectors).
- ¿Hablas coreano, chino y japonés? ¿Qué se siente al hablar esos idiomas? ¿Cómo se comparan entre sí?
- ¿Qué palabras has pronunciado horriblemente mal porque las leíste antes de escucharlas?
- ¿Cuál es la lección más importante que aprende de su primer discurso público?
- ¿Por qué no puedo entender el habla bajo un leve ruido de fondo?
- Cómo dejar de hablar con voz monótona
Para obtener más información sobre el reconocimiento del hablante, le sugiero que lea un libro
Fundamentos del reconocimiento de oradores: Homayoon Beigi: 9780387775913: Amazon.com: Libros
Para probar prácticamente la identificación del orador, consulte el kit de herramientas Mistral / Alize:
http://mistral.univ-avignon.fr/i…
Un kit de herramientas de código abierto para la identificación del hablante.