¿Cuál es un conjunto de características de uso común para representar las firmas del habla humana?

Una cosa importante sobre el habla es que el habla es un proceso dinámico, no se trata solo de tomar algunos valores, el habla continúa con el tiempo y cada período de tiempo en el habla es importante para la identificación del hablante.

Por lo tanto, la tarea de identificación no se trata de la firma de voz donde se toma la voz y se calcula una firma, la tarea es bastante diferente. Dado el proceso aleatorio (una secuencia de marcos de voz) necesita estimar la probabilidad de que este proceso pertenezca a una determinada clase (a una determinada persona). Esencialmente, desea estimar la distribución previa del proceso aleatorio. Por lo tanto, debe calcular la función de cada cuadro, no del discurso en su conjunto.

La característica más directa del marco es el marco en sí con cierta normalización. Las características de MFCC son esencialmente los valores del habla normalizados por canal, volumen y ajustados al tracto auditivo humano. Entonces, lo que está buscando es la distribución de las funciones de MFCC.

Las MFCC son características comunes que se usan en la identificación de los altavoces, podría haber algunas modificaciones, pero se puede obtener un rendimiento bastante bueno simplemente mediante la estimación de la distribución de MFCC. MFCC podría reemplazar todas las demás características solo porque son una proyección de la información contenida en MFCC. La distribución previa se puede estimar con distribución GMM o con GMM factorizado (i-vectors).

Para obtener más información sobre el reconocimiento del hablante, le sugiero que lea un libro

Fundamentos del reconocimiento de oradores: Homayoon Beigi: 9780387775913: Amazon.com: Libros

Para probar prácticamente la identificación del orador, consulte el kit de herramientas Mistral / Alize:

http://mistral.univ-avignon.fr/i…

Un kit de herramientas de código abierto para la identificación del hablante.