¿Existe una alternativa para forzar la alineación en el reconocimiento de voz?

Puede tomar una secuencia de segmentos de voz de 10 milisegundos o 20 milisegundos, representarlos por sus coeficientes cepstrales (la representación convencional). Use una secuencia deslizante de estos cortes que sea más larga que el fonema más largo (aproximadamente) y use esta ventana deslizante de características (el número de coeficientes cepstrales que representan cada corte multiplicado por el número de cortes en la ventana. Use un algoritmo de reconocimiento de voz convencional para etiquetar los fonemas fuera de línea para obtener muestras etiquetadas y luego usar el aprendizaje automático (reconocimiento de patrones) para crear un algoritmo que pueda identificar fonemas dentro de la ventana que ha elegido sin alineación forzada. Supongo que no hay razón para no usar la alineación forzada para crear algoritmo, y que su restricción está en el uso del algoritmo final para identificar la ubicación de fonemas específicos.

Hicimos algo como esto en los 8 en una empresa que fundé:

“Un Reconocidor de voz continuo que utiliza redes neuronales de codificador de dos etapas”, Proc. Conferencia conjunta internacional sobre redes neuronales , Washington DC, enero de 1990, págs. II-306 -II-309 (con Anikst, Mark, Newstadt, RE, SS Pirzadeh, JE Schumacher, P.Shinn, MC Soares, DJ Trawick).