Puede tomar una secuencia de segmentos de voz de 10 milisegundos o 20 milisegundos, representarlos por sus coeficientes cepstrales (la representación convencional). Use una secuencia deslizante de estos cortes que sea más larga que el fonema más largo (aproximadamente) y use esta ventana deslizante de características (el número de coeficientes cepstrales que representan cada corte multiplicado por el número de cortes en la ventana. Use un algoritmo de reconocimiento de voz convencional para etiquetar los fonemas fuera de línea para obtener muestras etiquetadas y luego usar el aprendizaje automático (reconocimiento de patrones) para crear un algoritmo que pueda identificar fonemas dentro de la ventana que ha elegido sin alineación forzada. Supongo que no hay razón para no usar la alineación forzada para crear algoritmo, y que su restricción está en el uso del algoritmo final para identificar la ubicación de fonemas específicos.
Hicimos algo como esto en los 8 en una empresa que fundé:
“Un Reconocidor de voz continuo que utiliza redes neuronales de codificador de dos etapas”, Proc. Conferencia conjunta internacional sobre redes neuronales , Washington DC, enero de 1990, págs. II-306 -II-309 (con Anikst, Mark, Newstadt, RE, SS Pirzadeh, JE Schumacher, P.Shinn, MC Soares, DJ Trawick).
- ¿Cuánto tiempo lleva escribir un discurso?
- Si jurar es un discurso colorido, ¿no es un juramento hablar en blanco y negro?
- ¿Cuáles son algunas buenas ideas para un discurso de unidad?
- ¿Cuáles son los buenos discursos de la era clásica?
- ¿Cuáles son las perspectivas futuras del estilo de declaración pública?