Hay muchas formas de hacerlo dependiendo de la precisión actual del sistema.
Si la precisión está bastante lejos de los mejores sistemas, puede comparar los mejores sistemas y para cada segmento de voz pequeño (segmentado en los puntos de baja intensidad para evitar cortar en medio de una palabra) puede comparar tanto las salidas como para cada coincidencia. a 1, por diferencia es -1, para ninguna salida de ninguno de los sistemas, es a 0.
Si tiene muchos datos y acceso a los mejores sistemas, al menos también las versiones de prueba, este enfoque funcionará bien.
Hay otro enfoque si no quieres pasar por esto.
Gran cantidad de datos etiquetados está disponible en línea. La mejor fuente de dichos datos son los videos de YouTube subtitulados, puede usarlos como datos de prueba. Estoy seguro de que encontrará esos datos en forma limpia en algún repositorio.
Ahora ambos enfoques funcionan bien para muchos datos, ya que solo genera 1 o 0 o -1 no en fracciones. Le brinda información sobre dónde encontrar los datos, pero la métrica es rudimentaria.
Ahora, puede probar el tercer enfoque, cambiando la métrica de la prueba.
Intente encontrar la diferencia de distribución fonética entre las dos palabras, es decir, la salida de estos dos sistemas o la salida de su sistema y la etiqueta, encontrará una mejor métrica.
A mayor diferencia absoluta, mayor divergencia, mayor tasa de error.
- ¿Cuál es la mejor manera de practicar y desarrollar habilidades, como un nuevo lenguaje, hablar en público y negociar?
- Cómo decir más con menos palabras.
- Tengo un problema de tartamudeo. ¿Qué debo hacer para superar este problema?
- ¿Qué puedes hacer con un impedimento del habla horrible cuando tienes 21 años?
- Cómo escribir un discurso de agradecimiento al pastor
Esto le dará el resultado en caso de una cantidad de datos comparativamente mucho más rápida, pero será computacionalmente un poco más costoso. Eso es todo lo que creo que habría hecho si lo estuviera haciendo.
Déjame saber lo que piensas.