¿Cuáles son algunos buenos programas para evaluar la salida de un sistema de reconocimiento de voz?

Hay muchas formas de hacerlo dependiendo de la precisión actual del sistema.
Si la precisión está bastante lejos de los mejores sistemas, puede comparar los mejores sistemas y para cada segmento de voz pequeño (segmentado en los puntos de baja intensidad para evitar cortar en medio de una palabra) puede comparar tanto las salidas como para cada coincidencia. a 1, por diferencia es -1, para ninguna salida de ninguno de los sistemas, es a 0.

Si tiene muchos datos y acceso a los mejores sistemas, al menos también las versiones de prueba, este enfoque funcionará bien.

Hay otro enfoque si no quieres pasar por esto.
Gran cantidad de datos etiquetados está disponible en línea. La mejor fuente de dichos datos son los videos de YouTube subtitulados, puede usarlos como datos de prueba. Estoy seguro de que encontrará esos datos en forma limpia en algún repositorio.

Ahora ambos enfoques funcionan bien para muchos datos, ya que solo genera 1 o 0 o -1 no en fracciones. Le brinda información sobre dónde encontrar los datos, pero la métrica es rudimentaria.
Ahora, puede probar el tercer enfoque, cambiando la métrica de la prueba.
Intente encontrar la diferencia de distribución fonética entre las dos palabras, es decir, la salida de estos dos sistemas o la salida de su sistema y la etiqueta, encontrará una mejor métrica.
A mayor diferencia absoluta, mayor divergencia, mayor tasa de error.

Esto le dará el resultado en caso de una cantidad de datos comparativamente mucho más rápida, pero será computacionalmente un poco más costoso. Eso es todo lo que creo que habría hecho si lo estuviera haciendo.
Déjame saber lo que piensas.

¡Hola!

En IA, hay dos tipos de sistemas, Voz a texto y Texto a voz. Si está utilizando la programación de Python, será bastante fácil implementar tal cosa. El reconocimiento de voz funciona en una cosa muy simple y reconoce tu discurso. (Asegúrese de estar usando mucho acento británico para obtener un resultado preciso).

SpeechRecognition 3.6.5 Puede usar esta instalación de biblioteca en su máquina e intentarlo.

Si desea hacer lo contrario, me refiero a Texto a voz, puede usar el índice de paquete de Python de la biblioteca de voz a voz de Google

Puede hacer un programa simple para probar esto. Si está utilizando el Reconocimiento de voz, puede guardarlo en formato de texto, y en gTTS puede guardar .mp3 (sé que el formato de archivo .mp3 está oficialmente muerto ahora, pero puede intentarlo .)

Espero haber respondido tu pregunta.

Gracias,

NC – El quinto caballo

Aquí hay una buena biblioteca de Python: belambert / asr-Evaluation. ¡Espero que esto ayude!

Echa un vistazo, este material puede ayudarte.

https://pdfs.semanticscholar.org