¿Dónde y cómo obtienen los desarrolladores de reconocimiento de voz conjuntos de datos para capacitación? ¿Y a qué costo? Cosas Personales

Hay docenas de formas en que puede obtener los datos. Muchos de ellos fueron discutidos en una investigación dedicada.

Registre los datos usted mismo y transcríbase usted mismo.
Registre los datos usted mismo y transcríbase en la empresa de transcripción WordWave, ahora DTI, transcribió los datos utilizados en los desafíos de corpus DARPA Fisher.
Utiliza datos públicos de la web. Puede obtener datos de Youtube, Librivox, Freesound, Kaltura, Forvo y muchas otras fuentes. Hay muchas publicaciones que describen la recopilación supervisada, semi-supervisada o no supervisada de los datos, por ejemplo, verifique la última publicación de Google Neural Speech Recognizer: Modelo LSTM de Acoustic-to-Word para reconocimiento de voz de vocabulario grande sobre cómo se entrenaron con 100000 horas de datos de YouTube .
Registre datos de recursos de crowdsourcing como Amazon Turk. Por ejemplo, transcribiendo y anotando coros para el reconocimiento de voz: un enfoque de crowdsourcing de tres pasos con control de calidad
Utilice datos para diferentes idiomas para arrancar. Bootstrapping en varios idiomas para la formación de modelos acústicos sin supervisión: desarrollo rápido de un sistema de reconocimiento de voz polaco.
Recopile datos de los usuarios mientras usa la aplicación
Comprar datos de una empresa comercial. Hay LDC, SpeechOcean, Appen.

Los datos utilizados en la investigación de reconocimiento de voz nunca son fijos, siempre amplía y mejora su conjunto de datos para cubrir más variabilidad, más acentos o más ruidos, por lo que debe combinar todos los métodos anteriores para mejorar el modelo.

Si eres una gran empresa y tienes dinero, la forma más rápida sería

Obtenga un conjunto de datos básico de una empresa comercial como Appen o una institución de investigación. La licencia para el uso comercial de un conjunto de datos es algo así como $ 20k- $ 200k.
Ejecute el sistema en modo beta y recopile datos del usuario.
Implemente un control de calidad para seleccionar un subconjunto de datos que sea problemático para el usuario.
Ejecute esos datos “malos” a través de la transcripción manual de una empresa de transcripción y agréguelos a un conjunto de datos de capacitación para mejorar el sistema. El costo de la transcripción es algo así como $ 50-100 / hora para la transcripción aproximada. $ 600 / hora para una transcripción precisa. Necesitas 10 000 horas.

Google estuvo ejecutando este proceso durante años y ahora tienen muy buena tecnología.

Si eres pequeño, necesitas formas más inteligentes. El aprendizaje no supervisado y en varios idiomas es algo a considerar.