Hay docenas de formas en que puede obtener los datos. Muchos de ellos fueron discutidos en una investigación dedicada.
- Registre los datos usted mismo y transcríbase usted mismo.
- Registre los datos usted mismo y transcríbase en la empresa de transcripción WordWave, ahora DTI, transcribió los datos utilizados en los desafíos de corpus DARPA Fisher.
- Utiliza datos públicos de la web. Puede obtener datos de Youtube, Librivox, Freesound, Kaltura, Forvo y muchas otras fuentes. Hay muchas publicaciones que describen la recopilación supervisada, semi-supervisada o no supervisada de los datos, por ejemplo, verifique la última publicación de Google Neural Speech Recognizer: Modelo LSTM de Acoustic-to-Word para reconocimiento de voz de vocabulario grande sobre cómo se entrenaron con 100000 horas de datos de YouTube .
- Registre datos de recursos de crowdsourcing como Amazon Turk. Por ejemplo, transcribiendo y anotando coros para el reconocimiento de voz: un enfoque de crowdsourcing de tres pasos con control de calidad
- Utilice datos para diferentes idiomas para arrancar. Bootstrapping en varios idiomas para la formación de modelos acústicos sin supervisión: desarrollo rápido de un sistema de reconocimiento de voz polaco.
- Recopile datos de los usuarios mientras usa la aplicación
- Comprar datos de una empresa comercial. Hay LDC, SpeechOcean, Appen.
Los datos utilizados en la investigación de reconocimiento de voz nunca son fijos, siempre amplía y mejora su conjunto de datos para cubrir más variabilidad, más acentos o más ruidos, por lo que debe combinar todos los métodos anteriores para mejorar el modelo.
Si eres una gran empresa y tienes dinero, la forma más rápida sería
- Obtenga un conjunto de datos básico de una empresa comercial como Appen o una institución de investigación. La licencia para el uso comercial de un conjunto de datos es algo así como $ 20k- $ 200k.
- Ejecute el sistema en modo beta y recopile datos del usuario.
- Implemente un control de calidad para seleccionar un subconjunto de datos que sea problemático para el usuario.
- Ejecute esos datos “malos” a través de la transcripción manual de una empresa de transcripción y agréguelos a un conjunto de datos de capacitación para mejorar el sistema. El costo de la transcripción es algo así como $ 50-100 / hora para la transcripción aproximada. $ 600 / hora para una transcripción precisa. Necesitas 10 000 horas.
Google estuvo ejecutando este proceso durante años y ahora tienen muy buena tecnología.
- ¿Qué le pareció el discurso de la Marcha de las Mujeres de Ashley Judd?
- ¿Es el “discurso de odio” un crimen de pensamiento?
- ¿Cuántos de ustedes encontraron que el discurso de Donald Trump recuerda al discurso de Narendra Modi?
- ¿Qué parte del discurso es “ser”?
- ¿Cómo se estructura el discurso informado en idiomas de diferentes familias?
Si eres pequeño, necesitas formas más inteligentes. El aprendizaje no supervisado y en varios idiomas es algo a considerar.