¿Puede una startup de reconocimiento de voz vencer a grandes empresas?

¿Hace años que? Probablemente. ¿Ahora? Sería más difícil sin limitar el alcance del problema que está tratando de resolver.

La precisión del reconocimiento de voz depende de muchos factores, incluidos los algoritmos que usa, la ciencia del habla que respalda la conversación, el tamaño del vocabulario y si puede capacitar al usuario para que pueda adaptar sus modelos, por nombrar algunos. Pero uno de los mayores factores de éxito es el corpus de datos. Necesitas datos para entrenar a los modelos. Podría tener la IA de aprendizaje profundo más eficiente y no es nada sin datos de la vida real. ¿Qué dice la gente? ¿Cómo lo dicen? ¿Coleccionó altavoces de suficientes regiones del mundo, con suficientes acentos y variaciones de voz, para hacer que sus modelos acústicos y de altavoces sean lo más robustos posible? ¿Tiene suficientes ejemplos de lo que dice la gente, qué palabras usan, cómo emiten comandos, de qué les gusta hablar, para que sus modelos de lenguaje sean lo más robustos posible? Las grandes compañías han estado acumulando datos durante décadas. Google se metió en la carrera desde el principio porque pudieron aprovechar los datos que ya habían recopilado. Nuance de hoy ha heredado todos los datos que Dragon y Speechworks y Scansoft, y el “viejo Nuance” recopilaron desde los años 90 y continúa recolectando datos hoy. Llevaría años y años de trabajo de recopilación ponerse al día donde están ahora, y para entonces habrían recopilado más datos y mejorado aún más su precisión.

La forma en que las compañías de discurso han tenido éxito en este mundo hasta ahora ha sido centrándose en tareas más pequeñas, básicamente, lo que está haciendo con el discurso, en lugar de un dictado abierto y directo. Algunos incluso simplemente han licenciado los motores en bruto de estas compañías más grandes para sus propósitos. Intentar superar la potencia informática y la recopilación de datos de las grandes empresas es una situación perdedora. Pero tomar ese motor de reconocimiento como una capa de abstracción y desarrollar una interfaz y una inteligencia conversacional y comprensión semántica y todo eso además del poder de reconocimiento en bruto … Ahí es donde radica el futuro.

Asistentes virtuales, bots, agentes inteligentes, el próximo Siri, llámalos como quieras: una de las siguientes grandes cosas se construirá sobre el poder de reconocimiento en bruto del discurso, con una conversación inteligente que puede determinar tu intención a partir de tus palabras y conéctelo a algo que pueda obtener la información o comenzar el trabajo por usted. (Mi compañía, Pega, es una de las muchas que está buscando seriamente en este camino).

Si seguro. La historia se repite una y otra vez. En los años 80, IBM fue el Goliat del reconocimiento de voz. Una pequeña startup Dragon creó un producto mucho mejor Dragon NaturallySpeaking, que todavía vende Nuance. Dragón ganó el mercado.

El tamaño no siempre gana si te enfocas en resolver problemas reales. Y las compañías como Google no están realmente tratando de resolver su problema, su objetivo probable es recopilar sus datos.

Puedes leer la historia del fundador del Dragón en la respuesta de James Baker a ¿Cuáles son algunas de las grandes historias de David y Goliat en los negocios?

Absolutamente, echa un vistazo a Speechmatics. Estamos dando a IBM, Microsoft, Nuance y Google una carrera por su dinero cuando se trata de precisión, velocidad y número de idiomas (superando a IBM y Microsoft en este momento). Puede evaluar el sistema de forma gratuita en el sitio web, Speechmatics – Tecnología automática de reconocimiento de voz