¿Qué habilidades especializadas se necesitan para construir un producto de IA?

La respuesta rápida es ninguna . Cualquiera puede comenzar a construir un producto de IA. Animo a cualquier persona nueva en el aprendizaje automático a ver algunos tutoriales en línea y comenzar a hackear su camino hacia algo interesante. No hay mejor manera de aprender que a través del fracaso y la iteración.

Pero si estamos hablando de un producto exitoso que involucra a los usuarios y compite en el mercado, entonces las habilidades requeridas deben ubicarse en el contexto de un equipo de trabajo. Los productos exitosos son esfuerzos de colaboración y sus contribuciones serán responsables ante el panorama general.

Las habilidades especializadas abarcan el espectro de roles en el equipo del producto. Los 3 roles de datos son obviamente críticos para el éxito de un producto de IA, estos son analista de datos, científico de datos e ingeniero de datos. En un nivel alto, el desglose de habilidades es el siguiente:

Otros roles incluyen analista de negocios, QA, gerentes de producto e iteración, etc., todos trabajando juntos para hacer el producto final.

Me centraré en la posición del científico de datos, ya que son fundamentales para el éxito de los productos actuales de IA. Las habilidades especializadas en estos puestos deben enmarcarse en términos del flujo de trabajo del aprendizaje automático:

  1. Recopilación y perfil de datos
  2. Preparación de datos
  3. Construcción del modelo
  4. Modelo de validación
  5. Despliegue de modelo

Lo desglosaré en términos de tecnología y habilidades de las personas . Las habilidades tecnológicas deben basarse en R y / o Python, junto con marcos como Spark y TensorFlow. Las habilidades de las personas son cómo interactuamos con otros miembros del equipo y partes interesadas en la organización. Ambas son habilidades críticas para tener.

Recopilación y perfil de datos

Tecnología:

  • buscar datos en una variedad de formatos;
  • use una variedad de técnicas de muestreo para obtener muestras representativas;
  • visualice las tendencias y patrones que le permitirán contar una historia de lo que encontró en los datos.

Personas:

  • convencer a los interesados ​​para que compartan sus datos;
  • explicar visuales en términos laicos;
  • encuentre nuevas fuentes de datos que puedan mejorar las posibilidades de éxito.

Preparación de datos

Tecnología:

  • encuentre formas de unir tablas dispares;
  • crear varias formas y formatos de conjuntos de datos (por ejemplo, tablas con submuestreo, matrices de términos de documentos, etc.);
  • manejar datos faltantes utilizando una variedad de enfoques diferentes;
  • realizar selección de características e ingeniería de características;
  • realizar reducción de dimensionalidad;
  • anonimizar datos si es necesario;
  • eliminar / reducir funciones correlacionadas si es necesario.

Personas:

  • experiencia de dominio de puente para cada uno de los pasos de preparación.

Construcción del modelo

Tecnología:

  • construir una variedad de modelos;
  • adaptar algoritmos utilizando optimización de hiperparámetros personalizada y automatizada;
  • lograr un equilibrio entre el sesgo y la varianza de sus modelos;
  • reducir la complejidad del modelo utilizando enfoques de regularización.

Personas:

  • colocar modelos en productos con anticipación para solicitar comentarios de los usuarios;
  • incorporar comentarios de los usuarios en cómo se sintonizan los hiperparámetros.

Modelo de validación

Tecnología:

  • analizar matrices de confusión y curvas ROC;
  • obtener evaluaciones más precisas de la precisión predictiva mediante validación cruzada;
  • comprender los costos de hacer predicciones incorrectas (así como predicciones correctas, ya que impactan a los individuos marginados en la población que está analizando);
  • lograr el equilibrio correcto entre sensibilidad y especificidad en lo que respecta a los requisitos del producto;
  • logre el equilibrio correcto entre precisión y recuperación en lo que respecta a los requisitos del producto.

Personas:

  • cuente una historia con su validación sobre cómo los usuarios finales se verán afectados por el poder explicativo y predictivo del aprendizaje automático;
  • responsabilice a su aprendizaje automático de algo más que medidas estadísticas internas de validación. Haga que la satisfacción del usuario sea el verdadero objetivo de optimización.

Despliegue de modelo

Tecnología:

  • manejar cargas de trabajo por lotes, transmisión y mixtas;
  • envolver API RESTful alrededor de modelos;
  • Permitir a los usuarios explorar imágenes y volver a entrenar modelos a través de la interfaz web.

Personas:

  • trabajar junto con ingenieros de datos para implementar lo anterior, de manera que conserve resultados de calidad;
  • Implemente modelos temprano, para solicitar e incorporar los comentarios de los usuarios necesarios.

Aquí hay un árbol conceptual que puede explorar, que muestra lo anterior.

Habilidades duras y suaves para construir productos de IA exitosos

Casi todo el aprendizaje automático aplicado es supervisado.

Eso significa que los modelos necesitan datos.

Los modelos son temperamentales, por lo que solo quieren datos realmente limpios.

La habilidad básica de la que la mayoría no habla es la limpieza de datos.

Para hacer eso, necesitarás aprender Pandas en Python y SQL.

Masajear datos es una habilidad muy especializada.

Nuevo en el campo, tome este curso gratuito sobre los mejores algos de aprendizaje automático utilizados en la construcción de modelos en el espacio aplicado. Es corto, no hay matemáticas y toneladas de imágenes.

Una introducción al aprendizaje automático para ingenieros de datos

Los motores de IA (Google Tensor Flow, Open AI) están disponibles ahora para usar con muy poco conocimiento previo del campo. Así que supongo que aún necesitarías conocer un lenguaje de programación, algoritmos y estructuras de datos. A partir de ahí, necesitaría un problema para resolver / optimizar usando AI. Entonces es solo una carga de trabajo duro.