La ciencia de datos se utiliza para extraer algunos conocimientos profundos de los datos estructurados o no estructurados. La extracción de conocimiento es la tarea principal de la ciencia de datos, por lo que serán útiles métodos como agrupamiento, clasificación, estadísticas, etc. Desde mi experiencia personal, las principales habilidades necesarias para la ciencia de datos son: –
- Un buen control de las matemáticas, especialmente en estadística.
- Aprendizaje automático: para obtener conocimiento sobre el aprendizaje automático o los algoritmos de minería de datos, como la regresión, la agrupación de medios K, etc.
- Habilidades de programación (Python, Java)
¿Por qué un buen control de las matemáticas?
Tomemos un ejemplo de anomalía o detección de valores atípicos que se ocupa de encontrar patrones en datos que no se ajustan al comportamiento normal esperado. Con el método IQR (Inter Quartile Range), podemos detectar fácilmente los valores atípicos en nuestros datos numéricos. Hay otros métodos presentes también para resolver este problema como MAD (desviación absoluta media), pero es solo un ejemplo para mostrar la importancia de las estadísticas en la ciencia de datos.
¿Por qué el aprendizaje automático?
- ¿Cuáles son las habilidades básicas requeridas para la bioinformática?
- Cómo encontrar un trabajo de optimización de motores de búsqueda y qué habilidades necesito para eso
- ¿Cuáles son las habilidades básicas de programación requeridas para la bioinformática?
- ¿Qué habilidades son necesarias para trabajar en el laboratorio Mu Sigma I&D?
- ¿Cómo puede uno aumentar sus habilidades de pensamiento positivo?
La ciencia de datos se ocupa de diferentes tipos de datos (numéricos, categóricos o muchos más) de tamaño pequeño a grande. Para procesar una gran cantidad de datos, los algoritmos deberían funcionar de manera eficiente (aquí significa eficientemente que la complejidad de espacio y tiempo debe ser óptima). Algunos algoritmos básicos como la regresión lineal, la agrupación de vecinos K-Nearest, la máquina de vectores de soporte, que funciona de manera eficiente. Hay muchos más.
Puede ver una buena serie de videos del Dr. Andrew NG para aprender estas habilidades que se pueden aplicar a la Ciencia de Datos.