Si uso SAS, R y Python, ¿qué otros softwares necesito para trabajar sin problemas en el trabajo relacionado con la ciencia de datos?

Soy un científico de datos. Microsoft Excel, Notepad ++ y JMP son mis favoritos personales. Para Python, recomiendo Anaconda. El Spyder IDE es muy similar a RStudio. Todas estas son herramientas poderosas que pueden ayudarlo a limpiar y analizar datos rápidamente.

Microsoft Excel no puede manejar conjuntos de datos muy grandes, pero es excelente con cualquier cosa que pueda manejar. Las fórmulas y características integradas no tienen comparación. ¡Puedo tabular datos y hacerlos presentables en cuestión de segundos usando solo los atajos de teclado! Realmente respeto a los desarrolladores de Excel por la cantidad de pensamiento y trabajo que han puesto en toda la aplicación … El complemento Power Query disponible de Microsoft (de forma gratuita, ya que esperan que hayas pagado por el paquete de Office) es bastante impresionante. Puedes conseguirlo desde aquí. Aquí hay algunas capturas de pantalla que muestran las características que tiene:

Esta es la pestaña Power Query que aparece en Excel una vez que se instala el complemento. Cuando abre un conjunto de datos que lo usa, obtiene una ventana separada:

Estoy trabajando en datos muy confidenciales y, por lo tanto, los he pixelado en las imágenes de arriba. De todos modos, como puede ver, el complemento Power Query extiende Excel para hacer mucho más de lo que normalmente puede. También admite conexiones a muchos tipos diferentes de bases de datos, incluidas las basadas en Hadoop.

Notepad ++ es absolutamente versátil. Puede manejar una gran cantidad de formatos de archivo y maneja muy bien archivos grandes. Me encanta la forma en que puedes mantener Alt y seleccionar columnas de texto personalizadas.

La función de buscar y reemplazar también es increíble: a veces acepta expresiones regulares y hace que la limpieza de datos sea muy sencilla.

Mire la esquina inferior derecha de la ventana de arriba: el cuadro de buscar y reemplazar se vuelve transparente cuando pierde el foco; esta es una característica muy pequeña, pero no obstante, ¡reflexiva! Es por eso que AMO absolutamente Notepad ++.

Hay muchos complementos muy útiles que también puedes instalar. La mejor parte es que es un gran IDE que admite resaltado de sintaxis para una gran cantidad de lenguajes de programación. Si bien no se ve tan elegante y moderno como Sublime Text, siempre ha sido 100% gratuito y seguirá siéndolo. Aquí hay algunas capturas de pantalla:

Hay muchos complementos en la lista … ¡Puedes ver el tamaño de la barra de desplazamiento! Simplemente haga clic en uno para ver su descripción a continuación. Aquí están los complementos que uso yo mismo:

El complemento ‘SQL’, por ejemplo, le permite ejecutar consultas SQL en cualquier archivo de datos que tenga abierto en el editor. Convertidor le permite convertir una cadena de ASCII -> Hex y viceversa. El complemento ‘Combinar’ le permite combinar todos los archivos abiertos en uno. Usted entiende la idea … Hay muchos más complementos que pueden ser útiles en diferentes situaciones.

Por ejemplo, hay algunos complementos de explorador de archivos que le permiten instalar un pequeño explorador de archivos dentro del programa.

Tiene una opción de menú para mantenerlo siempre “encima” de otras ventanas, extremadamente útil cuando tienes material de referencia en segundo plano y estás escribiendo código en NPP. Nota: ¡hay muchas funciones de NPP disponibles de inmediato!

Alternar el modo de pantalla completa hace que NPP sea ‘zen’ como cualquier otro editor de texto. Puede ver dos documentos uno al lado del otro y habilitar el desplazamiento vertical / horizontal sincronizado utilizando la opción ‘Mover / Clonar documento actual’. Esto es particularmente útil si estás haciendo algún tipo de comparación. Si su código se ejecuta tanto en Windows como en Linux, es probable que a veces tenga problemas con los caracteres EOL y EOF. La opción ‘Mostrar símbolo’ es muy útil en tales casos: alternar muestra todos los caracteres en el archivo, como retornos de carro y nuevas líneas.

Llegando al menú Editar …

Los elementos anteriores se explican por sí mismos, pero solo necesita abrir los submenús para ver cuán rica es esta aplicación.

Me encanta usar JMP porque hace que la visualización sea muy fácil. Este es un programa de los creadores de SAS, ¡para que tenga una idea de la calidad que puede esperar! Puede crear columnas calculadas, ordenar y subdividir datos, conectarse a una variedad de bases de datos, realizar fusiones, uniones, etc. sin tener que escribir una sola línea de código. Puede crear gráficos estándar de alta calidad simplemente arrastrando variables a los ejes del programa. Inconveniente: no es gratis.

Desafortunadamente, las tres herramientas se ejecutan solo en Windows. Spyder, sin embargo, está disponible para Windows y Linux. También hay un clon de Linux de Notepad ++ llamado Notepadqq. No lo he usado yo mismo, pero de las capturas de pantalla, se ve idéntico a Notepad ++.

NOTA:

No estoy afiliado a ninguno de los programas de software mencionados aquí de ninguna manera. No me pagan para respaldar estas herramientas. Esta respuesta ha sido escrita completamente por mi propia voluntad.

Usaría Python / R / SAS el 70-80% del tiempo en trabajos relacionados con la ciencia de datos.

El primer paso de cualquier proyecto de ciencia de datos es extraer datos de una base de datos. Debe conocer SQL para extraer datos de un entorno de almacenamiento de datos grande (Teradata / Oracle). En algunos casos, es posible que deba trabajar en grandes conjuntos de datos y contenido no estructurado utilizando grandes plataformas de datos e informática como Hadoop / NoSql / Hbase / Pig / Hive.

Realizaría limpieza de datos, reducción de dimensionalidad y modelado predictivo con SAS / R / Python. Al final, debes presentar tus números. Para eso, necesita saber MS EXCEL, Powerpoint. Si proporciona sus resultados a un informe web, debe estar familiarizado con las herramientas de visualización de datos, como Tableau / Qlikview / SAS Visual Analytics.

A veces, es posible que se le solicite implementar algoritmos de aprendizaje automático para realizar lo suficientemente rápido en el entorno de producción. En ese caso, Java, C ++, Python serían tus herramientas.

More Interesting

Soy una niña y publiqué mi foto en int y todos comentaron lo fea que era. También mencionaron que mi amigo era más guapo. ¿Que puedo hacer?

No puedo mantener mi departamento organizado ni hacer nada mientras estoy en casa. ¿Cómo puedo lidiar con este problema?

Mi amigo obtuvo un puntaje de 710 en el GMAT y tiene 10 años de experiencia laboral en TI. ¿Cuáles son sus posibilidades de ingresar a una buena escuela B en India / Estados Unidos?

Tengo una formación académica débil para el CAT 15 con 84% en 10º, 58.6 en 12º, 70.7% en BTech y 2 años de experiencia laboral. ¿En qué universidades debería centrarme para el CAT 15? ¿Cuál debería ser mi puntaje de percentil?

Tengo varios rollos de papel kraft y me gustaría cortarlos en hojas cuadradas de papel, tal vez 15 × 15. ¿Hay lugares como Kinko’s o Joann o algo que reduciría los rollos a esos tamaños?

Si consigo una bicicleta motorizada, ¿tendré que conducir en la carretera y obtener una licencia de motocicleta?

Quiero comenzar a invertir en el mercado de acciones en India (BS & NSE) desde donde debería comenzar.

Soy colombiano y vivo en Bogotá. ¿Puedo obtener la ciudadanía australiana o la residencia de Bogotá? Tengo el dinero para estudiar en ingeniería QUT.

Cuando miro algunos problemas matemáticos de la Olimpiada, me siento realmente intimidado. Solo sé cómo resolver problemas básicos, nada especial, pero me gustan mucho las matemáticas. ¿Hay alguna esperanza de que me convierta en matemático?

¿Por qué me siento como un fracaso en la escuela de posgrado?