Soy un científico de datos. Microsoft Excel, Notepad ++ y JMP son mis favoritos personales. Para Python, recomiendo Anaconda. El Spyder IDE es muy similar a RStudio. Todas estas son herramientas poderosas que pueden ayudarlo a limpiar y analizar datos rápidamente.
Microsoft Excel no puede manejar conjuntos de datos muy grandes, pero es excelente con cualquier cosa que pueda manejar. Las fórmulas y características integradas no tienen comparación. ¡Puedo tabular datos y hacerlos presentables en cuestión de segundos usando solo los atajos de teclado! Realmente respeto a los desarrolladores de Excel por la cantidad de pensamiento y trabajo que han puesto en toda la aplicación … El complemento Power Query disponible de Microsoft (de forma gratuita, ya que esperan que hayas pagado por el paquete de Office) es bastante impresionante. Puedes conseguirlo desde aquí. Aquí hay algunas capturas de pantalla que muestran las características que tiene:
Esta es la pestaña Power Query que aparece en Excel una vez que se instala el complemento. Cuando abre un conjunto de datos que lo usa, obtiene una ventana separada:
- ¿Soy una persona ignorante?
- Recibí un correo de accenture pidiéndome que visitara un enlace. Puse mis credenciales allí y me muestran una cuenta regresiva. ¿Es esa cuenta regresiva para mi unión final?
- Si tengo un objeto antes en una imagen, ¿cuál es la forma general de obtener un cuadro delimitador utilizando dicho objeto antes?
- Quiero vivir en Miami pero quiero seguir una carrera creando programas de televisión. ¿Puedo seguir esa carrera en Miami o necesito mudarme a Los Ángeles?
- He aparecido en NEET 1. No quiero reaparecer en NEET 2. ¿Es obligatorio dar NEET 2? ¿Cuándo se declarará mi resultado de NEET 1?
Estoy trabajando en datos muy confidenciales y, por lo tanto, los he pixelado en las imágenes de arriba. De todos modos, como puede ver, el complemento Power Query extiende Excel para hacer mucho más de lo que normalmente puede. También admite conexiones a muchos tipos diferentes de bases de datos, incluidas las basadas en Hadoop.
Notepad ++ es absolutamente versátil. Puede manejar una gran cantidad de formatos de archivo y maneja muy bien archivos grandes. Me encanta la forma en que puedes mantener Alt y seleccionar columnas de texto personalizadas.
La función de buscar y reemplazar también es increíble: a veces acepta expresiones regulares y hace que la limpieza de datos sea muy sencilla.
Mire la esquina inferior derecha de la ventana de arriba: el cuadro de buscar y reemplazar se vuelve transparente cuando pierde el foco; esta es una característica muy pequeña, pero no obstante, ¡reflexiva! Es por eso que AMO absolutamente Notepad ++.
Hay muchos complementos muy útiles que también puedes instalar. La mejor parte es que es un gran IDE que admite resaltado de sintaxis para una gran cantidad de lenguajes de programación. Si bien no se ve tan elegante y moderno como Sublime Text, siempre ha sido 100% gratuito y seguirá siéndolo. Aquí hay algunas capturas de pantalla:
Hay muchos complementos en la lista … ¡Puedes ver el tamaño de la barra de desplazamiento! Simplemente haga clic en uno para ver su descripción a continuación. Aquí están los complementos que uso yo mismo:
El complemento ‘SQL’, por ejemplo, le permite ejecutar consultas SQL en cualquier archivo de datos que tenga abierto en el editor. Convertidor le permite convertir una cadena de ASCII -> Hex y viceversa. El complemento ‘Combinar’ le permite combinar todos los archivos abiertos en uno. Usted entiende la idea … Hay muchos más complementos que pueden ser útiles en diferentes situaciones.
Por ejemplo, hay algunos complementos de explorador de archivos que le permiten instalar un pequeño explorador de archivos dentro del programa.
Tiene una opción de menú para mantenerlo siempre “encima” de otras ventanas, extremadamente útil cuando tienes material de referencia en segundo plano y estás escribiendo código en NPP. Nota: ¡hay muchas funciones de NPP disponibles de inmediato!
Alternar el modo de pantalla completa hace que NPP sea ‘zen’ como cualquier otro editor de texto. Puede ver dos documentos uno al lado del otro y habilitar el desplazamiento vertical / horizontal sincronizado utilizando la opción ‘Mover / Clonar documento actual’. Esto es particularmente útil si estás haciendo algún tipo de comparación. Si su código se ejecuta tanto en Windows como en Linux, es probable que a veces tenga problemas con los caracteres EOL y EOF. La opción ‘Mostrar símbolo’ es muy útil en tales casos: alternar muestra todos los caracteres en el archivo, como retornos de carro y nuevas líneas.
Llegando al menú Editar …
Los elementos anteriores se explican por sí mismos, pero solo necesita abrir los submenús para ver cuán rica es esta aplicación.
Me encanta usar JMP porque hace que la visualización sea muy fácil. Este es un programa de los creadores de SAS, ¡para que tenga una idea de la calidad que puede esperar! Puede crear columnas calculadas, ordenar y subdividir datos, conectarse a una variedad de bases de datos, realizar fusiones, uniones, etc. sin tener que escribir una sola línea de código. Puede crear gráficos estándar de alta calidad simplemente arrastrando variables a los ejes del programa. Inconveniente: no es gratis.
Desafortunadamente, las tres herramientas se ejecutan solo en Windows. Spyder, sin embargo, está disponible para Windows y Linux. También hay un clon de Linux de Notepad ++ llamado Notepadqq. No lo he usado yo mismo, pero de las capturas de pantalla, se ve idéntico a Notepad ++.
NOTA:
No estoy afiliado a ninguno de los programas de software mencionados aquí de ninguna manera. No me pagan para respaldar estas herramientas. Esta respuesta ha sido escrita completamente por mi propia voluntad.