Tengo muchas hojas de Excel con muchos datos en la misma estructura. ¿Cuál será una mejor manera de guardar estos datos para analizarlos fácilmente más adelante?

En general, convertiría esta información en una sola base de datos . Utilizo esa palabra como un concepto, en lugar de una herramienta. Algunas herramientas recomendadas según el tamaño de los datos y el tipo de análisis se encuentran al final de mi respuesta.

Por base de datos me refiero a una estructura única que describe y captura toda la información de sus diferentes hojas. Dado que la estructura de cada hoja ya es la misma, es cuestión de copiar pegar las hojas en la misma hoja para llegar a una base de datos completa. Es posible que deba agregar un campo adicional, si sus hojas representan una dimensión separada.

Digamos que cada hoja es una región, y los datos son registros de ventas para esa región. Es posible que deba agregar una columna llamada ‘región’ a su base de datos principal para asegurarse de no perder esa dimensión.

Para hacer la conversión , recomendaría hacerlo manualmente si habla de algunas hojas y un tamaño de datos limitado. Sin embargo, si tiene docenas de hojas y / o cientos de miles de entradas; Es posible que desee invertir en una solución estructural. El código / macros de VBA puede hacer el truco, pero un script en python o en algún otro idioma también ayudará.

Para almacenar los datos, considere algunas de las siguientes opciones

  • Excel: para conjuntos de datos de hasta 100k filas esto funciona bien
  • CSV: puede tomar cualquier tamaño, pero su tamaño de archivo puede explotar. Sin embargo, prácticamente cada herramienta puede usar estos archivos
  • MS Access: puede manejar conjuntos de datos más grandes que Excel (hasta 2 GB si no me equivoco) y le permite explorar datos visualmente y hacer análisis básicos a través de las interfaces
  • Bases de datos SQL: un paso más allá del acceso de MS, herramientas como el servidor SQL, PostgreSQL, Oracle, MySQL SQLite, … pueden tomar conjuntos de datos de cualquier tamaño, pero requerirán algo de codificación para hacerlo

Analizar los datos.

  • Use Excel (incluso puede vincularlo a otras fuentes de SQL o MS Access) si los conjuntos de datos no son demasiado grandes (hasta 100k suele ser mi regla general)
  • Para la visualización , puede considerar algo como Tableau
  • Para análisis pesados ​​en grandes volúmenes de datos, la programación es una buena apuesta (por ejemplo, python o R). Existen más herramientas visuales como SAS, Alteryx, Cognos, … pero generalmente son caras

Obtendrá mejores respuestas si proporciona más información. ¿Cuántos son muchos? 5 o 500? ¿Qué es una gran cantidad de datos para ti? 2000 filas o 200,000? ¿Cambiarán alguna vez esas hojas? Si lo hicieran, ¿necesitaría reflejar esos cambios? ¿Con qué herramientas ya estás familiarizado?

Ok, con eso fuera del camino, aquí hay un par de opciones a considerar:

Sobresalir:

Con la opción Obtener y transformar datos en la cinta de datos, puede agregar varias tablas en una sola tabla dinámica. A partir de ahí, puede comenzar a agregar y producir gráficos dinámicos, etc. Sé que esto no va a manejar grandes cantidades de datos bien, pero tiene el beneficio de ser una solución de herramienta única y no le pide que aprenda cosas más complicadas como R .

Power BI:

Si no está familiarizado con esto, haga clic aquí: Herramientas interactivas de BI de visualización de datos | Microsoft Power BI

Utilizando un pequeño ejemplo del tipo de cosas que describió: varias tablas de Excel (Norte, Sur, Este, Oeste) con la misma estructura, pude vincular muy rápidamente a xlsx y agregar las tablas a una sola tabla. Una vez hecho esto, fue fácil crear gráficos, matrices, etc. para analizar (ver las capturas de pantalla), que se pueden ‘dividir’ o filtrar como un grupo.

También voy a secundar la sugerencia de Philip R. Es increíble, pero prepárate para dedicar algo de tiempo a aprender algunos conceptos básicos. Sin embargo, vale la pena.

Espero que ayude.

Power BI:

Todas las regiones en mi ejemplo:

¿Quieres enfocarte en el norte? Simplemente haga clic en el gráfico superior izquierdo y listo:

Mi respuesta es la misma que Dylan. Vaya a las herramientas de pila de MS Power BI.

Sin embargo, si no tiene Excel 2016, (la funcionalidad Power Query está integrada de manera predeterminada en la cinta de datos en Excel 2016) Deberá descargar el complemento Power Query. Comprueba mi respuesta en un hilo diferente.

La respuesta de Sagar Malik a ¿Cómo puedo abrir un archivo csv grande?

No soy un experto, pero una sugerencia es guardarlo como un archivo de texto. Esto se denomina archivo de variables separadas por comas o archivo .cvs y es un formato de salida estándar de Excel. La mayoría de las bases de datos pueden importar archivos .csv.