Tengo 10 años de datos en formato XML y me gustaría iniciar esfuerzos de análisis para ello. ¿Cuáles son algunos de los enfoques que debo considerar?

¿Cuál es el banco de datos que tienes? ES DECIR. ¿Qué contienen los datos?

¿Cuáles son los objetivos que estás tratando de lograr?

Si puede responder esas dos preguntas, es más que probable que pueda descargar un paquete de análisis completo para el propósito para el que desea analizar los datos dentro de la plataforma R desde una biblioteca CRAN.

R se puede descargar de forma gratuita desde la comunidad R o ‘Revolution R’, la compañía que ha creado un contenedor sobre OpenSource R para que esté lista para la empresa y, por lo tanto, sea más robusta / compatible.

Descargar Revolution R Open (RRO) 8.0.1

Esencialmente, otras personas han escrito el análisis por usted y usted tiene que ajustar los scripts para sus propios datos.

También puede probar Watson Analytics, que está disponible como una oferta gratuita actualmente en IBM.

IBM Watson Analytics – Edición gratuita

Es probable que necesite convertir su xml en una gran cantidad de datos estandarizados como un primer paso. A menos que esté buscando hacer tipos específicos de análisis que pueden requerir diferentes organizaciones de datos para permitir que el proceso matemático se ejecute en función de la técnica que va a aplicar a los datos.

Como dice Gareth a continuación. Conozca sus datos primero. Entonces, si el dinero es un problema, hay múltiples programas de conversión XML que son de código abierto. Una vez en formato de texto, puede convertir a casi cualquier cosa. Luego decida si NOSQL o un RDBMS estándar es la mejor herramienta para almacenarlo. Después de eso, es simplemente cargar y listo. Recuerde, una licencia de desarrollo de Oracle es gratuita durante 6 meses si se dirige hacia rdbms y una instancia estructurada OLAP. Si te diriges a NOSQL, mi favorito personal es Cassandra.

vas a tener que transformarlo en datos tabulares. Puede hacerlo con la mayoría de los paquetes de análisis de datos; Yo recomendaría SAS. Hay una versión gratuita llamada “SAS Univeristy Edition” que se ejecuta en el navegador.