Acabo de comenzar a aprender R. Soy un experto en SQL. ¿Qué proyectos de datos divertidos recomendarías?

Gracias por la pregunta.

Entonces, quiero comenzar con CRISP-DM (https: //exde.files.wordpress.com…). Necesitas pasar por CRISP paso a paso. Porque solo el conocimiento o la experiencia en herramientas no ayudarán en la ciencia de datos a largo plazo. debe estar familiarizado con todo el flujo de trabajo del ciclo de vida de un proyecto.

Entonces, comience con el primer pilar de CRISP que es Business Understanding . Primero debe comprender el negocio antes de realizar cualquier tipo de análisis. Sugeriré buscar estudios de casos de diferentes dominios (telecomunicaciones, banca, seguros, fraude, etc.)

El siguiente paso es la comprensión de los datos . Un analista debe tener una idea en profundidad sobre los puntos de datos (también viene con la comprensión de los negocios). Los analistas necesitan saber cómo recopilar datos, almacenar datos, describir datos, explorar datos y verificar la calidad de los datos.

Estudio de caso : gestión de datos del conjunto de datos de Freddie Mac.

Como próximo hito como preparación de datos Necesitamos preparar nuestro conjunto de datos para modelar o analizar. Este paso incluye la selección de datos, los datos limpios, el tratamiento de valores atípicos y valores faltantes, la creación de nuevas variables, etc. Luego debe integrar múltiples conjuntos de datos (unir y fusionar) y, por último, sus datos deben estar en el formato deseado.

Estudio de caso : gestión de datos del conjunto de datos de Freddie Mac.

La preparación de datos es seguida por una etapa de modelado o análisis, donde debe tomar algunas decisiones, como cuál es su objetivo para el modelado, qué metodología debe elegir, cuáles son las limitaciones, etc.

Necesitamos definir la estrategia de desarrollo, validación e implementación.

Estudios de caso :

  1. Regresión lineal, árbol de decisión, bosque aleatorio: predice el precio de la vivienda en Boston
  2. Regresión logística, árbol de decisión, bosque aleatorio: predicción de incumplimiento de la tarjeta de crédito (datos de la tarjeta de crédito alemana)

Una vez que se sienta cómodo con las técnicas básicas y el flujo de trabajo, puede emprender un gran proyecto.

Estudio de caso : predicción del incumplimiento de pago de EMI en el conjunto de datos Freddie Mac (conjunto de datos de nivel de préstamo unifamiliar)

Desarrollo del modelo seguido de evaluación y despliegue . Una vez que se implementa el modelo, debe supervisarlo. Una vez que su modelo no esté funcionando según el estándar, debe volver a calibrarlo. Este proceso se denomina monitoreo modelo de riesgo y mejora modelo .

Espero que haya ayudado !!

Diría que elija su pasatiempo o interés favorito y encuentre algunos datos en Internet que le brinden un punto de partida.

ex. Mi interés es el baloncesto, así que encontré un conjunto de datos de las estadísticas de jugadores de la NBA por año que data de más de 50 años. Usando el conjunto de datos para aclimatarse al paquete dplyr y estoy almacenando el trabajo en github.

DataWizKid / NBA-Stats