Quiero subir de nivel mis habilidades de modelado estadístico (a diferencia de las habilidades de estadística y ML), pero no sé cómo comenzar. ¿Cuáles son las técnicas estándar que necesito saber? ¿Cuáles son los libros estándar que debo leer?

En Stanford, el plan de estudios de Estadística Aplicada para estudiantes de doctorado contiene los siguientes temas:
1) regresión lineal, regresión logística y otras técnicas de aprendizaje supervisado, generalmente enseñadas desde Elementos de aprendizaje estadístico, 2da edición.
2) Modelado bayesiano: un buen recurso es el libro de Gelman “Análisis de datos bayesianos”. En Stanford, esta es una clase opcional, pero personalmente creo que todos deberían aprender la inferencia bayesiana, incluso si nunca esperan usarla.
3) PCA, agrupamiento y otras técnicas de aprendizaje no supervisadas. También de Elementos de aprendizaje estadístico.
4) Familias exponenciales y modelos lineales generalizados. Aprendimos de las notas de clase; otros pueden tener sugerencias para libros.
5) El bootstrap: tanto el bootstrap paramétrico como el bootstrap no paramétrico. No es necesario estudiarlo en profundidad: la teoría es bastante complicada.

Estas constituyen las herramientas más comunes en la caja de herramientas del estadístico. En el futuro, los modelos gráficos también podrían convertirse en una herramienta estándar, pero aún se necesita más investigación en el área.

En mi licenciatura, también encontré que los modelos estadísticos de Davison son un recurso útil para aprender sobre familias exponenciales, modelos lineales generalizados, análisis de supervivencia y series de tiempo (advertencia: algunos errores tipográficos).

El modelado es tanto un arte como una ciencia, y la experiencia laboral con comentarios de especialistas en dominios y otros analistas de datos es más importante que aprender sobre nuevas herramientas. Un estadístico experimentado puede obtener mucha información aplicando herramientas relativamente simples de la manera correcta.

Como científico de datos en ejercicio sin estadísticas formales. grado, estos son los libros que uso:
1: Estadística matemática y análisis de datos (John Rice): excelente visión general que comienza desde lo más básico
2: Análisis de regresión por ejemplo: Chatterjee y Hadi. Este libro fue muy promocionado pero lo encontré decente pero no excelente. La regresión lineal es súper fundamental para cualquier modelo de “caja blanca” para fines no predictivos y este libro no me dio la profundidad que ansiaba. Tuve que complementar con una amplia variedad de lecturas de apuntes en Internet.
3: Regresión logística aplicada: Hosmer y Lemeshow. Pensé que este era un libro sólido a pesar de que tenía un fuerte sabor a estadísticas biológicas.
4: Modelos lineales generalizados: mi principal necesidad aquí ha sido contar modelos de datos. He leído partes seleccionadas de Introducción a los modelos lineales generalizados de Annette Dobson, Modelos lineales generalizados y extensiones Hardin e Hilbe y Modelos de datos de conteo de Cameron y Trivedi
Descubrí bastante tarde en la vida que algunos de estos temas están cubiertos por buenos libros de texto econométricos, pero no tienen recomendaciones particulares (Count Data Models es un libro de Econometría)
5: Modelado multinivel: el texto estándar es de Gelman. Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Revisé más de la mitad, pero realmente no lo aprecié (principalmente debido a mis propias deficiencias). Una cosa que me frustró fue que algunos de los ejemplos utilizados para ilustrar las técnicas eran demasiado complejos e intrincados. En mi humilde opinión, uno podría ilustrar las técnicas con ejemplos más simples que permitirían al estudiante centrarse en la técnica en lugar del dominio en el que se aplicaba la técnica. La otra frustración con el modelado multinivel fue que la mayoría de las bibliotecas R simplemente no escalaban / convergían cuando les lancé mi problema de datos de conteo. De nuevo, en manos de un experto, posiblemente todo hubiera funcionado.
6: El análisis de datos bayesianos de Gelman es el libro de cosas bayesianas. Al no haber apreciado el otro texto de Gelman, me intriga el libro Bayesian Methods de Jeff Gill. Descargo de responsabilidad: no he leído una sola página de ninguno de estos textos.
7: Introducción a las estadísticas no paramétricas de Higgins: He utilizado partes seleccionadas de este libro en mi trabajo (pruebas no paramétricas, correa de arranque, etc.).
8: Inferencia causal en estudios observacionales: Tengo los primeros capítulos de Contrafactuals e Inferencia causal … por Winship y Morgan. El libro de análisis de datos de Gelman también cubre esto. También hay excelentes documentos sobre puntuación de propensión y emparejamiento.

No existen las habilidades de modelado estadístico independientes del dominio. Si desea aprender a usar las estadísticas en un área en particular, debe tener conocimientos en esa área.

Algo no se resume aquí. La habilidad de modelado estadístico es un subconjunto de Estadística, el tema. Entonces, lo que quiero decir aquí es que Estadísticas es el “recuadro blanco” de habilidades de modelado estadístico que está buscando. Olvida todo esto. Mantengamos que sea simple. Lea y complete los siguientes libros en orden.

Estadísticas – Freedman, Pisani, Purves. 4e.
Inferencia estadística – Casella y Berger, 2e.

Una vez que haya terminado con estos dos, sus intereses cambiarán y, en consecuencia, podemos continuar.

Espero que esto ayude.

El modelado de recuadro blanco es muy diferente de un campo a otro. Por lo tanto, todo depende del campo que desee modelar. La regresión lineal (y no lineal) es útil, pero también lo son otros métodos estadísticos. Algunas herramientas de minería de datos también ayudan a construir modelos, como las redes de Petri.