Estoy trabajando en un problema de aprendizaje automático para una competencia. Tengo el presentimiento de que solo hay un pequeño subconjunto relevante en los datos de entrenamiento que debería estar usando. ¿Cómo verifico esta corazonada y cómo identifico el subconjunto relevante para usar en la capacitación?

No estoy seguro de si hay un enfoque basado en principios para hacer análisis en subconjuntos de datos puramente en lugar de todos, ya que uno está perdiendo información (incluso si está sesgada) para ningún otro propósito que no sea la ganancia computacional o la conveniencia. Se puede tratar de ponderar cada punto de datos para que ciertos datos se usen con mayor frecuencia en el análisis de uno que el resto, por ejemplo, en el arranque Bayesiano.

Un enfoque simple es hacer un análisis exploratorio de datos para ver si hay subconjuntos particulares de datos que deberían considerarse bajo diferentes supuestos que el modelo general. Por ejemplo, los errores pueden no ser verdaderamente homoskedastic mientras haces una regresión lineal, y podrían ser causados ​​por un grupo particular de datos que vale la pena investigar más a fondo. Esto es lo que todos deberían hacer de todos modos como una forma de verificación y diagnóstico de suposiciones.

Tenga cuidado con el presentimiento: lo más probable es que encuentre un pequeño subconjunto para confirmarlo.

Mi consejo sería leer sobre Overfitting. Incluso si hay algo de ruido en el conjunto de datos original, no creo que sea una buena idea usar un subconjunto más pequeño.

¡No te predispongas hacia una respuesta!