Estoy trabajando en un problema de aprendizaje automático para una competencia. Tengo el presentimiento de que solo hay un pequeño subconjunto relevante en los datos de entrenamiento que debería estar usando. ¿Cómo verifico esta corazonada y cómo identifico el subconjunto relevante para usar en la capacitación?

No estoy seguro de si hay un enfoque basado en principios para hacer análisis en subconjuntos de datos puramente en lugar de todos, ya que uno está perdiendo información (incluso si está sesgada) para ningún otro propósito que no sea la ganancia computacional o la conveniencia. Se puede tratar de ponderar cada punto de datos para que ciertos datos se usen con mayor frecuencia en el análisis de uno que el resto, por ejemplo, en el arranque Bayesiano.

Un enfoque simple es hacer un análisis exploratorio de datos para ver si hay subconjuntos particulares de datos que deberían considerarse bajo diferentes supuestos que el modelo general. Por ejemplo, los errores pueden no ser verdaderamente homoskedastic mientras haces una regresión lineal, y podrían ser causados por un grupo particular de datos que vale la pena investigar más a fondo. Esto es lo que todos deberían hacer de todos modos como una forma de verificación y diagnóstico de suposiciones.

Related Content

Si aprendo jujitsu brasileño, ¿me lastimaré los oídos y los dientes?

Estoy tratando de aprender a hablar español, chino mandarín y japonés. No conozco a nadie en mi área que hable esto. ¿Hay un sitio para tutores?

Actualmente vivo en una gran ciudad en los Estados Unidos. Estoy pensando en mudarme a una gran ciudad en América Latina o Sudamérica. ¿Cuáles son las principales diferencias en la vida que debería esperar como joven profesional (además de la diferencia de idioma)?

¿Por qué me siento abrumado sin una razón clara?

Estoy planeando unirme al negocio de Amway para mi futuro. ¿Cómo es el futuro de Amway en India?

Nací viendo películas indias y me arrepiento cuando tenía poco más de 20 años. ¿Qué puedo hacer para cambiarme?

Estoy planeando andar en bicicleta 10 km en cada sentido para mi viaje diario. El viaje es principalmente tramos de carriles para bicicletas con probablemente algunas paradas de tráfico en el medio. ¿Cuánto tiempo tardaría en recorrer 10 km suponiendo que estoy moderadamente en forma?

Tenga cuidado con el presentimiento: lo más probable es que encuentre un pequeño subconjunto para confirmarlo.

Mi consejo sería leer sobre Overfitting. Incluso si hay algo de ruido en el conjunto de datos original, no creo que sea una buena idea usar un subconjunto más pequeño.

¡No te predispongas hacia una respuesta!

Dustin Tran

More Interesting

Estoy pensando en ir a la escuela de leyes el año que viene. ¿Qué cosas necesito saber antes de irme?

Soy ingeniero de software y vivo en Bangalore con alrededor de 3 años de experiencia. ¿Es una decisión sensata pagar a una consultora local para procesar una visa H1 de EE. UU.?

¿Por qué mi cerebro siempre piensa en el pasado?

Estoy más fresco para Linux. ¿Podría alguien decir cuál es la mejor manera de comenzar a ser un buen administrador de Linux?

Me recargo a través de Freecharge, cada vez que se aplica el código de promoción que ofrece un reembolso más que suficiente. Entonces, ¿cómo obtiene beneficios la organización?

Estoy trabajando en un proyecto de investigación con otro chico, los dos somos estudiantes. Cada vez que se me ocurre una solución, la ‘roba’ y la presenta a nuestro asesor como si fuera su idea desde el principio. ¿Cómo lo trato?

Quiero preguntar si hay un léxico de análisis de sentimiento árabe de código abierto.

Mi cabello se ha vuelto seco y más delgado desde que me hice vegetariano. ¿Qué tengo que hacer?

He estado cometiendo muchos errores ortográficos últimamente. cual puede ser la razon? ¿Cómo puedo mejorarlo?

Tengo 2 años de experiencia en SAP Basis and Security. Quiero tomar un descanso por 1 año por razones personales. ¿Puedo volver a unirme al trabajo por el mismo paquete?

Web Analytics Made Easy -
StatCounter