Tengo un conjunto de datos desequilibrado con dos clases. ¿Se consideraría correcto si sobremuestreo la clase minoritaria y también cambio los costos de clasificación errónea en el conjunto de capacitación para crear el modelo?

Este es un problema interesante, porque no sabemos qué tan pequeña es la clase minoritaria, por ejemplo, si tiene 5 puntos de datos, entonces el muestreo 50% -50% definitivamente no es una buena idea porque es difícil construir un modelo clasificador con 5 puntos de datos que pueden generalizarse bien.

El sobremuestreo de la clase minoritaria utilizando SMOTE u otros algoritmos tiene la desventaja de que sufre un sobreajuste. Es decir, puede tener un buen desempeño en el conjunto de entrenamiento, pero en el conjunto de prueba su rendimiento puede sufrir gravemente. Del mismo modo , el submuestreo de la clase mayoritaria puede no ajustarse a su algoritmo si la clase minoritaria es muy pequeña.

Hacer un clasificador sensible al costo es una gran idea, porque si una clase es minoritaria, muestra que es una clase importante, pero de alguna manera es difícil recolectar esas muestras. Por. por ejemplo, una caída, falla o anomalía … que ocurre raramente y, por lo tanto, no se puede identificar será más costoso que informar una instancia de clase mayoritaria como un valor atípico. Sin embargo, el principal desafío es cómo inferiría esos costos, a menos que sea un experto en dominios. Si deduce el costo de los datos, es un mal enfoque porque el costo debe depender del dominio y no de los datos.

Otra opción es la clasificación de una clase , donde entrena su modelo solo en la clase mayoritaria y solo observa la clase minoritaria durante las pruebas. Sin embargo, el desafío es cómo decidiría el límite de la clase con solo ver las instancias de la clase mayoritaria.

Antes de emplear cualquiera de estas técnicas, piense cuál se adapta a su necesidad y aplicación.

Related Content

Si estoy postulando para el programa de gestión y tecnología (M&T) en la Universidad de Pennsylvania, ¿debería abordar tanto la ingeniería como los negocios en mi ‘¿Por qué Penn?’ ensayo, o solo mi elección de escuela secundaria?

He creado un sitio web que enseña a los usuarios cómo monetizar el tráfico móvil. Ahora, ¿cómo dirijo el tráfico al sitio web?

Estoy interesado en la Universidad de Otago en Nueva Zelanda para hacer mi doctorado. ¿Cuál debería ser mi primer paso para ello?

Mi jefe está usando Outlook Express. Su archivo inbox.dbx se corrompió. ¿Qué tengo que hacer?

Leo a Quora de 7 a 8 horas diarias. ¿Es normal? ¿Debería reducirlo?

Me instalaré en India, pero me preocupa cómo sería vivir allí y cómo serían mis nuevos amigos. Nunca he estado fuera de Europa. ¿Qué tengo que hacer?

Tengo que viajar de la Universidad de Galgotias a NDLS Nueva Delhi. ¿Cómo debo viajar para llegar allí?

¿Por qué cambiar los costos?

Puede multiplicar la salida de la red (distribución de probabilidad) por las probabilidades previas para “distorsionar” la distribución.

P.ej. tiene una clase minoritaria del 10% y una clase mayoritaria del 90%, y las muestra al 50% / 50% (esencialmente eliminando las probabilidades anteriores). Cuando evalúa la red, simplemente puede multiplicar la salida para la clase minoritaria por 0.1, y la salida para la clase mayoritaria por 0.9, luego normalizar nuevamente si es necesario.

Matthew Lai

More Interesting

Soy una estudiante de ingeniería de 19 años. No estoy del todo claro con mis objetivos en la vida. ¿Qué tengo que hacer?

Actualmente soy redactor técnico y quiero pasar al análisis comercial como mi próximo cambio de carrera. ¿Cuáles son los pasos necesarios para hacer esto realidad?

Quiero preguntar, ¿por qué las Ivy League siempre pierden en baloncesto y fútbol? Si alguna vez viste un partido de fútbol de Harvard, ¿siempre pierden?

Soy un desarrollador de Java con 6 años de experiencia. Quiero pasar al campo Análisis de datos. ¿Dónde y cómo debo comenzar?

A menudo siento un sentido de responsabilidad de responder cualquier pregunta sobre Quora si sé la respuesta. ¿Sientes lo mismo y por qué?

Desearía tener un hermano mayor en lugar de una hermana mayor. ¿Qué debo hacer?

Mi cabello perdió mucho debido al rizado, ¿cuáles son los remedios?

Quiero una bicicleta, pero mis padres no pueden pagarla. ¿Qué tengo que hacer?

Si tengo una mala transcripción académica de pregrado debido a problemas financieros, ¿debo presentarme en el SAT o GMAT para ser considerado en Bain, Strategy & o BCG?

Recibí una llamada de entrevista de una firma consultora para Samsung India Electronics Pvt. Ltd. Sector 81 Noida será ingeniero de I + D. ¿Cuál es el salario exacto de este trabajo y es seguro a través de un consultor?

Web Analytics Made Easy -
StatCounter