Tengo un conjunto de datos desequilibrado con dos clases. ¿Se consideraría correcto si sobremuestreo la clase minoritaria y también cambio los costos de clasificación errónea en el conjunto de capacitación para crear el modelo?

Este es un problema interesante, porque no sabemos qué tan pequeña es la clase minoritaria, por ejemplo, si tiene 5 puntos de datos, entonces el muestreo 50% -50% definitivamente no es una buena idea porque es difícil construir un modelo clasificador con 5 puntos de datos que pueden generalizarse bien.

El sobremuestreo de la clase minoritaria utilizando SMOTE u otros algoritmos tiene la desventaja de que sufre un sobreajuste. Es decir, puede tener un buen desempeño en el conjunto de entrenamiento, pero en el conjunto de prueba su rendimiento puede sufrir gravemente. Del mismo modo , el submuestreo de la clase mayoritaria puede no ajustarse a su algoritmo si la clase minoritaria es muy pequeña.

Hacer un clasificador sensible al costo es una gran idea, porque si una clase es minoritaria, muestra que es una clase importante, pero de alguna manera es difícil recolectar esas muestras. Por. por ejemplo, una caída, falla o anomalía … que ocurre raramente y, por lo tanto, no se puede identificar será más costoso que informar una instancia de clase mayoritaria como un valor atípico. Sin embargo, el principal desafío es cómo inferiría esos costos, a menos que sea un experto en dominios. Si deduce el costo de los datos, es un mal enfoque porque el costo debe depender del dominio y no de los datos.

Otra opción es la clasificación de una clase , donde entrena su modelo solo en la clase mayoritaria y solo observa la clase minoritaria durante las pruebas. Sin embargo, el desafío es cómo decidiría el límite de la clase con solo ver las instancias de la clase mayoritaria.

Antes de emplear cualquiera de estas técnicas, piense cuál se adapta a su necesidad y aplicación.

¿Por qué cambiar los costos?

Puede multiplicar la salida de la red (distribución de probabilidad) por las probabilidades previas para “distorsionar” la distribución.

P.ej. tiene una clase minoritaria del 10% y una clase mayoritaria del 90%, y las muestra al 50% / 50% (esencialmente eliminando las probabilidades anteriores). Cuando evalúa la red, simplemente puede multiplicar la salida para la clase minoritaria por 0.1, y la salida para la clase mayoritaria por 0.9, luego normalizar nuevamente si es necesario.