Este es un problema interesante, porque no sabemos qué tan pequeña es la clase minoritaria, por ejemplo, si tiene 5 puntos de datos, entonces el muestreo 50% -50% definitivamente no es una buena idea porque es difícil construir un modelo clasificador con 5 puntos de datos que pueden generalizarse bien.
El sobremuestreo de la clase minoritaria utilizando SMOTE u otros algoritmos tiene la desventaja de que sufre un sobreajuste. Es decir, puede tener un buen desempeño en el conjunto de entrenamiento, pero en el conjunto de prueba su rendimiento puede sufrir gravemente. Del mismo modo , el submuestreo de la clase mayoritaria puede no ajustarse a su algoritmo si la clase minoritaria es muy pequeña.
Hacer un clasificador sensible al costo es una gran idea, porque si una clase es minoritaria, muestra que es una clase importante, pero de alguna manera es difícil recolectar esas muestras. Por. por ejemplo, una caída, falla o anomalía … que ocurre raramente y, por lo tanto, no se puede identificar será más costoso que informar una instancia de clase mayoritaria como un valor atípico. Sin embargo, el principal desafío es cómo inferiría esos costos, a menos que sea un experto en dominios. Si deduce el costo de los datos, es un mal enfoque porque el costo debe depender del dominio y no de los datos.
Otra opción es la clasificación de una clase , donde entrena su modelo solo en la clase mayoritaria y solo observa la clase minoritaria durante las pruebas. Sin embargo, el desafío es cómo decidiría el límite de la clase con solo ver las instancias de la clase mayoritaria.
- Me instalaré en India, pero me preocupa cómo sería vivir allí y cómo serían mis nuevos amigos. Nunca he estado fuera de Europa. ¿Qué tengo que hacer?
- ¿Por qué no tengo ningún sentimiento con respecto a algo alegre o sombrío?
- ¿Por qué se bloquea mi cuenta de Gmail?
- Si estoy a favor del control de armas con “sentido común”, ¿puedo llamarme libertario?
- Vivo en el Reino Unido Midlands. ¿Qué tan difícil sería establecer un centro de escalada y qué necesitaría? No tengo nada de mi propio dinero.
Antes de emplear cualquiera de estas técnicas, piense cuál se adapta a su necesidad y aplicación.