Como dijiste, GBM es extremadamente popular hoy en día. Especialmente con la llegada de XGBoost, casi todos terminan teniendo un GBM de algún tipo en sus conjuntos.
XGBoost es tan rápido que se está utilizando incluso en competiciones de PNL, donde los modelos lineales solían ser prácticamente la única opción viable.
Como suele ser el caso en ML y Kaggle, siempre quieres probar tantos algoritmos como puedas, pero me sorprendería mucho si pudieras encontrar un algoritmo que supere constantemente a los GBM.
Un caso en el que los GBM no pueden competir realmente con las redes neuronales es en competencias orientadas al aprendizaje profundo, como la clasificación de imagen / audio.
En NLP, los GBM pueden ser mejores que los algoritmos lineales, pero no tanto como en muchos otros casos en los que se manejan datos densos.
La otra razón por la que los GBM son tan populares en Kaggle es porque son realmente buenos metamodelos. Un metamodelo es un modelo que usa para ensamblar sus modelos base. Es un enfoque más sofisticado que simplemente promediar sus modelos base. Todos los modelos basados en árboles son metamodelos fabulosos, porque puede alimentar predicciones de sus modelos base y las características originales, y los modelos basados en árboles pueden encontrar subconjuntos del espacio de características donde un modelo base funciona mejor que otros (es decir, “si la edad es> 30 y gender = ‘F’, entonces la predicción SVM es mejor que la predicción kNN “).
En mi solución ganadora en la competencia de Kaggle Avito, utilizamos un GBM de 3 formas: como modelo base, como modelo base semi-supervisado y como metamodelo.
He leído muchas historias sobre ganar Kaggle y otras competiciones y parece que en la mayoría de los casos la gente elige GBM. ¿Hay algún caso en que algún otro enfoque sea definitivamente mejor?
Related Content
Mi novia y yo somos de Kerala. ¿Podemos registrar un matrimonio en Bangalore?
Tengo débitos pendientes ¿Debo obtener un préstamo para consolidar los débitos?
Me gustan los Angry Birds. ¿Me gustaría Minecraft?
¿Por qué siento dolor en la yema del pulgar derecho cuando toco el violonchelo?
A2A.
Aunque los GBM y los bosques aleatorios han desempeñado un papel fundamental en muchas de las ganancias de Kaggle, hay muchos otros enfoques que han ganado.
Tenga en cuenta: “No existe un algoritmo mágico, dado por Dios, que funcione para todos los problemas”.
Si está tratando de clasificar documentos de texto, en mi humilde opinión, un mejor enfoque sería calcular los vectores tf-idf y hacer Naive Bayes o SVM. Si tiene un problema de tipo de recomendación, es posible que desee realizar algún tipo de factorización matricial. También la regresión logística puede ser muy útil en una variedad de casos.
En todas las competiciones en las que participé, utilicé diferentes enfoques (¡aunque no gané ninguna competencia!). Y estoy seguro de que los ganadores hacen lo mismo, no confían en GBM o RF. Deciden el enfoque en función de los datos, las limitaciones y el problema en cuestión.
¡Mis 2 centavos!
Fui A2A’d, no estoy seguro de cuánto vale mi opinión, pero aquí está:
Me gusta GBM y los bosques para datos donde tengo la impresión de que la relación señal / ruido es baja, como los datos de los clientes. (Los algoritmos de GBM y bosque que uso pueden usar datos faltantes en sus búsquedas divididas, lo que creo que es información muy valiosa para incluir en un modelo de datos ruidosos).
Me gustan las redes neuronales cuando tengo el presentimiento de que la relación señal / ruido es alta, como fotografías claras.
Espero que ayude …
Mmmhhh … interesante.
More Interesting
¿Por qué mi gato ama la menta?
¿Mi madre está abusando físicamente de mí?
Cuando dejo de fumar, no tengo ganas de comer nada. ¿Cómo puedo dejar de fumar fácilmente?
Mi conejo tiene más de 10 años y sigue fuerte. ¿Cuál es el promedio de vida de un conejo?
Tengo un Pulsar 200 NS. ¿Cuál sería un buen reemplazo para neumáticos traseros 130/70 * 17?