Si desea hacer una clasificación de texto con python, entonces olvide LDA por ahora. Como señaló Zeyu Chen, en scikit-learn se trata de un análisis discriminante lineal y no de una asignación de dirichlet latente.
Convierta su matriz de documentos numpy en el formato disperso de la matriz tf-idf. Use CountVectorizer () y TfidfTransformer () para esto. Supongo que ya ha hecho cosas relacionadas con la PNL antes (palabras vacías, stemming, minúsculas)
Entonces puedes usar cualquier clasificador. Bayes ingenuos multinomiales, regresión logística, máquinas de vectores de soporte funcionan bastante bien. Están disponibles buenos tutoriales: clasificación de documentos de texto usando características dispersas
Para utilizar la asignación de Dirichlet latente para modelar temas, siga estos enlaces con código y explicación:
Asignación de Dirichlet latente en Python
Introducción a la asignación de Dirichlet latente en Python
- Mi MacBook Pro no se enciende. La luz del cargador parpadea en naranja / verde. ¿Qué tengo que hacer?
- Tengo ganas de suicidarme. No me va bien en la escuela secundaria y en la vida. ¿Qué tengo que hacer?
- Estoy buscando un doctorado en recursos humanos. ¿Cuál podría ser un buen tema para la investigación en el área de recursos humanos?
- He trabajado a tiempo completo durante 1 año como ingeniero de software ganando $ 100K. En mi primer año, ahorré $ 50K y no debería tener problemas para ahorrar otros $ 50K este año para llevarme a $ 100K en ahorros. ¿Estoy listo para comprar un condominio o debo esperar?
- Soy dueño de una empresa privada que tiene acciones. ¿Qué me impide dar acciones a asesores y otras personas que han desempeñado un papel en el éxito?