Soy totalmente nuevo en la minería de datos y me preguntaba cuál es la diferencia entre LDA y n-gramos en términos simples.

Supongo que el autor de la pregunta pregunta por la diferencia entre ingenuos bayes y LDA, ya que ambos pueden usarse con n-gramos y son los enfoques de modelado de texto más comunes.

La diferencia entre los dos está en la especificación del modelo generativo. Naive Bayes asume que el texto se genera seleccionando una clase y luego seleccionando cada palabra en un documento iid de la distribución de palabras de esa clase. LDA asume un modelo de documento donde primero se seleccionan los parámetros para una distribución multinomial en clases de una distribución de dirichlet, y cada palabra se muestrea primero muestreando una clase del multinomial de clase de documento y luego muestreando una palabra de la distribución de palabras multinomiales de clase. La conclusión intuitiva es que LDA puede “modelar” documentos que tratan sobre varios temas diferentes, mientras que NB está mucho más limitado.

Related Content

No tengo una relación cercana con nadie. ¿Es tan malo?

Mi puntero actual es 7.9 en la Universidad de Mumbai. ¿Es lo suficientemente bueno como para tener la oportunidad de sentarme en compañías como Google o necesito mejorarlo con un puntero específico?

¿Por qué me cuesta modelar correctamente la probabilidad mediante el método de restar la probabilidad anterior de la corriente en este problema y no en el otro?

Soy un deportista indio de 23 años. He recibido una oferta lucrativa para jugar en un país occidental. ¿Cómo me reconcilio con el hecho de que mi deserción es necesaria?

¿Mi cachorro (Labrador de 5 meses) sigue masticando todo? ¿Cómo manejar esto?

No pude hacer el trabajo duro. Deseo morir. ¿Esta bien?

Quiero trabajar en Ferrari. Soy ingeniero mecanico. ¿Cuáles son las publicaciones que están disponibles? ¿Cómo se lleva a cabo el proceso de entrevista?

n-gram y LDA se utilizan en el procesamiento del lenguaje natural (minería de datos, aprendizaje automático)

n-gram es una secuencia continua de n-términos de un texto. Los términos pueden ser palabras, letras, símbolos …
Ej: secuencia: ser o no ser
uni-gramo: to, be, or, not, to, be
bi-gramo: ser, ser o no, no ser
tri-gram: ser o ser o no ser o no ser no ser
las propiedades estadísticas de n-gramas se usan para modelar el lenguaje

La asignación de Dirichlet latente se utiliza para el modelado de temas, en el que las palabras observadas de un documento se consideran atributos de un tema en particular.

Para más información:
visite: http://blog.echen.me/2011/08/22/…

Brindha Siva

Ngrams es una técnica basada en frecuencia. Se identifican los unigramas comunes, los trigramas Bigrams, etc. P.ej. “pone papas fritas” es un trigrama

Lda es un modelo probabilístico donde la asociación entre dos palabras que ocurren se calcula usando la fórmula de asociación de Dirichlet y se entrega un valor de probabilidad

Si desea saber qué palabras adyacentes se han utilizado repetidamente, busque ngrams. Si desea saber de qué temas se habla en un pasaje de texto, vaya a LDA

Ashwin Ramanathan

Ambos son una forma de organizar las palabras en algún tipo de grupo que nos proporciona información sobre el documento en el que n-gram funciona sobre la base de la aparición visible de palabras y LDA tiene en cuenta la relación latente.

n-gramas en términos simples, como sabrán, no es más que un grupo de n palabras que aparecen juntas.
por ejemplo: n gramo puede verse como: “esto podría ser: 250”
Este es un n gramo donde n = 3 (tri-gramo) y 250 es el número de veces que esas tres palabras aparecen en el documento en la misma secuencia.

Ahora, si escanea el documento, no es tan difícil observar estos eventos si son muy frecuentes. Entonces, n gramo no es más que una forma mejor y organizada de representar n palabras o tokens continuos y su frecuencia.

No hay probabilidad involucrada en n-gram. Por otro lado, LDA agrupa los tokens en función de una relación latente que no se puede observar directamente. Explica con la ayuda de la distribución de probabilidad qué fichas son similares y cómo.

Brindha Siva

More Interesting

Sé que los dothraki eran nómadas, pero ¿a dónde se dirigían con Dany durante la primera temporada de Game of Thrones?

Quiero grabar / editar música de piano con un presupuesto. Mi principal preocupación es que el piano suena bien. ¿Cuáles son algunas ideas para esto?

Hago seis cifras trabajando en Internet, sin embargo, después de siete años estoy cansado y prefiero estar rodeado de personas. ¿Qué tipo de cambio de carrera puede hacer esto mientras sigo usando mis habilidades y me acerca a otras personas que encuentro interesantes?

Me siento confundido acerca de mi futuro y no sé quién soy. No sé qué tipo de persona quiero ser. ¿Qué tengo que hacer?

Tengo una pestaña Nexus que actualmente no puedo usar. Si lo mantengo apagado durante 5 meses sin cargarlo, ¿daña la batería?

Soy estudiante de un BTech-MTech integrado en TIC de la Universidad de Rajasthan. ¿Cómo puedo solicitar pasantías en buenas empresas? ¿Cuáles son algunas buenas empresas que ofrecen pasantías de 6 meses en Java?

¿Soy supersticioso si creo en el karma?

Conduzco con mi perro durante más de 10 horas. ¿Qué puedo hacer para que se sienta cómodo?

Me he encontrado con estas líneas de palma y he encontrado algunas líneas extrañas en él. ¿Alguien puede ayudarme a decodificar estas líneas (incrustadas por curvas)?

¿Qué dice mi carta astrológica sobre mi vocación?

Web Analytics Made Easy -
StatCounter