Soy totalmente nuevo en la minería de datos y me preguntaba cuál es la diferencia entre LDA y n-gramos en términos simples.

Supongo que el autor de la pregunta pregunta por la diferencia entre ingenuos bayes y LDA, ya que ambos pueden usarse con n-gramos y son los enfoques de modelado de texto más comunes.

La diferencia entre los dos está en la especificación del modelo generativo. Naive Bayes asume que el texto se genera seleccionando una clase y luego seleccionando cada palabra en un documento iid de la distribución de palabras de esa clase. LDA asume un modelo de documento donde primero se seleccionan los parámetros para una distribución multinomial en clases de una distribución de dirichlet, y cada palabra se muestrea primero muestreando una clase del multinomial de clase de documento y luego muestreando una palabra de la distribución de palabras multinomiales de clase. La conclusión intuitiva es que LDA puede “modelar” documentos que tratan sobre varios temas diferentes, mientras que NB está mucho más limitado.

n-gram y LDA se utilizan en el procesamiento del lenguaje natural (minería de datos, aprendizaje automático)

n-gram es una secuencia continua de n-términos de un texto. Los términos pueden ser palabras, letras, símbolos …
Ej: secuencia: ser o no ser
uni-gramo: to, be, or, not, to, be
bi-gramo: ser, ser o no, no ser
tri-gram: ser o ser o no ser o no ser no ser
las propiedades estadísticas de n-gramas se usan para modelar el lenguaje

La asignación de Dirichlet latente se utiliza para el modelado de temas, en el que las palabras observadas de un documento se consideran atributos de un tema en particular.

Para más información:
visite: http://blog.echen.me/2011/08/22/…

Ngrams es una técnica basada en frecuencia. Se identifican los unigramas comunes, los trigramas Bigrams, etc. P.ej. “pone papas fritas” es un trigrama

Lda es un modelo probabilístico donde la asociación entre dos palabras que ocurren se calcula usando la fórmula de asociación de Dirichlet y se entrega un valor de probabilidad

Si desea saber qué palabras adyacentes se han utilizado repetidamente, busque ngrams. Si desea saber de qué temas se habla en un pasaje de texto, vaya a LDA

Ambos son una forma de organizar las palabras en algún tipo de grupo que nos proporciona información sobre el documento en el que n-gram funciona sobre la base de la aparición visible de palabras y LDA tiene en cuenta la relación latente.

n-gramas en términos simples, como sabrán, no es más que un grupo de n palabras que aparecen juntas.
por ejemplo: n gramo puede verse como: “esto podría ser: 250”
Este es un n gramo donde n = 3 (tri-gramo) y 250 es el número de veces que esas tres palabras aparecen en el documento en la misma secuencia.

Ahora, si escanea el documento, no es tan difícil observar estos eventos si son muy frecuentes. Entonces, n gramo no es más que una forma mejor y organizada de representar n palabras o tokens continuos y su frecuencia.

No hay probabilidad involucrada en n-gram. Por otro lado, LDA agrupa los tokens en función de una relación latente que no se puede observar directamente. Explica con la ayuda de la distribución de probabilidad qué fichas son similares y cómo.