Todo depende de la cantidad de texto disponible (también conocido como corpus).
- Lo primero que se haría es un análisis de frecuencia de letras de los textos. Eso solo suele ser suficiente para distinguir dos idiomas … suponiendo, por supuesto, que existen diferencias reales.
- Basado en lo anterior, surgiría rápidamente si el sistema de escritura es alfabético (latín, griego, …), silábico (kana japonés, etc.) o logográfico (chino, kanji japonés, etc.), o algo más.
- El siguiente sería el análisis de frecuencia de palabras. Incluso se podría tratar de descifrar los idiomas. Comience mirando las palabras más frecuentes y adivine el significado. Inicialmente esto es pura conjetura, pero hay una buena posibilidad de que después de un tiempo emerja algo utilizable.
- Si los idiomas se vuelven inflexibles (como, por ejemplo, latín, ruso y húngaro, etc.), se puede obtener información adicional. El húngaro, por ejemplo, utiliza afijos adjuntos a las palabras para alterar su significado … el afijo para un significado particular es el mismo (con variación para acomodar la pronunciación fácil. Por lo tanto, los afijos pueden reconocerse para llegar a las palabras raíz.