Tengo que hacer un mini-proyecto de minería de texto al azar en Python como una tarea para conseguir un trabajo en una empresa. Tengo 5 dias. ¿Qué puedo hacer para impresionarlos?

Cosas muy básicas:

  • Entrene a un clasificador de sentimientos en los datos de Twitter (o cualquier otro corpus, o algo así como la detección de correo no deseado con correos electrónicos utilizando bayes ingenuos). Aquí hay un tutorial que trata sobre la creación de un clasificador de sentimientos, intenta mejorarlo:
  • Si el resumen cuenta como extracción de texto para usted, escriba su propio resumen de texto. Aquí un ejemplo, puedes intentar mejorarlo: ¡Construye tu propia herramienta de resumen!

Más fuerte:

  • ¿Igual que el clasificador de sentimiento, pero tal vez un clasificador de género? Podría intentar usar word2vec para eso de alguna manera, tal vez, eso sería impresionante. (Sin embargo, no hay un 100% de posibilidades de éxito, pero es un desafío)
  • ¿Implementar el algoritmo de agrupación de K-Means por su cuenta y usarlo junto con una bolsa de palabras para clasificar algunos textos?

Más duro:

  • Extracción de relaciones usando Espresso (un algoritmo Bootstrapping)

Avísame si puedo ayudarte.

Saludos