Quiero convertirme en un profesional en la minería y el análisis de grandes cantidades de texto para temas, sentimientos, etc. ¿Dónde empiezo?

Recomendaría buscar recursos como NLTK y CoreNLP, en cuyo caso los lenguajes elegidos son respectivamente Python y Java. Si bien Python generalmente se prefiere para configuraciones de ML, Java es igualmente viable para otros enfoques más lingüísticos para el análisis de texto y es probable que vea algún beneficio (en cuanto a velocidad) dependiendo de cuánto texto esté usando / qué tan grande sea su corpus, pero esto no debería ser una preocupación para ti como principiante. Dicho esto, si está familiarizado con el modelado de temas a nivel de la industria, no debería tener problemas para elegir una variedad de herramientas en Python para la generación efectiva de sistemas NER o sistemas de análisis de sentimientos, por lo que este sería probablemente mi lenguaje de referencia. Por supuesto, R tiene sus ventajas de ser muy fácil de programar, pero tiende a ser menos flexible (es decir, su código es más difícil de adaptar para otra cosa), que es probablemente algo que importa cuando está comenzando. Si realmente está buscando hacer esto bien, leería algo como el NLP estadístico de Manning, ya que eso lo expondrá a todas las técnicas principales y los fundamentos lingüísticos y luego podrá ver trabajos recientes para implementaciones / documentación.

¡Buena suerte!