Estoy interesado en big data y machine learning. Estoy participando en un par de cursos en línea. Todo lo que estoy haciendo usa R o Python y estoy buscando sugerencias sobre si debo concentrarme en un idioma o continuar con ambos.

Python es uno de los lenguajes / entornos más populares (si no el más ) en Machine Learning: es muy fácil crear una prueba de concepto o un sistema experimental que se ejecute en un tiempo y espacio aceptables. Y tiene muchos paquetes muy bien hechos que sirven como bloques de construcción en ML y estadísticas.

R es un sistema fuertemente orientado a las estadísticas, basado en el S de Bell Lab (lenguaje de programación) y en su mayoría compatible con él. Dado que una gran cantidad de algoritmos de ML se basan en estadísticas, tiene sentido usar S o R (que es FOSS). Al menos para las estadísticas subyacentes.

Personalmente, si la opción es o / o, me enfocaría en Python ya que ya tiene la mayoría, si no todas, las capacidades estadísticas de R implementadas en varios paquetes.

Pero dado que defender un idioma / sistema sobre otro generalmente me mete en problemas, me detendré aquí. 🙂

Depende del objetivo. Hay muchos roles que uno puede jugar en este campo. R y Python son excelentes herramientas para la creación de prototipos y ambos tienen sus ventajas y desventajas. Es mejor apegarse a uno para comenzar, después de eso es mejor explorar ambos para obtener lo mejor de una situación. Con respecto a los grandes datos, también hay otras herramientas e idiomas como spark, scala, mahout, etc. Para comenzar con la ciencia de datos y el modelado, siempre es bueno atenerse a cualquier python, R u Octave