Nota: El mundo ha cambiado desde que inicialmente respondí la pregunta. Lo estoy actualizando para reflejar el estado del arte. – 5 de marzo de 2014
Descargo de responsabilidad: soy miembro de PMC de Apache Spark.
Sí, use Apache Spark ™: computación en clúster ultrarrápida
Apodado el sucesor principal de Hadoop MapReduce, Apache Spark es un sistema de cómputo de clúster que hace que el análisis de datos sea rápido, tanto rápido como rápido para escribir.
- Soy un estudiante de BE IT de último año. ¿Cómo selecciono un tema para mi proyecto de último año?
- Obtuve CS en MIT Manipal pero lamento no haber recibido NIT Trichy. ¿Debo dejar caer y escribir JEE nuevamente o continuar en Manipal?
- Tengo 16 años. Aprobé el examen de aptitud de la escuela secundaria. He tomado cursos de colegio comunitario. ¿Debo aplicar a la universidad como estudiante de primer año o como transferido?
- No puedo rapear muy bien, pero quiero ser rapero. ¿Qué sugieres que haga para aprender por mi cuenta?
- Tengo pasatiempos caros, ¿cómo puedo pagarlos sin dejar de ahorrar dinero?
Algunos factores relacionados con su pregunta:
- Con su compatibilidad con gráficos de ejecución general y un mejor almacenamiento en memoria, los programas en Spark pueden superar a los de Hadoop MapReduce en uno o dos órdenes de magnitud.
- Puede expresar su algoritmo de manera concisa y comprensible utilizando las API de alto nivel e integradas en el lenguaje de Spark. Su programa será 10 veces más corto que los de MapReduce.
- Hay una nueva biblioteca de cálculo gráfico llamada GraphX en Spark para simplificar su vida.
- El proyecto presenta uno de los ecosistemas de código abierto más activos en proyectos de Big Data. Cuenta con más de 150 colaboradores de más de 30 empresas.
Como ejemplo, vea una variante de la implementación de PageRank en Spark:
val links = // RDD of (url, neighbors) pairs var ranks = // RDD of (url, rank) pairs for (i links.map(dest => (dest, rank/links.size)) } ranks = contribs.reduceByKey(_ + _) .mapValues(0.15 + 0.85 * _) } ranks.saveAsTextFile(...)