Actualmente estoy implementando algoritmos de análisis de gráficos iterativos en Hadoop (en MapReduce). Desafortunadamente, mi código es extremadamente lento, principalmente porque cada iteración es un paso de MapReduce separado. ¿Existe un buen enfoque para implementar estos algoritmos iterativos en MapReduce? ¿Hay alguna manera de evitar MapReduce por completo y calcular los datos que residen en HDFS usando MPI, etc.?

Nota: El mundo ha cambiado desde que inicialmente respondí la pregunta. Lo estoy actualizando para reflejar el estado del arte. – 5 de marzo de 2014

Descargo de responsabilidad: soy miembro de PMC de Apache Spark.

Sí, use Apache Spark ™: computación en clúster ultrarrápida

Apodado el sucesor principal de Hadoop MapReduce, Apache Spark es un sistema de cómputo de clúster que hace que el análisis de datos sea rápido, tanto rápido como rápido para escribir.

Algunos factores relacionados con su pregunta:

Con su compatibilidad con gráficos de ejecución general y un mejor almacenamiento en memoria, los programas en Spark pueden superar a los de Hadoop MapReduce en uno o dos órdenes de magnitud.
Puede expresar su algoritmo de manera concisa y comprensible utilizando las API de alto nivel e integradas en el lenguaje de Spark. Su programa será 10 veces más corto que los de MapReduce.
Hay una nueva biblioteca de cálculo gráfico llamada GraphX en Spark para simplificar su vida.
El proyecto presenta uno de los ecosistemas de código abierto más activos en proyectos de Big Data. Cuenta con más de 150 colaboradores de más de 30 empresas.

Como ejemplo, vea una variante de la implementación de PageRank en Spark:

val links = // RDD of (url, neighbors) pairs var ranks = // RDD of (url, rank) pairs for (i  links.map(dest => (dest, rank/links.size)) } ranks = contribs.reduceByKey(_ + _) .mapValues(0.15 + 0.85 * _) } ranks.saveAsTextFile(...)

Soy un desarrollador de SAP ABAP con 2 años de experiencia, pero no pude aprender mucho porque apenas tuve la oportunidad de trabajar. Ahora quiero cambiar el dominio e intentar con Amazon, ya que soy aficionado al lenguaje C y Java. ¿Cuáles son algunas sugerencias sobre cómo preparar y descifrar la entrevista SDE de Amazon?

Accidentalmente borré manualmente un archivo de datos en Oracle. ¿Qué tengo que hacer?

Me he retrasado en responder mi correo electrónico. ¿Cómo me pongo al día?

El pantalón de mi traje comenzó a tener algunas arrugas. ¿Cuál es la mejor manera de lidiar con eso (no puedo plancharlo o ponerlo en la secadora, ¿verdad?)

Soy un estudiante de BE IT de último año. ¿Cómo selecciono un tema para mi proyecto de último año?

Estoy buscando un cofundador del MIT para construir una startup tecnológica. ¿Cómo puedo encontrar uno?

Recientemente estaba rediseñando un enorme sistema de gráficos MR. No diría que fui lento por MapReduce sino por mala arquitectura. Pude reducir la cantidad de información en más del 90%.

Si desea tener un procesamiento gráfico iterativo rápido en M / R, es bueno tener un buen preprocesamiento. Intente eliminar / comprimir tanta información como sea posible antes de la primera iteración y capture la mayor cantidad de datos que pueda. Una buena idea es cambiar el nombre de los nodos del gráfico a enteros de 32/64 bits y luego usar la compresión delta. Es mejor que tratar de usar hashing. Encuentre alguna heurística que capture la localidad de datos de su dominio y úsela para cambiar el nombre. Si puede, no almacene el peso del flotador en cada borde, intente recalcularlo con más información comprimible.

(Usar Apache Giraph es una buena idea si tienes mucha memoria)

Reynold Xin

Si desea seguir con HDFS, tal vez considere Giraph: http://incubator.apache.org/giraph/ .
Alternativamente, eche un vistazo a GraphLab: http://graphlab.org/ .

Reynold Xin

More Interesting

Perdí los estribos porque sentí que una mujer estaba jugando con mis emociones intencionalmente. ¿Cómo puedo evitar mostrar enojo?

Estoy muy interesado en trabajar en la educación superior, ¿crees que tengo suficiente experiencia para postularme directamente desde la universidad?

Me gustaría ver películas en inglés. ¿Como empiezo?

¿Mi sufrimiento / mala suerte actual está relacionado con el karma? ¿Por qué debo pagar por la vida pasada no probada?

Siempre estoy deprimido por la relación con mi esposa porque muestra poco afecto o emoción, ¿qué puedo hacer?

Si mi cachorro acaba de vacunarse y luego recibió el virus parvo al día siguiente, ¿se aplicará la vacuna después de unos días?

Soy una mujer de 17 años a punto de alistarse en el ejército. ¿Qué necesito saber?

Tengo astigmatismo miope 0,75 D y tengo que mejorarlo a 0,5 D en 40 días. ¿Qué se debe hacer para hacerlo?

Necesito algunos consejos para elegir un nombre en inglés. ¿Cuál te suena mejor?

He estado siguiendo a Quora durante más de tres meses, principalmente para mejorar mis habilidades en el idioma inglés. Pero siento que no he mejorado mucho. ¿Lo estoy siguiendo correctamente o lo estoy usando de la manera adecuada? ¿Cuáles son algunas recomendaciones?