Hive, SparkSQL e Impala tienen sus propias fortalezas y debilidades y todo depende del trabajo que intentes hacer. Las últimas versiones de Hive usan Tez como motor de ejecución (e incluso hay una variante de Hive en Spark) para ejecutar los trabajos, por lo que es mucho más rápido que Hive en Map-Reduce. Existen varios puntos de referencia en línea que comparan Hive-on-Tez con SparkSQL, Impala con Hive, pero muchos de ellos son puntos de referencia realizados por Cloudera (una compañía que creó Impala y es uno de los principales contribuyentes a Spark), y Hortonworks (contribuyente principal Colmena en Tez y Tez). Estos puntos de referencia son sesgados, limitados y producen sesgos.
Repentinamente (marzo de 2016) encontré un punto de referencia, por un tercero, comparando SparkSQL, Hive en Tez e Impala en un conjunto completo de consultas de referencia, SQL-on-Hadoop Benchmark: Un poco de historia de tortuga y liebre
Muestran que cada una de las tres soluciones diferentes tiene sus propias fortalezas para cargas de trabajo específicas.
También debe verificar el proyecto Apache Drill.
- Tengo 16 años y mi cabello comenzó a ponerse gris desde el último año y ahora está aumentando, ¿qué se debe hacer?
- La bicicleta de 20 años de mi padre (Yamaha RX-100) emite demasiado humo de repente. ¿Qué tengo que hacer?
- El almacenamiento de mi iPhone se llenó y luego comenzó a limpiar mis aplicaciones. ¿Qué hace / hizo?
- Si quisiera construir un automóvil eléctrico en mi garaje, ¿dónde sería el mejor lugar para encontrar motores y baterías?
- Estoy interesado en aprender sobre el Arduino. Quería comprar un Arduino pero no estaba seguro de cuál era UNO, Mega, Due, etc.