El software central de la plataforma de big data es
Primero, Phoenix
Esta es una capa intermedia de Java que permite a los desarrolladores ejecutar consultas SQL en Apache HBase. Phoenix está escrito completamente en Java, el código está en GitHub y proporciona un controlador JDBC que el cliente puede integrar.
El motor de consultas Phoenix convertirá la consulta SQL en uno o más escaneos HBase y programará la ejecución para producir un conjunto de resultados JDBC estándar. Al utilizar directamente la API de HBase, coprocesadores y filtros personalizados, los niveles de rendimiento varían desde milisegundos para consultas simples hasta segundos para millones de filas.
En segundo lugar, Stinger
Originalmente llamado Tez, la próxima generación de Hive, Hortonworks lideró el desarrollo y se ejecuta en el marco informático YARN DAG. Según algunas pruebas, Stinger puede mejorar el rendimiento aproximadamente 10 veces y al mismo tiempo permite que Hive admita más SQL. Sus principales ventajas incluyen: permitir a los usuarios obtener más coincidencias de consultas en Hadoop. Incluye una función de análisis de declaraciones similar a OVER y admite consultas WHERE, lo que hace que el sistema estilo Hive sea más consistente con el modelo SQL.
En tercer lugar, pronto
Presto, el motor de consulta de datos de código abierto de Facebook, puede analizar de forma rápida e interactiva más de 250 PB de datos. El desarrollo del proyecto comenzó en el otoño de 2012. Actualmente, el proyecto es utilizado por más de 1.000 empleados de Facebook, ejecuta más de 30.000 consultas y los datos diarios están en el nivel de 1 PB. Facebook afirma que el rendimiento de Presto es 10 veces mejor que el de Hive y Map*Reduce.
Cuarto, los tiburones
Los tiburones son panales sobre chispas. Esencialmente, el análisis HQL de Hive se utiliza para traducir HQL en operaciones RDD en Spark, y luego la información de la tabla en la base de datos se obtiene a través de los metadatos de Hive. Shark obtendrá los datos y archivos reales sobre HDFS y los ejecutará en Spark.
Verbo (abreviatura de verbo) pig
Introducción: Pig es un lenguaje de programación que simplifica las tareas comunes en Hadoop. Pig puede cargar datos, expresar los datos transformados y almacenar el resultado final. Las operaciones integradas de Pig dan sentido a los datos semiestructurados (como los archivos de registro). Al mismo tiempo, Pig puede ampliar el uso de tipos de datos personalizados agregados en Java y admitir la conversión de datos.