¿Cuáles son las tecnologías centrales de big data?
1. Recopilación y preprocesamiento de datos: el sistema de recopilación de registros en tiempo real FlumeNG admite la personalización de varios remitentes de datos en el sistema de registro para la recopilación de datos. Zookeeper es un servicio de coordinación de aplicaciones distribuidas de código abierto que proporciona servicios de sincronización de datos.
2. Almacenamiento de datos: Hadoop, como marco de código abierto, está especialmente diseñado para análisis de datos fuera de línea y a gran escala, como motor de almacenamiento central, se ha utilizado ampliamente en el almacenamiento de datos. HBase es una base de datos de código abierto distribuida y orientada a columnas que puede considerarse como una encapsulación de HDFS. Su esencia es el almacenamiento de datos y la base de datos NoSQL.
3. Limpieza de datos: MapReduce, como motor de consultas de Hadoop, se utiliza para la computación paralela de conjuntos de datos a gran escala.
4. Análisis de consultas de datos: el trabajo principal de Hive es traducir declaraciones SQL en programas MR que pueden asignar datos estructurados a una tabla de base de datos y proporcionar funciones de consulta HQL (HiveSQL). Spark admite conjuntos de datos distribuidos en memoria, no solo proporcionando consultas interactivas sino también optimizando cargas de trabajo iterativas.
5. Visualización de datos: Para algunas plataformas de BI, los datos analizados se visualizan para guiar los servicios de toma de decisiones.