Red de Respuestas Legales - Derecho de bienes - ¿Cuáles son los niveles estructurales de big data?

¿Cuáles son los niveles estructurales de big data?

Con el desarrollo de Internet, cada vez hay más información inundando Internet, y big data se basa en la recopilación, clasificación y resumen de esta información para clasificar la información que necesitamos y luego usarla. información Una habilidad necesaria para realizar algún trabajo.

Hoy en día, la formación informática de Huilongguan se centra principalmente en analizar los niveles de la tecnología de big data.

En la era de Internet móvil, la cantidad de datos ha crecido exponencialmente, de los cuales los datos no estructurados como texto, audio y vídeo representan más del 85%, y seguirán aumentando en el futuro. El sistema de archivos distribuido, la base de datos distribuida y la tecnología de computación paralela distribuida de la arquitectura Hadoop resuelven los desafíos del almacenamiento, la gestión y el procesamiento de datos heterogéneos masivos de múltiples fuentes.

Desde el lanzamiento de la primera versión de Apache Hadoop en abril de 2006, Hadoop, como tecnología de código abierto que permite el almacenamiento, la gestión y el cálculo masivo de datos, se ha iterado hasta la versión estable v2.7.2, y su Los componentes también se componen de Las comunidades tradicionales de la troika HDFS, MapReduce y HBase se han convertido en un enorme ecosistema compuesto por más de 60 componentes relacionados, incluido el almacenamiento de datos, los motores de ejecución, los marcos de programación y acceso a datos, etc. Su ecosistema ha evolucionado desde la arquitectura de tres niveles de la versión 1.0 a la arquitectura actual de cuatro niveles:

Capa inferior - capa de almacenamiento

Ahora que la cantidad de datos de Internet ha alcanzado PB En niveles, los métodos de almacenamiento tradicionales no pueden cumplir con los requisitos de costo y rendimiento de IO eficientes, la tecnología de administración y almacenamiento de datos distribuidos de Hadoop resuelve este problema. HDFS ahora se ha convertido en el estándar de facto para el almacenamiento en disco de big data, y cada vez están surgiendo más paquetes de formatos de archivos (como Parquent) en su capa superior para adaptarse a más escenarios de aplicaciones, como el análisis de datos de BI y las aplicaciones de aprendizaje automático. En el futuro, HDFS continuará ampliando su soporte para arquitecturas de servidores y medios de almacenamiento emergentes. Por otro lado, a diferencia de los comúnmente utilizados Tachyon o Ignite, el novedoso sistema de archivos de memoria distribuida Arrow proporciona especificaciones para el procesamiento y la interacción del almacenamiento de memoria basado en columnas y ha recibido el apoyo de muchos desarrolladores y gigantes de la industria.

A diferencia de las bases de datos relacionales tradicionales, HBase es adecuado para el almacenamiento de datos no estructurados. Se espera que la base de datos relacional distribuida Kudu anunciada por Cloudera en octubre de 2023 se convierta en un componente importante de la plataforma de análisis de próxima generación. Su aparición acercará aún más el mercado de Hadoop al mercado de almacenamiento de datos tradicional.

Capa intermedia: capa de gestión y control

La capa de gestión y control realiza una gestión eficiente y confiable de recursos y datos del clúster Hadoop. YARN, que nació de MapReduce1.0, se ha convertido en la plataforma universal de gestión de recursos de Hadoop2.0. Cómo integrarse profundamente con la tecnología de contenedores y cómo mejorar las capacidades de programación, control detallado y soporte para múltiples inquilinos son problemas que YARN necesita resolver aún más. Por otro lado, los componentes Ranger de Hortonworks, Sentry y RecordService de Cloudera implementan control de seguridad a nivel de datos.