Red de Respuestas Legales - Derecho de patentes - Cómo construir hadoop, un sistema de big data

Cómo construir hadoop, un sistema de big data

Los big data son enormes en volumen y en diversos formatos. Una variedad de dispositivos en hogares, plantas de fabricación y oficinas, transacciones por Internet, actividad en redes sociales, sensores automatizados, dispositivos móviles e instrumentos de investigación científica generan enormes cantidades de datos. Su explosivo crecimiento ha superado las capacidades de procesamiento de la infraestructura de TI tradicional, lo que ha traído graves problemas de gestión de datos a las empresas y a la sociedad. Por lo tanto, es necesario desarrollar una nueva arquitectura de datos para desarrollar y utilizar estos datos en todo el proceso de "recopilación de datos, gestión de datos, análisis de datos, formación de conocimientos y acción inteligente" para liberar más valor oculto de los datos.

? 1. ¿Ideas de construcción de big data

? 1) Recopilación de datos

La razón fundamental del big data es el uso generalizado de sistemas de detección. Con el desarrollo de la ciencia y la tecnología, las personas han podido fabricar sensores extremadamente pequeños con funciones de procesamiento y comenzaron a implementar ampliamente estos dispositivos en todos los rincones de la sociedad, utilizándolos para monitorear el funcionamiento de toda la sociedad. Estos dispositivos generarán continuamente nuevos datos que se generan automáticamente. Por lo tanto, en términos de recopilación de datos, es necesario agregar marcadores de tiempo y espacio a los datos de Internet, incluido el Internet de las cosas, las redes sociales, los sistemas de información institucionales, etc., para eliminar lo falso y retener lo verdadero, y recopilar datos heterogéneos o incluso heterogéneos tanto como sea posible, y compararlos con datos históricos cuando sea necesario Comparar los datos y verificar la exhaustividad y credibilidad de los datos desde múltiples ángulos.

? 2) Recopilación y almacenamiento de datos

Internet es una red mágica, y el desarrollo de big data y la personalización de software también son un modelo. Las cotizaciones más detalladas están disponibles aquí. Si realmente quieres hacerlo, puedes venir aquí. El número inicial de este teléfono móvil es 187, el número del medio es tres cero y el último número es 14250. Puedes encontrarlos combinándolos en orden. Lo que quiero decir es que, a menos que quieras hacerlo o entiendas este aspecto, si simplemente te unes a la diversión, entonces no vengas.

Solo cuando los datos fluyen constantemente y se disfrutan plenamente pueden tener vitalidad. Sobre la base de la construcción de una base de datos temática, el intercambio de datos y el intercambio de datos de varios tipos de sistemas de información en todos los niveles se realizan mediante la integración de datos. Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, el almacenamiento de datos generalmente requiere configuración, distribución y tecnología de computación en la nube redundantes. Al almacenar, los datos deben clasificarse de acuerdo con ciertas reglas y la capacidad de almacenamiento debe reducirse mediante filtrado y deduplicación, al tiempo que se agregan etiquetas para facilitar la recuperación futura.

? 3) Gestión de datos

Las tecnologías de gestión de big data también están surgiendo sin cesar. Entre las muchas tecnologías, hay seis tecnologías de gestión de datos que generalmente se preocupan, a saber, almacenamiento y computación distribuidos, tecnología de bases de datos en memoria, tecnología de bases de datos en columnas, tecnología de bases de datos en la nube, tecnología de bases de datos no relacionales y tecnología de bases de datos móviles. Entre ellos, el almacenamiento distribuido y la informática reciben la mayor atención. La imagen de arriba es un sistema de gestión de datos de libros.

? 4) Análisis de datos

Análisis y procesamiento de datos: los datos en algunas industrias involucran cientos de parámetros y su complejidad no solo se refleja en la muestra de datos en sí, sino también en múltiples fuentes, entidades heterogéneas y múltiples espacios. . Interacción dinámica. Los métodos tradicionales son difíciles de describir y medir y la complejidad del procesamiento es alta. Es necesario medir y procesar datos multimedia, como imágenes de alta dimensión después de la reducción de dimensionalidad, utilizar la correlación contextual para realizar análisis semánticos, sintetizar información a partir de una gran cantidad de datos dinámicos y potencialmente ambiguos y generar contenido comprensible. Hay muchos tipos de procesamiento de big data y los principales modos de procesamiento se pueden dividir en dos tipos: procesamiento de flujo y procesamiento por lotes. El procesamiento por lotes almacena los datos primero y luego los procesa, mientras que el procesamiento por secuencias procesa los datos directamente. Las principales tareas de la minería son el análisis de correlación, el análisis de conglomerados, la clasificación, la predicción, el patrón de series temporales y el análisis de desviación.

? 5) El valor del big data: sistema de apoyo a la toma de decisiones

La magia del big data es que puede predecir con precisión el futuro analizando datos pasados ​​y presentes integrando datos dentro y fuera de la organización; insights La correlación entre las cosas; a través de la extracción masiva de datos, puede reemplazar el cerebro humano y asumir la responsabilidad de la gestión corporativa y social.

? 6) Uso de datos

Big data tiene tres connotaciones: primero, conjuntos de datos con enormes cantidades de datos, diversas fuentes y diversos tipos; segundo, nuevas tecnologías de procesamiento y análisis de datos; tercero, el uso de datos; análisis para formar valor. Los macrodatos están teniendo un impacto revolucionario en la investigación científica, la construcción económica, el desarrollo social y la vida cultural. La condición clave y necesaria para la aplicación de big data es la integración de "TI" y "operaciones". Por supuesto, la connotación de operaciones aquí puede ser muy amplia, desde la operación de una tienda minorista hasta la operación de una ciudad.

2. Arquitectura básica de big data

Basado en las características anteriores de big data, el costo de almacenar y procesar big data a través de la tecnología de TI tradicional es muy alto. Si una empresa quiere desarrollar vigorosamente aplicaciones de big data, primero necesita resolver dos problemas: primero, extraer y almacenar datos masivos de múltiples categorías a bajo costo y rápidamente, segundo, utilizar nuevas tecnologías para analizar y extraer datos para crear; valor para la empresa. Por tanto, el almacenamiento y procesamiento de big data son inseparables de la tecnología de computación en la nube. En las condiciones técnicas actuales, los sistemas distribuidos basados ​​en hardware barato (como Hadoop) se consideran la plataforma tecnológica más adecuada para procesar big data.

Hadoop es una infraestructura distribuida que permite a los usuarios utilizar recursos informáticos y procesar cantidades masivas de datos de forma cómoda y eficiente. Actualmente, Hadoop se ha utilizado ampliamente en muchas grandes empresas de Internet, como Amazon, Facebook y Yahoo. Es una arquitectura abierta que sus miembros amplían y mejoran constantemente.

Normalmente, la arquitectura es la que se muestra en la Figura 2:

? Arquitectura Hadoop

(1) La capa inferior de Hadoop es HDFS (Hadoop Distributed File System). Los archivos almacenados en HDFS primero se dividen en bloques y luego estos bloques se copian en varios hosts (DataNodes).

(2)2) El núcleo de Hadoop es el motor MapReduce (modelo de programación simplificada y mapeo). Mapa se refiere a descomponer una sola tarea en múltiples tareas y Reducir se refiere a resumir los resultados de múltiples tareas descompuestas. El motor consta de JobTrackers (seguimiento de trabajos, correspondiente a nodos con nombre) y TaskTrackers (seguimiento de tareas, correspondiente a nodos de datos). Al procesar consultas de big data, MapReduce descompondrá las tareas en múltiples nodos para mejorar la eficiencia del procesamiento de datos y evitar cuellos de botella en el rendimiento de una sola máquina.

(3)Hive es un almacén de datos en la arquitectura Hadoop, que se utiliza principalmente para estructuras estáticas y trabajos que requieren análisis frecuentes. Hbase se ejecuta principalmente en HDFS como una base de datos orientada a columnas y puede almacenar petabytes de datos. Hbase utiliza MapReduce para procesar datos masivos internos y puede localizar y acceder a los datos requeridos en los datos masivos.

(4) Sqoop está diseñado para la interoperabilidad de datos. Los datos de bases de datos relacionales se pueden importar a Hadoop o directamente a HDFS o Hive.

(5) Zookeeper es responsable de la coordinación de aplicaciones en la arquitectura Hadoop para mantener la sincronización en el clúster de Hadoop.

(6)Thrift es un marco de software utilizado para desarrollar servicios escalables en varios idiomas. Desarrollado originalmente por Facebook, Thrift es un servicio eficiente y fluido creado entre varios lenguajes de programación.

? ¿Diseño del núcleo de Hadoop

? Basado en un sistema de almacenamiento de datos distribuido

Cliente: utiliza el mecanismo HBase RPC para comunicarse con HMaster y HRegionServer.

Zookeeper: Gestión colaborativa de servicios. HMaster puede detectar el estado de salud de cada HRegionServer en cualquier momento a través de Zookeepere.

HMaster: Gestiona las operaciones de los usuarios para agregar, eliminar, modificar y consultar tablas.

HRegionServer en HBase: módulo central de HBase, principal responsable de responder a las solicitudes de E/S del usuario y leer y escribir datos en el sistema de archivos HDFS.

Área H: La unidad más pequeña de almacenamiento distribuido en HBase, que puede entenderse como una tabla.

HStore: Núcleo HBase del almacenamiento HBase. Compuesto por MemStore y StoreFile.

HLog: cada vez que un usuario escribe en Memstore, también se escribirá un dato en el archivo HLog.

Combinado con las funciones de arquitectura Hadoop anteriores, las funciones del sistema de la plataforma de big data se recomiendan de la siguiente manera:

Sistema de aplicaciones: para la mayoría de las empresas, las aplicaciones en el campo operativo son el núcleo. Aplicaciones del big data. En el pasado, las empresas utilizaban principalmente diversos datos de informes para la producción y las operaciones, pero con el advenimiento de la era del big data, los datos masivos de Internet, el Internet de las cosas y varios sensores han pasado a primer plano. Como resultado, algunas empresas comenzaron a extraer y utilizar estos datos para promover la eficiencia operativa.

Plataforma de datos: con la ayuda de la plataforma de big data, la Internet del futuro permitirá a los comerciantes comprender mejor los hábitos de uso de los consumidores, mejorando así la experiencia del usuario. A partir del correspondiente análisis de big data se puede mejorar de forma más específica la experiencia del usuario y al mismo tiempo explorar nuevas oportunidades de negocio.

Fuente de datos: La fuente de datos se refiere a la base de datos o al servidor de base de datos utilizado por la aplicación de base de datos. Las fuentes de datos enriquecidas son el requisito previo para el desarrollo de la industria del big data. Las fuentes de datos continúan expandiéndose y volviéndose más diversas. Por ejemplo, los automóviles inteligentes pueden convertir el proceso dinámico de conducción en datos, y el Internet de las cosas integrado en los equipos de producción puede convertir la dinámica del proceso y los equipos de producción en datos. La expansión continua de las fuentes de datos no solo puede generar el desarrollo de equipos de recolección, sino también controlar mejor el valor de los datos mediante el control de nuevas fuentes de datos. Sin embargo, la cantidad total de recursos de datos digitales en China es mucho menor que la de Estados Unidos y Europa. En lo que respecta a los recursos de datos limitados, todavía hay situaciones en las que la estandarización es baja, la precisión es baja, la integridad es baja y el valor de utilización es bajo, lo que reduce el valor de los datos.

? En tercer lugar, el efecto objetivo de big data

A través de la introducción y despliegue de big data, se pueden lograr los siguientes efectos:

? 1) Integración de datos

Modelo de datos unificado: lleva el modelo de datos empresarial y promueve la unificación de modelos lógicos de datos en varios campos de la empresa;

Estándares de datos unificados: establece un estándar de manera uniforme directorio de codificación de datos para realizar la estandarización empresarial y el almacenamiento unificado de datos;

Vista de datos unificada: realice una vista de datos unificada, lo que permite a las empresas obtener información consistente desde las perspectivas de clientes, productos, recursos, etc.

? 2) Control de calidad de los datos

Inspección de la calidad de los datos: verifique la coherencia, integridad y precisión de los datos almacenados de acuerdo con reglas para garantizar la coherencia, integridad y precisión de los datos;

Control de calidad de los datos : Al establecer estándares de calidad de datos empresariales, organizaciones de control de datos y procesos de control de datos, la calidad de los datos se puede controlar de manera uniforme, mejorando así gradualmente la calidad de los datos.

? 3) Datos * * *

Eliminar interfaces de malla, establecer un centro de intercambio de big data, proporcionar * * * datos compartidos para varios sistemas comerciales, reducir la complejidad de la interfaz y mejorar la eficiencia y calidad de las interfaces entre sistemas;

p>

Proporcione datos consolidados o calculados a sistemas externos en tiempo real o casi real.

? 4) Aplicación de datos

Aplicación de consulta: la plataforma implementa funciones de consulta bajo demanda con condiciones inciertas, condiciones impredecibles y formatos flexibles;

Aplicación de informes fijos: se basa en dimensiones estadísticas fijas y indicadores La visualización de los resultados del análisis puede analizar y generar varios datos de informes comerciales de acuerdo con las necesidades del sistema comercial;

Aplicación de análisis dinámico: realice análisis temáticos de datos de acuerdo con las dimensiones y los indicadores de interés, estas dimensiones y los indicadores se utilizan en aplicaciones de análisis dinámico no es fijo.

? Cuarto, resumen

La plataforma de big data basada en tecnología distribuida puede reducir efectivamente los costos de almacenamiento de datos, mejorar el análisis de datos y la eficiencia del procesamiento, tiene la capacidad de admitir datos masivos y escenarios de alta concurrencia y puede acortar significativamente la respuesta. a las consultas de datos para satisfacer las necesidades de datos de todas las aplicaciones de capa superior de la empresa.