Diseño de arquitectura de almacenamiento de información de datos geológicos basada en big data
(Centro de Información de Recursos y Tierras Provinciales de Gansu)
Con el fin de promover la industrialización grupal de servicios de información de datos geológicos en mi país y aprovechar al máximo la Valor de la información de datos geológicos, este artículo se centra en la situación actual en mi país. Hay defectos y problemas en la plataforma de servicio del clúster de información de datos geológicos. Basado en la arquitectura de almacenamiento del sistema existente, se diseña una arquitectura de almacenamiento de información de datos geológicos bajo big data. Permitir que la industrialización grupal de los servicios de información de datos geológicos en mi país se adapte a la era del almacenamiento de datos de big data.
Palabras clave big data; almacenamiento de datos geológicos; base de datos dual NoSQL
0 Introducción
Durante los últimos 60 años desde la fundación de la Nueva China, nuestro país se ha formado. una enorme cantidad de información geológica. Proporciona un apoyo importante para el desarrollo económico y social nacional. Sin embargo, la gestión de datos geológicos tiene problemas a largo plazo, como la dispersión de la información, una investigación exhaustiva insuficiente, un bajo grado de digitalización e informatización, canales de servicio deficientes y capacidades de servicio débiles. Como resultado, no se ha aprovechado el enorme valor potencial de la información de los datos geológicos. totalmente utilizado. Con el fin de mejorar aún más la capacidad del trabajo geológico para servir a la economía nacional y el desarrollo social, aprovechar plenamente la función de servicio de la información de datos geológicos y ampliar las áreas de servicio, el Ministerio de Tierras y Recursos ha implementado y promovido integralmente los datos geológicos. Clúster de servicios de información basado en la experiencia avanzada del trabajo geológico en el país y en el extranjero.
Actualmente, los archivos geológicos provinciales de todo el país están limpiando sistemáticamente los resultados, los datos geológicos originales y físicos de sus provincias y preservando digitalmente datos geológicos importantes. Sin embargo, debido a los ricos recursos geológicos de mi país, después de décadas de acumulación, se ha formado una gran cantidad de datos geológicos, y la cantidad de datos ya ha superado los cientos de terabytes. En el proceso de agrupación de servicios de información de datos geológicos, a medida que la cantidad de datos continúa aumentando, los sistemas tradicionales de gestión y almacenamiento de datos inevitablemente mostrarán deficiencias en la recuperación del almacenamiento y la gestión del sistema. Para resolver este problema, es necesario diseñar una arquitectura de almacenamiento de datos más avanzada para realizar el almacenamiento de datos geológicos masivos.
El big data, como nuevo tipo de datos en el campo de la computación en la nube en los últimos años, ha sido diseñado por trabajadores científicos y tecnológicos a través de una investigación continua, utilizando NoSQL, una base de datos no relacional apta para almacenar y gestionar big data. Almacenar y gestionar big data. En vista de los defectos y problemas de la plataforma de servicios de clúster de información de datos geológicos existente en mi país, este documento utiliza la idea del modelo de gestión de almacenamiento de big data para proponer una arquitectura de almacenamiento de datos geológicos masivos y mejora la arquitectura de almacenamiento del sistema existente para promover Información de datos geológicos de mi país. Industrialización integral de servicios.
El estado de funcionamiento de 1
1.1 Estado actual del almacenamiento de información de datos geológicos en el país y en el extranjero
Estados Unidos tiene dos importantes plataformas de servicios públicos de datos geológicos, a saber, el Centro de Información sobre Ciencias de la Tierra (ESIC) y el Centro de Ciencia y Observación de los Recursos de la Tierra (EROS), con el objetivo de proporcionar a la sociedad y a los gobiernos servicios de información geológica más convenientes y rápidos. A principios de la década de 1990, Australia emitió un protocolo nacional de cartografía científica geológica, utilizando métodos y tecnologías científicos avanzados para almacenar datos, formando así la segunda generación de mapas geológicos terrestres australianos.
En la actualidad, el trabajo de industrialización del grupo de servicios de información de datos geológicos de mi país acaba de comenzar, aunque el Centro de Información del Ministerio de Tierras y Recursos ha desarrollado una plataforma de servicios de grupo de información de datos geológicos y defiende a los usuarios de todo el mundo. país para utilizar el sistema. Sin embargo, debido a los diferentes antecedentes de trabajo preliminar en diferentes lugares, los sistemas de almacenamiento utilizados en diferentes lugares también son diferentes, incluidos principalmente Access, SQL Server, Oracle, MySQL y otros sistemas. Este artículo toma como ejemplo el sistema de almacenamiento de plataforma de servicio de clúster de información de datos geológicos MySQL desarrollado por el Centro de Información del Ministerio de Tierras y Recursos. El sistema es un sistema distribuido de almacenamiento y recuperación basado en el sistema de gestión de bases de datos relacionales MySQL. El despliegue de este sistema ha logrado avances significativos en la industrialización grupal de servicios de información de datos geológicos en mi país, sentando una base sólida para el establecimiento de una plataforma de servicios de intercambio de información de datos geológicos estandarizada y unificada y un sistema de servicios de red interconectados en mi país. Sin embargo, el desarrollo de este sistema no tuvo en cuenta la mayor agrupación de información de datos geológicos, así como los problemas de intercambio de información y gestión del almacenamiento de la futura información de datos geológicos que ingresa a la era de los grandes datos, y no se dio una solución clara.
1.2 Introducción a la arquitectura de almacenamiento de big data
Big data es un nuevo tipo de datos en el campo de la computación en la nube en los últimos años. Tiene las características de un gran volumen de datos y datos inestables. estructura, diversos tipos, consultas y análisis complejos y otras características. Los sistemas tradicionales de gestión de bases de datos relacionales ya no son adecuados para el almacenamiento de big data en términos de escala de almacenamiento de datos y eficiencia de recuperación. NoSQL (no solo SQL) es un término general para bases de datos, a diferencia de bases de datos relacionales. Estas bases de datos abandonan el soporte de bases de datos relacionales y adoptan métodos de almacenamiento de datos distribuidos y flexibles para administrar los datos, satisfaciendo así las necesidades del almacenamiento y procesamiento de big data. NoSQL se basa en el concepto de diseño de almacenamiento de datos no relacional y se almacena mediante pares clave-valor. La estructura de palabras de datos utilizada no es fija. Cada tupla puede tener diferentes campos. Cada tupla puede agregar algunos pares clave-valor según sus propias necesidades, lo que puede reducir el tiempo de recuperación y el espacio de almacenamiento. Las bases de datos NoSQL ampliamente utilizadas actualmente incluyen Google BigTable, HBase, MongoDB, Neo4 j, Infinite Graph, etc.
Diseño de arquitectura de almacenamiento de información de datos geológicos basado en big data 2
De acuerdo con el despliegue del Ministerio de Tierras y Recursos para promover integralmente la industrialización en clúster de servicios de información de datos geológicos, el Ministerio de Tierras y Recursos aboga por los Archivos Geológicos Nacionales Utilice la plataforma de servicios de grupo de información de datos geológicos desarrollada por el Centro de Información del Ministerio de Tierras y Recursos para realizar el almacenamiento e intercambio de información de datos geológicos. El sistema utiliza MySQL como sistema de almacenamiento de datos.
Con el fin de conectarse con los sistemas existentes y trabajar y prepararse para el almacenamiento de datos geológicos después de ingresar a la era del big data en el futuro, este artículo diseña datos distribuidos que se pueden utilizar para almacenar información de datos geológicos masivos. y es compatible con la arquitectura de almacenamiento MySQL (Figura 1).
Todo el sistema se puede dividir en diferentes niveles de gestión de usuarios según los diferentes niveles de usuario. Debido a limitaciones del mapa, la Figura 1 solo muestra tres niveles: gestión nacional (es decir, * * * capa de usuario de la plataforma de servicios), gestión provincial y gestión municipal (se puede ampliar al nivel de condado según las necesidades reales).
Cada usuario de cada nivel de gestión puede gestionar un servidor independiente. Por ejemplo, el Centro de Información del Ministerio de Tierras y Recursos puede gestionar un servidor independiente; el Centro de Información de Tierras y Recursos de Gansu puede gestionar un servidor independiente; el Centro de Información de Tierras y Recursos de Shaanxi puede gestionar un servidor independiente en varias oficinas municipales de tierras; Gansu puede administrar sus propios servidores según sea necesario.
Instale dos conjuntos de sistemas de administración de bases de datos en el servidor, uno es el sistema de administración de bases de datos MySQL original y el otro es un sistema de administración de bases de datos NoSQL para almacenamiento de big data. También se desarrolla especialmente un middleware de administrador de bases de datos en el lado del servidor para la comunicación entre la capa de usuario y la base de datos y entre los dos grupos de bases de datos.
Porque cada capa de gestión mantiene su propia base de datos y datos. Cuando el usuario necesita almacenar datos, la base de datos a la que afecta es solo una base de datos local, por lo que la eficiencia del almacenamiento es alta cuando el usuario necesita leer datos de múltiples bases de datos, la plataforma de servicio * * * de nivel superior descompondrá las tareas de acuerdo con ello; a las necesidades del usuario y asignar las tareas a las capas inferiores. Administrar las lecturas de la base de datos. Dado que todas las bases de datos se leen en paralelo, se mejora la eficiencia de lectura de la base de datos.
Figura 1 Diagrama de bloques de la arquitectura de almacenamiento de información de datos geológicos bajo big data
2.1 Gestión de usuarios
Según el alcance de la autoridad, la capa de gestión de usuarios se divide en varias capas (este artículo utiliza la capa de tres capas como ejemplo).
La capa de gestión nacional de nivel superior (* * *capa de usuario de la plataforma de servicios) es responsable de asignar derechos de acceso a los usuarios, acceder a bases de datos directamente relacionadas con ellos y asignar tareas a capas de gestión inferiores.
La asignación de derechos de acceso de usuarios se refiere a la asignación y el diseño de seguridad de los derechos de acceso a datos para usuarios individuales y usuarios organizacionales que acceden a esta * * * plataforma de servicios.
El acceso a bases de datos directamente relacionadas se refiere al acceso a datos almacenados directamente en su base de datos local. En esta base de datos no solo se deben almacenar los datos geológicos necesarios, sino también datos como, por ejemplo, la información del usuario registrado.
La asignación de tareas de la gestión subordinada significa que si el usuario necesita acceder a varias bases de datos subordinadas, esta función solo necesita ingresar comandos para consultar estas bases de datos subordinadas. Por ejemplo, si un usuario desea encontrar el mapa de distribución de mineral de hierro de Gansu, Shaanxi, Shanghai y Beijing, el usuario solo necesita ingresar las condiciones de búsqueda para estos lugares y el mineral de hierro, y el sistema asignará automáticamente las tareas de consulta de la base de datos. de cada provincia a la dirección de nivel inferior.
Asimismo, la dirección provincial y la dirección municipal del siguiente nivel tienen las mismas funciones que la dirección nacional excepto que no tienen derechos de acceso de usuarios. Las bases de datos de cada nivel están conectadas entre sí a través de Internet para formar un sistema de base de datos distribuido.
2.2 Integración de MySQL y NoSQL
MySQL es una base de datos relacional y admite el lenguaje de consulta SQL, mientras que NoSQL es una base de datos no relacional y no admite el lenguaje de consulta SQL. Si los usuarios desean acceder a estas dos bases de datos de forma transparente, deben diseñar el middleware del administrador de bases de datos como una entrada unificada para que los usuarios accedan a la base de datos y una plataforma de comunicación para los dos sistemas de administración de bases de datos. El modelo simple del administrador de base de datos diseñado en este artículo se muestra en la Figura 2.
Figura 2 Modelo de administrador de base de datos
El administrador del servidor se comunica con el programa de aplicación a través de la interfaz del programa de usuario, se comunica con el servidor MySQL a través de la interfaz de la base de datos MySQL y se comunica con la base de datos NoSQL. interfaz a través de la interfaz de base de datos NoSQL. Cuando la interfaz del programa de aplicación recibe un comando de acceso a la base de datos, se entrega al analizador de comandos de acceso a la base de datos para el análisis del comando, formando así un comando de acceso MySQL o un comando de acceso NoSQL y accediendo a la base de datos a través de la interfaz de base de datos correspondiente; La interfaz resume los resultados de acceso devueltos por la base de datos y devueltos a la aplicación.
Dos bases de datos pueden comunicarse y acceder entre sí a través del protocolo de comunicación de base de datos dual. El establecimiento de este protocolo de comunicación facilita a los geólogos transferir datos que han sido almacenados en la base de datos MySQL y no son adecuados para el almacenamiento estructurado a la base de datos NoSQL, facilitando así las actualizaciones y optimización del sistema.
2.3 Método de almacenamiento y recuperación del sistema
En el diseño de este marco de almacenamiento, el sistema adopta un modelo de almacenamiento en red distribuido, es decir, adopta una estructura de almacenamiento escalable y es Se utilizan dispersos por todo el país. Múltiples servidores independientes en varios lugares para almacenar datos. Este método no solo comparte la presión de almacenamiento del servidor, mejora la confiabilidad y disponibilidad del sistema, sino que también facilita la expansión del sistema.
Además, debido a las particularidades del almacenamiento de información de datos geológicos, el trabajo de almacenamiento de datos de los usuarios locales se realiza básicamente en el servidor local, y el almacenamiento remoto a través de la red rara vez se realiza, por lo que la eficiencia del almacenamiento de datos es alta.
Los sistemas de gestión de bases de datos MySQL y NoSQL se instalan en un servidor de bases de datos y se utilizan para almacenar datos estructurados y datos no estructurados en información de datos geológicos, respectivamente. Entre ellos, la base de datos NoSQL se utiliza como base de datos principal para almacenar algunos datos estructurados y todos los datos no estructurados se utiliza como base de datos auxiliar para almacenar algunos datos estructurados y los datos ya almacenados en el sistema anterior. Utilizando dos conjuntos de bases de datos, puede almacenar datos estructurados y es adecuado para almacenar información geológica en la era del big data, por lo que el sistema tiene buena adaptabilidad y flexibilidad.
2.4 Diseño de seguridad
Los datos y la información geológicos son secretos de estado y los trabajadores geológicos deben garantizar su seguridad. Después de que la información de datos geológicos ingresa a la era digital, los datos geológicos a menudo se transmiten en computadoras y redes. La transmisión segura y la preservación de la información de datos geológicos son cuestiones a las que los geólogos deben prestar atención y resolver. Los problemas de seguridad en el diseño de la arquitectura de almacenamiento incluyen principalmente la seguridad del almacenamiento de la base de datos, la seguridad de la transmisión de datos, la seguridad del acceso a los datos, etc.
El diseño de la base de datos adopta un modelo de seguridad multilateral y un modelo de seguridad multinivel para evitar la fuga de información y datos en la base de datos, mejorar el rendimiento de seguridad de la base de datos y garantizar la seguridad del almacenamiento de información geológica en el base de datos. Cuando los usuarios inician sesión en el sistema para acceder a la base de datos, se debe realizar el reconocimiento de la identidad del usuario y la autenticación del nombre real, principalmente para identificar efectivamente la identidad del usuario y evitar que usuarios ilegales accedan a la base de datos en la transmisión de datos geológicos en la red; debe cifrarse primero y luego transmitirse a través de la red, para evitar que la información geológica sea robada durante la transmisión.
3 Conclusión
Mejorar el nivel de digitalización e informatización de los datos geológicos es una práctica común en países extranjeros con un fuerte trabajo geológico. Con el fin de promover la industrialización de clústeres de servicios de información de datos geológicos en mi país, este documento apunta a los defectos y problemas existentes en la plataforma de servicios de clúster de información de datos geológicos existente en mi país y utiliza la idea del modelo de gestión de almacenamiento de big data para Diseñar el almacenamiento de información de datos geológicos bajo big data. La arquitectura permite la industrialización agrupada de los servicios de información de datos geológicos de mi país para adaptarse al almacenamiento de datos en la era de big data. El diseño de la arquitectura de almacenamiento solo implica la construcción de modelos simples, y el diseño funcional y la implementación de software detallados y complejos deben completarse en trabajos de investigación adicionales.
Referencia
[1] Wu. Investigación y aplicación de un modelo de almacenamiento de big data [D]. Beijing: Facultad de Ciencias de la Computación, Universidad de Correos y Telecomunicaciones de Beijing, 2012.
, Wang, ,, et al. Sistema masivo de recuperación y almacenamiento de datos estructurados [J] Computer Research and Development, 2012, 49 (Suplemento): 1 ~ 5.
Huang, Yi Xiaodong, Li Shanshan, et al. Implementación y evaluación de una plataforma de procesamiento masivo de datos para computadoras de alto rendimiento [J] Computer Research and Development, 2012, 49 (Suplemento): 357 ~ 361. .