Red de Respuestas Legales - Derecho empresarial - Aplicación de metadatos DC en la catalogación de resultados de datos geológicos

Aplicación de metadatos DC en la catalogación de resultados de datos geológicos

Li Lei, Li Xiaoguang, Zhang Liangjun, Zheng Jinna, Wang Xinhua

(Centro de Estudios Geológicos de Tianjin)

Resumen Este artículo estudia principalmente la relación cartográfica entre Metadatos de DC y catalogación de datos geológicos resultantes, analizó cómo modelar los metadatos centrales generados de datos geológicos basados ​​en la tecnología de esquema XML y utilizarlos para construir un sistema de plataforma de intercambio distribuido.

Palabras clave DC Dublin Core Esquema XML Catálogo de datos geológicos OAI

0 Introducción

Los datos geológicos resultantes se refieren a la finalización de diversos trabajos geológicos o proyectos de investigación especiales. Un conjunto completo de documentos y materiales científicos y tecnológicos proporcionados en forma de textos, esquemas, tablas, etc. de acuerdo con lo establecido en las correspondientes especificaciones técnicas y los requisitos originales del diseño del proyecto. El catálogo a nivel de registro de datos geológicos de los archivos geológicos de mi país se construye principalmente utilizando el "Reglamento sobre el formato de descripción del catálogo electrónico de datos geológicos (prueba)" promulgado por el Ministerio de Tierras y Recursos o las reglas y estándares formulados por el Centro de Investigación para el Desarrollo. del Servicio Geológico de China La catalogación a nivel de archivos adopta el "estándar del sistema de base de datos de limpieza de datos geológicos originales". La catalogación basada en estos estándares siempre ha jugado un papel muy importante en la recuperación, difusión, intercambio, servicio y utilización de datos. Sin embargo, dicha catalogación no se puede intercambiar con metadatos de bases de datos de geociencias u otras plataformas de catalogación de documentos. De hecho, como una especie de documento geológico profesional, los datos geológicos resultantes tienen la singularidad del documento y es necesario intercambiarlos con otros catálogos de literatura, especialmente para lograr un intercambio completo con los metadatos de información geocientífica.

Los metadatos son datos sobre datos, que son una síntesis de información sobre la forma, el contenido principal, la ubicación de almacenamiento y otra información de los recursos de información. En la actualidad, la investigación sobre la tecnología de metadatos ha penetrado en varios campos, incluidos los metadatos en campos profesionales, como los metadatos geoespaciales digitales sobre datos geoespaciales y los catálogos legibles por máquina de recursos de colecciones de documentos de bibliotecas. También hay metadatos para una amplia gama de aplicaciones, como los metadatos de Dublin Core. Después de comparar varios metadatos, el autor cree que los datos geológicos resultantes, como importante portador de recursos de información geológica, contienen información espacial, pero su estructura y contenido no cumplen con los estándares de los datos espaciales. Como tipo de recurso documental, los datos geológicos resultantes se pueden catalogar en catálogos legibles por máquina. Sin embargo, los catálogos legibles por máquina tienen campos complejos, altos requisitos profesionales para el personal de entrada y tipos aplicables limitados, por lo que se debe considerar la cuestión del intercambio con otros. tipos de recursos, el catálogo legible por máquina no es adecuado como estándar universal de metadatos. Los metadatos Dublin Core (Dublin Core, DC) son simples y fáciles de usar. Se usaron originalmente para describir recursos de red. Ahora se han convertido en un estándar de metadatos que puede describir cualquier recurso de información. Tiene una amplia gama de aplicaciones y facilita la organización. e intercambio de datos, y puede mejorar la recuperación de datos.

El autor cree a través de la investigación que el uso de Dublin Core Metadata (metadatos DC) para catalogar los datos geológicos puede resolver el problema de compartir datos de múltiples fuentes en diferentes lugares y será más propicio para promover Resultados geológicos. Servicios de socialización de datos.

1 Mapeo de catalogación de datos geológicos resultantes y metadatos de DC

1.1 Catalogación de datos geológicos resultantes

Los datos geológicos resultantes se refieren a un conjunto físico de datos geológicos. Además de la información de catalogación básica del archivo, también tiene información de contenido de datos específica a nivel de archivo. Según las diferentes formas de contenido, los archivos de datos geológicos resultantes se componen de 8 tipos de recursos: texto, aprobación, dibujos, cronogramas, archivos adjuntos, bases de datos y software, multimedia y otros. Toda esta información de recursos se almacena en forma de tablas en la base de datos del catálogo de resultados [1].

Tomando como ejemplo la base de datos de limpieza de datos geológicos original, los campos principales de la catalogación a nivel de archivo de los datos geológicos resultantes incluyen el número de la institución de recolección, el nombre de la institución de recolección, el número de datos, el nombre de los datos. , la categoría de datos, el tipo de datos, el idioma y la unidad de informe, editor, tiempo de formación (envío), nivel de trabajo, nivel de confidencialidad, palabras clave, palabras clave (minerales), coordenadas geográficas, divisiones administrativas, resumen de contenido, período de trabajo. , un total de 18 campos; los 8 campos en el catálogo a nivel de archivo. Los campos de recursos más comunes incluyen: número de datos y nombre de datos, para la aprobación, se debe agregar la autoridad de aprobación y la fecha de aprobación, y para los dibujos adjuntos, el. Es necesario agregar escala.

1.2 Campo de metadatos de DC

Los metadatos Dublin Core se produjeron en 1995. Después de 10 años de expansión y mejora continua, se han formado 15 elementos centrales básicos, y los elementos se califican mediante calificadores. Un esquema de metadatos refinado y pulido para describir información de red cada vez más rica. Los elementos de DC se pueden dividir en tres grupos según la categoría y el alcance del contenido que describen [2]: ① 7 elementos de metadatos de descripción del contenido del recurso: Título, Asunto, Descripción, Idioma, Fuente, Relación y Cobertura; ② Conocimiento; 4 elementos de metadatos en la clase de descripción de derechos de propiedad: Creador, Editor, Colaborador y Derechos; ③Clase de descripción de atributos externos. 4 elementos de metadatos: Fecha, Tipo, Formato, Identificador. Consulte la Tabla 1 para conocer la definición de campos específicos.

Los calificadores DC son palabras que califican y modifican la semántica de 15 elementos. Su formulación sigue el famoso principio de compatibilidad con versiones anteriores, es decir, la semántica de las palabras modificadas se incluye en las palabras no modificadas, la semántica de las palabras no modificadas tiene un alcance limitado y la semántica de las palabras no modificadas se amplía en profundidad [3].

1.3 Relación de mapeo

A través de una investigación comparativa, el autor cree que:

(1) Además del formato, los otros 14 elementos básicos del archivo- campo de catalogación de nivel Todos pueden establecer relaciones correspondientes con los elementos centrales de DC. En el elemento de cobertura, dado que los datos geológicos tienen características tanto temporales como espaciales, los calificadores espacial (rango espacial) y temporal (rango de tiempo) se utilizan para describir la cobertura además, porque algunos elementos de los datos geológicos resultantes tienen Debido a; Dada la particularidad de la industria, es necesario agregar tres campos personalizados como complementos, a saber, Distritos (divisiones administrativas), DataCategory (categoría de datos) y WorkingDegree (título laboral). Sin embargo, Relación y Colaborador (otras personas responsables) no tienen campos correspondientes en la base de datos de resultados y deben completarse por separado. El contenido completado en Relación es el código de identificación único de todo el contenido a nivel de archivo contenido en los datos geológicos resultantes. La relación es parte (HasPart), es decir, el recurso a nivel de archivo descrito contiene física o lógicamente el recurso a nivel de archivo al que se hace referencia. , Colaborador (otra persona responsable) completa el nombre de la persona que ingresa en la base de datos.

(2) Varios tipos de recursos a nivel de archivo se dividen en última instancia en tres tipos de recursos debido a las diferencias en sus atributos y contenidos: el primer tipo de recursos son texto, programaciones, archivos adjuntos, bases de datos y software. y multimedia y otros seis tipos de recursos a nivel de archivo, todos tienen cuatro relaciones correspondientes con los elementos centrales de DC. Entre ellos, los dos elementos Formato y Relación no tienen campos correspondientes en la biblioteca. Cabe señalar que el formato aquí se completa con el tipo de medio y el tamaño del recurso de los datos geológicos. Entre estos seis tipos de recursos, las bases de datos, el software y los recursos multimedia solo tienen archivos electrónicos fuente [1], mientras que el resto tienen archivos electrónicos fuente y archivos electrónicos archivados. La relación completa el código de identificación único de los datos a nivel de archivo correspondientes a los datos a nivel de archivo, y la relación es parte de. El segundo tipo de recurso es el recurso de aprobación, que agrega dos elementos, Creador y Fecha, al primer tipo de recurso para representar la autoridad de aprobación y la fecha de aprobación. El tercer tipo de recurso es el recurso de imagen adjunta, que agrega una escala de campo personalizada (Escala) basada en el primer tipo de recurso.

Al comparar la definición del campo DC con la definición del campo en la base de datos de limpieza de datos geológicos original, finalmente se obtuvo la relación de mapeo entre los metadatos de DC y los campos en la base de datos. La catalogación a nivel de archivo se muestra en la Tabla 1. Como se muestra, la correspondencia de catalogación a nivel de archivo se muestra en las Tablas 2, 3 y 4, determinando así el conjunto de elementos de los metadatos centrales de los datos geológicos resultantes. En este conjunto de elementos principales, si se establece la relación de mapeo, se usa el nombre del elemento de los metadatos de DC. Si no se encuentra una relación correspondiente, se usa el nombre del elemento personalizado.

Tabla 1 Tabla de relaciones de mapeo de catalogación a nivel de archivo entre los metadatos de DC y los datos geológicos resultantes

Tabla continuada

Tabla 2 Texto a nivel de archivo de los metadatos de DC y los resultantes tabla de mapeo de catalogación de datos geológicos, cronogramas, archivos adjuntos, bases de datos y software, multimedia y otros recursos

Tabla 3 Tabla de mapeo de catalogación de recursos de aprobación a nivel de archivo de metadatos de DC y datos de resultados

Tabla 4 Mapeo tabla de relaciones entre los metadatos de DC y el catálogo de recursos de dibujo a nivel de archivo de datos de logros

2 Método de implementación

XML (lenguaje de maquillaje extensible) es un lenguaje de marcado de datos estructurado y semiestructurado. y creado por el Internet Consortium (W3C). Su propósito no es solo satisfacer las crecientes necesidades de las aplicaciones de red, sino también garantizar una buena confiabilidad e interoperabilidad al interactuar y cooperar a través de la red, XML, como un lenguaje de marcado independiente del sistema. para expresar información de datos, es más adecuado para el intercambio de datos de metadatos en sistemas de red.

XML Schema es una especificación que utiliza la sintaxis XML para describir y controlar documentos XML. Se utiliza para definir los elementos, atributos y tipos de datos utilizados en documentos XML. En pocas palabras, utiliza un esquema común para generar documentos de datos XML con datos diferentes pero la misma estructura. La relación entre documentos Schema y XML es equivalente a la relación entre clases y objetos. Con el esquema XML, existen restricciones sobre cómo escribir documentos XML. Los metadatos XML generados mediante el uso del esquema XML para modelar los metadatos centrales de los datos geológicos resultantes pueden facilitar la gestión de datos de los recursos en el sistema de red, logrando así una mejor transmisión.

En el proceso de implementación específico, la herramienta de espionaje XML de Altova se puede utilizar para completar el modelado de los metadatos centrales de los datos geológicos y generar documentos de esquema XML en forma de HTML o Word. Según el documento de modelado, los desarrolladores pueden confiar en tecnologías XML relevantes, como XMLBeans [4] de Apache Company, para consultar los datos correspondientes en la base de datos del directorio de resultados y modificar y generar los documentos XML requeridos a través de Schema. implementado en código, no es necesario ingresar datos varias veces. El documento de metadatos XML generado eventualmente se almacenará en forma de una base de datos híbrida XML (base de datos híbrida). Después de una investigación comparativa, el autor cree que la expresión de metadatos centrales de los datos geológicos resultantes se puede realizar bien basándose en la tecnología de esquema XML.

3 ejemplos

El siguiente es un fragmento de metadatos del catálogo a nivel de archivo de datos geológicos descrito en base a xml:

Actas del Octavo Simposio Académico Nacional sobre Geología Archivos

El proyecto "Investigación integral sobre evaluación del potencial de recursos minerales en Alxa, Mongolia Interior" es un proyecto de investigación de estudio geológico integral asignado por el Servicio Geológico de China en octubre de 1999 (Tarea No.: 0499201021; Proyecto No. : K1.1.4 4; número de proyecto de investigación científica: DK9902033). Sobre la base de trabajos anteriores, este proyecto se guía por las teorías de la tectónica de placas, la mineralización de bordes y los sistemas de mineralización, se centra estrechamente en el despliegue del trabajo de evaluación de recursos minerales en el área, se basa en estudios geológicos de campo y parte de la realidad. situación del área realizó estudios geológicos de campo de puntos minerales conocidos y anomalías de exploración geoquímica importantes en el área de trabajo llevó a cabo antecedentes geoquímicos regionales, depósitos de oro de tipo Zhulazhaga controlados por estratos, depósitos de cobre y oro de tipo roca volcánica y relacionados con granito. depósitos de oro, etc. El trabajo de investigación ha determinado aún más las condiciones geológicas de mineralización y los factores de control del mineral de varios depósitos minerales, ha aclarado los signos de prospección de minerales, ha resumido las reglas regionales de mineralización, ha descartado las anomalías físicas y químicas remotas y, sobre esta base , delineó las áreas favorables para la prospección de minerales Para el área de predicción, se compiló un mapa de predicción de mineralización regional de 1:500.000 del área de Alxa y se presentaron sugerencias para el siguiente paso del despliegue del trabajo.

Actas del Octavo Simposio Académico Nacional sobre Archivos Geológicos

Actas del Octavo Simposio Académico Nacional sobre Archivos Geológicos

4 Resultados Datos geológicos** *Discusión sobre compartir tecnología

Hay dos problemas principales con el intercambio de resultados de datos geológicos basado en la red: primero, la distribución de los resultados de datos geológicos está relativamente dispersa y los métodos de servicio son diferentes, los usuarios están distribuidos, cuyos antecedentes; , educación, competencia, etc. varían mucho. Por lo tanto, es necesario estudiar un sistema de intercambio de datos distribuido adecuado para integrar estos recursos de datos dispersos y proporcionar servicios unificados de intercambio de datos para los usuarios de Internet [5].

Después de comparar los sistemas de plataformas de intercambio distribuido comúnmente utilizados en el país y en el extranjero, el autor cree que el modelo de integración de recursos de datos OAI (iniciativa de archivos abiertos) es más adecuado para compartir datos geológicos resultantes. La OAI proporciona el Protocolo de recopilación de metadatos de documentos abiertos (OAIMH) al mundo exterior. Su objetivo principal es lograr la interoperabilidad entre diferentes organizaciones que publican información en la red a través del modo de recopilación de metadatos y proporcionar un marco de interoperabilidad de metadatos independiente de la aplicación. OAIMH se basa en el protocolo HTTP y los datos devueltos están en formato XML. Todo el almacenamiento debe generar metadatos Dublin Core para sus propios recursos para el intercambio, logrando así la interoperabilidad de la red entre varios nodos. Los productores de datos no necesitan abrir completamente sus recursos locales, solo necesitan compartir metadatos. De esta manera, la recuperación conjunta y el intercambio de datos se pueden lograr fácilmente sin cambiar la estructura del software del almacenamiento de datos local. Puede considerarse como un modo de interoperabilidad económico, por lo que convertir el catálogo de datos geológicos resultante en metadatos de DC puede lograr compartir e intercambiar con otros datos científicos a mayor escala. Debido a limitaciones de espacio, no se dará más discusión sobre cómo implementar la plataforma *sharing.

5 Conclusión

Es completamente factible utilizar estándares DC para diseñar los metadatos centrales de los datos geológicos. Basado en la tecnología de esquemas XML, se puede realizar el modelado y finalmente se pueden crear documentos de metadatos XML. generado. Finalmente, construir una plataforma de intercambio distribuido bajo el modelo de integración de recursos de datos basado en el protocolo OAI e intercambiar los metadatos centrales de los datos geológicos generados permitirá mejorar el intercambio y el servicio de los datos geológicos resultantes y, por lo tanto, maximizar el valor potencial de datos e información geológicos y servir a toda la sociedad.

Referencias

[1] Li Xiaoguang et al. Perspectivas para la aplicación de catálogos legibles por máquina en la gestión de datos geológicos de resultados. Actas del Segundo Simposio Académico de la Sociedad Geológica de China. , [C] 2010

[2] Liu Fang, Zhu Sha. Sistema de descripción de metadatos DC basado en XML_RDF en bibliotecas digitales [J]. p>[3] Sheng Jianfeng. Comparación de datos de catalogación de revistas electrónicas MARC y DC Library Forum [J], 2008, (2): 104 ~ 107

[4] Yang Dianhua, Yang Zhigang Research. sobre educación basada en estándares de metadatos XML y DC Metadatos de recursos y difusión de datos Tecnología educativa moderna [J], 2006, (16): 57 ~ 67

[5] Zhu Yunqiang. intercambio de datos científicos de sistemas M. Beijing: Science Press, 2009: 36 ~ 57