Almacén de datos y gestión de metadatosPrefacio Los datos en los sistemas de procesamiento de transacciones se utilizan principalmente para registrar y consultar condiciones comerciales. A medida que la tecnología de almacenamiento de datos continúa madurando, los datos empresariales se han convertido gradualmente en la base principal para la toma de decisiones. El almacén de datos es un tema orientado a la toma de decisiones, un sistema de base de datos orientado a la lectura con datos resumidos actuales e históricos. Su propósito es apoyar la toma de decisiones. El almacén de datos debe recopilar datos relevantes dentro y fuera de la empresa y adaptarlos a las necesidades de la toma de decisiones. El procesamiento organizacional puede informar eficazmente el proceso de toma de decisiones. Los datos de un almacén de datos se extraen y transforman de muchos sistemas de procesamiento empresarial. Con entornos de datos empresariales tan complejos, es especialmente importante gestionarlos y acceder a ellos de forma segura y eficiente. La clave para resolver este problema es gestionar los metadatos de forma científica y eficaz. Los metadatos son información descriptiva sobre los procesos de manipulación de datos y la estructura e importancia de una aplicación. Su objetivo principal es proporcionar una guía completa de recursos de datos. Los metadatos no solo definen las reglas de fuente, extracción y transformación de los datos en el almacén de datos, sino que el funcionamiento de todo el sistema de almacén de datos se basa en los metadatos. Conecta todos los componentes sueltos del sistema de almacén de datos para formar una estructura orgánica del todo. . Este artículo presenta primero la definición, función y significado de los metadatos y luego analiza el estado actual y los problemas de la gestión de metadatos en los sistemas de almacenamiento de datos. La estandarización de metadatos propone en última instancia los pasos y métodos de implementación para establecer un sistema de gestión de metadatos. Por definición tradicional, los metadatos son datos sobre datos. En los sistemas de almacenamiento de datos, los metadatos pueden ayudar a los administradores y desarrolladores del almacén de datos a encontrar los datos que les interesan con mucha facilidad. Los metadatos describen la estructura y el método de creación de datos en el almacén de datos. Según el propósito, los datos del almacén de datos se pueden dividir en dos categorías: metadatos técnicos y metadatos comerciales. Los metadatos técnicos son datos que almacenan los detalles técnicos de un sistema de almacén de datos y se utilizan para desarrollar y gestionar el almacén de datos. Incluye principalmente la siguiente información: La descripción de la estructura del almacén de datos incluye la jerarquía de las dimensiones de la vista del esquema del almacén, la definición de los datos exportados y la ubicación y el contenido del centro de datos. #;Arquitectura y patrones de almacenes de datos y mercados de datos en sistemas empresariales. Los algoritmos utilizados para la agregación incluyen algoritmos de definición de dimensiones y medidas, granularidad de datos, agregación y resumen de áreas temáticas, consultas e informes predefinidos. al entorno del almacén de datos incluye datos de origen y su contenido, partición de datos, extracción de datos, limpieza, reglas de transformación y reglas de actualización de datos. Los metadatos comerciales de seguridad (autorización de usuario y control de acceso) describen los datos en el almacén de datos desde una perspectiva comercial. Proporciona una capa semántica entre los usuarios y el sistema real, lo que permite que el personal empresarial que no comprende la tecnología informática comprenda los datos en el almacén de datos. Los metadatos comerciales incluyen principalmente los nombres de objetos del modelo de datos y los nombres de atributos expresados en los términos comerciales del usuario de la información, el principio de acceso a los datos y la fuente de los datos, los métodos de análisis proporcionados por el sistema, las fórmulas y la información del informe incluyen específicamente los siguiente información: Modelo conceptual empresarial Esta es la información importante que deben proporcionar los metadatos empresariales. Representa información de alto nivel del modelo de datos empresariales, así como conceptos y relaciones comerciales en toda la empresa. Según este modelo empresarial, el personal empresarial que no comprende la tecnología de bases de datos y las declaraciones SQL también puede tener un conocimiento profundo de los datos en el almacén de datos. # ;El modelo de datos multidimensional es una parte importante del modelo conceptual empresarial. Le dice al analista de negocios qué dimensiones, cubos de datos y reglas de agregación hay en el mercado de datos. El cubo de datos aquí representa una organización multidimensional de tablas de hechos comerciales y tablas de dimensiones en un área temática determinada. #; Dependencia entre el modelo de concepto de negocio y los datos físicos. Los metadatos comerciales mencionados anteriormente solo representan la vista comercial de los datos y la relación correspondiente entre estas vistas comerciales y la jerarquía de dimensiones de los campos de la tabla en el almacén de datos real o la base de datos multidimensional. también debe reflejarse en el repositorio de metadatos. En el sistema de almacenamiento de datos, el mecanismo de metadatos admite principalmente los siguientes cinco tipos de funciones de gestión del sistema (1). ¿Qué datos hay en el almacén de datos? (2) Definir los datos para ingresar al almacén de datos y los datos generados desde el almacén de datos. (3) Registrar el progreso de la extracción de datos en función de la ocurrencia de eventos comerciales. (4) Registrar y detectar los requisitos y la implementación de la coherencia de los datos del sistema. (5) Medir la calidad de los datos. El almacén de datos no es tanto un proyecto de desarrollo de software como un proyecto de integración de sistemas[]. Debido a que su trabajo principal es integrar las herramientas de almacenamiento de datos necesarias para completar la extracción, transformación, carga, análisis OLAP y minería de datos de datos, como se muestra en la figura, su estructura típica consta de una capa de entorno de ejecución, una capa de almacenamiento de datos y una capa de negocio. capa La primera capa (capa del entorno de ejecución) se refiere a los sistemas OLTP relacionados con el negocio y algunas fuentes de datos externas en toda la empresa. La segunda capa se implementa extrayendo los datos relevantes de la primera capa a un área central. La tercera capa de la capa del almacén de datos es el diagrama de la capa empresarial, que se compone de varias herramientas para completar el análisis de los datos comerciales. El lado izquierdo de la figura es la gestión de metadatos, que desempeña un papel conector en los siguientes aspectos. #; Fácil de integrar y mantener metadatos en la base de datos de metadatos. En segundo lugar, es responsable de la transmisión de mensajes entre las herramientas de modelado, las herramientas de recopilación de datos y las herramientas de front-end del almacén de datos, y de coordinar el trabajo entre varios módulos y herramientas.
De las secciones anteriores, sabemos que los metadatos casi pueden denominarse almacén de datos o incluso sistema de inteligencia empresarial (BI). Alma Es precisamente porque los metadatos juegan un papel importante en todo el ciclo de vida de un almacén de datos. Todas las soluciones de almacenamiento de datos de varios proveedores mencionan la gestión de metadatos, pero desafortunadamente, no todas las soluciones proponen claramente un modelo completo de gestión de metadatos. Sólo proporcionan gestión de metadatos locales específicos. Las principales herramientas relacionadas con metadatos actualmente en el mercado se muestran en la figura. Las herramientas de almacén se pueden dividir aproximadamente en cuatro tipos de herramientas de extracción de datos, que integran la extracción de datos y la conversión de sistemas comerciales en el almacén de datos. Por ejemplo, la base de decisión de Ardent's DataStage CA (anteriormente Platinum) y el extracto de ETI solo proporcionan elementos técnicos. datos, proporcionando poco soporte para los metadatos empresariales. Las herramientas de demostración de front-end incluyen análisis OLAP. Las herramientas de generación de informes e inteligencia empresarial, como el agente DSS Cognos de MicroStrategy, BO y Brio de PowerPlay Business Objects, admiten vistas empresariales multidimensionales al asignar tablas relacionales a tablas de hechos y tablas de dimensiones relevantes para el negocio, y luego a los datos en el almacén de datos. análisis. Estas herramientas proporcionan metadatos comerciales y metadatos técnicos. La herramienta de modelado de capa semántica correspondiente es una herramienta de modelado de negocios para personal no técnico. Estas herramientas pueden proporcionar semántica de nivel superior relacionada con negocios específicos, como ERwin Sy*** de CA, etc. Las herramientas de almacenamiento de metadatos como PowerDesigner y Rational Rose generalmente se almacenan en una base de datos especializada, que es como una caja negra. Es imposible saber cómo se almacenan los metadatos utilizados y generados por estas herramientas. También existe una herramienta llamada metadatos, que es independiente de otras herramientas. Los datos proporcionan un espacio de almacenamiento centralizado, incluida la estandarización de la gestión de metadatos, como Microsoft Repository CA, Repository Ardent MetaStage y Sybase WCC. Una razón importante por la que la gestión de metadatos de Fangyuan es difícil es la falta de estándares unificados. En este caso, la solución de gestión de metadatos de cada empresa es diferente. En los últimos años, con la mejora gradual del modelo de información abierta OIM (Metadata Alliance) de MDC (Metadata Alliance) y los estándares públicos * * * CWM (Common Warehouse Model) de la organización OMG y la fusión de MDC y OMG. organizaciones, los almacenes de datos tienen proveedores que proporcionan estándares unificados, allanando así el camino para la gestión de metadatos. No es difícil ver en la historia del desarrollo de los metadatos que existen dos métodos principales de gestión de metadatos (). Para entornos relativamente simples, establezca una base de conocimientos de metadatos centralizada de acuerdo con los estándares comunes de gestión de metadatos (). Para entornos más complejos, establezca un sistema de gestión de metadatos para cada parte para formar una base de conocimiento de metadatos distribuida y luego establezca un formato de intercambio de metadatos estándar para. lograr una gestión integrada de los metadatos. A continuación se presentan el estándar OIM de MDC y el estándar CWM de OMG, respectivamente. El modelo de almacenamiento OIM de MDC se estableció en 2000 y se compromete a establecer relaciones con los fabricantes. Un consorcio tecnológico sin fines de lucro para estándares de gestión de metadatos empresariales independientes de la tecnología. La alianza tiene varios miembros, incluidos conocidos fabricantes de software como Microsoft e IBM. MDC aceptó la propuesta de Microsoft de utilizar OIM como estándar de metadatos. El propósito de OIM es respaldar datos entre diferentes herramientas y sistemas a través de información de metadatos comunes. Disfrútelo y reutilícelo en todas las fases de los sistemas de información (desde el diseño hasta el lanzamiento). Los datos se pueden compartir entre herramientas y bases de conocimiento a través de descripciones estándar de tipos de metadatos. Los tipos de metadatos declarados por OIM se describen en UML (Universal Modeling Language) y se organizan en múltiples áreas temáticas que son fáciles de usar y ampliar. Estas áreas temáticas incluyen Análisis y Diseño, que se centra en el análisis, diseño y modelado de software. El alcance de este tema se divide a su vez en paquetes UML (paquete de extensión UML, paquete de elementos comunes, paquete de tipos de datos comunes y paquete de modelado de relaciones entre entidades, etc. #; Los objetos y componentes involucran todos los aspectos de la tecnología de desarrollo orientada a objetos. El alcance de Este tema solo incluye Componente Descripción Paquete de modelado La base de datos y el almacenamiento proporcionan soporte conceptual de metadatos para la gestión, reutilización y creación de almacenes de datos. El alcance de este tema se divide a su vez en esquemas de bases de datos relacionales, esquemas OLAP y esquemas de bases de datos. , esquemas, definiciones de informes, etc. # ;La ingeniería comercial proporciona el modelo para las operaciones comerciales. El alcance de este tema se divide a su vez en paquete de objetivos comerciales, paquete de elementos organizativos, paquete de reglas comerciales, paquete de procesos comerciales, etc. # ;La gestión del conocimiento involucra la estructura de información de la empresa. El alcance de esta pregunta se divide a su vez en descripción del conocimiento (Nuevos conocimientos/Artículos/Programas/Oracle/201311/18587).