Introducción a la gobernanza de datos
Desde la perspectiva de la implementación técnica, la gobernanza de datos incluye principalmente los cinco aspectos de "gestión", "adquisición", "almacenamiento", "gestión" y "uso", es decir, clasificación de recursos comerciales y de datos, datos. recopilación y limpieza, diseño y almacenamiento de bases de datos, gestión de datos, uso de datos.
Clasificación de recursos de datos: el primer paso del gobierno de datos es aclarar el entorno de recursos de datos de la organización y la lista de recursos de datos desde una perspectiva empresarial, incluida la estructura organizativa, los asuntos comerciales, los sistemas de información y las bases de datos, las páginas web, Los recursos de elementos de datos existen en forma de archivos e interfaces API. El resultado de este paso es una lista de recursos de datos clasificados.
Recopilación y limpieza de datos: el proceso de extraer, transformar y cargar datos desde el origen al destino a través de herramientas visuales ETL (como DataX de Alibaba, Pentaho Data Integration), el propósito es almacenar centralmente datos dispersos. y datos fragmentados.
Construcción de una base de datos básica y una base de datos temática: en general, los datos se pueden dividir en datos básicos, datos de temas comerciales y datos de análisis. Los datos básicos generalmente se refieren a datos de entidades centrales, o datos maestros, como población, personas jurídicas, información geográfica, crédito, certificados electrónicos y otros datos en ciudades inteligentes. Los datos temáticos generalmente se refieren a determinados datos temáticos comerciales, como la supervisión de alimentos, la supervisión e inspección de calidad y los datos integrales de supervisión empresarial de la Administración de Supervisión del Mercado. Los datos del análisis se refieren a los datos de los resultados del análisis basados en el análisis integral de los datos del tema comercial, como la evaluación integral de las empresas por parte de la Administración de Supervisión del Mercado, la distribución regional industrial, la distribución de empresas de alto riesgo, etc. Luego, la construcción de la biblioteca básica y la biblioteca temática se basa en la comprensión del negocio y la estructura abstracta de almacenamiento de datos basada en los principios de fácil almacenamiento, fácil administración y fácil uso. Para decirlo sin rodeos, es diseñar el. La estructura de la tabla de la base de datos se basa en ciertos principios y luego, de acuerdo con La lista de recursos de datos, diseña el proceso de recopilación y limpieza de datos y almacena datos ordenados y limpios en una base de datos o almacén de datos.
Gestión de metadatos: la gestión de metadatos es la gestión de los atributos de los elementos de datos en la biblioteca básica y la biblioteca temática. Al mismo tiempo, asocia el significado comercial de los elementos de datos con los elementos de datos, haciéndolo. más fácil de entender para el personal empresarial. El significado de los campos de datos en la base de datos y los metadatos son la base para el intercambio automatizado de datos, el intercambio de datos y la inteligencia empresarial (BI) que se menciona más adelante. Cabe señalar que la gestión de metadatos generalmente se refiere a la gestión de atributos de elementos de datos en la base de datos básica y la base de datos temática (es decir, activos de datos centrales), mientras que la lista de recursos de datos es la gestión de elementos de datos de diversas fuentes de datos.
Seguimiento de linaje: cuando los datos se utilizan en escenarios empresariales, se encuentran errores en los datos y el equipo de gobierno de datos necesita localizar rápidamente la fuente de datos y reparar los errores de datos. Luego, el equipo de gobierno de datos necesita saber de qué biblioteca central provienen los datos del equipo comercial y de qué fuente de datos provienen los datos de la biblioteca central. Nuestra práctica es establecer una asociación entre metadatos y listas de recursos de datos, y los elementos de datos utilizados por el equipo comercial se configuran a partir de una combinación de metadatos. De esta manera, se establece una relación sanguínea entre el escenario de uso de datos y la fuente de datos. Catálogo de recursos de datos: el catálogo de recursos de datos se utiliza generalmente en escenarios de intercambio de datos, como el intercambio de datos entre departamentos gubernamentales. El catálogo de recursos de datos se crea en función de escenarios comerciales y especificaciones de la industria, y se basa en metadatos e infraestructura. y uso.
Gestión de la calidad: la exploración exitosa del valor de los datos debe depender de datos de alta calidad. Sólo los datos precisos, completos y consistentes pueden ser valiosos. Por lo tanto, la calidad de los datos debe analizarse desde múltiples dimensiones, como: compensación, verificación de no nulos, verificación de rango, verificación normativa, verificación de repetibilidad, verificación de correlación, verificación de valores atípicos, verificación de fluctuación, etc. Cabe señalar que el diseño de un modelo de calidad de datos excelente debe basarse en un conocimiento profundo del negocio. Técnicamente, también se recomienda utilizar tecnologías relacionadas con big data para garantizar el rendimiento de la detección y reducir el impacto en el rendimiento de los sistemas empresariales. como Hadoop, MapReduce y HBase.
Inteligencia empresarial (BI): el propósito del gobierno de datos es utilizar para un gran almacén de datos, los escenarios y requisitos para el uso de datos son cambiantes, por lo que puede utilizar productos de BI para satisfacer rápidamente las necesidades. Los datos se analizan y forman informes. Por ejemplo, Pico Data es un proveedor de BI profesional.
Compartir e intercambiar datos: el intercambio de datos incluye el intercambio de datos dentro de la organización y entre organizaciones. Los métodos de intercambio también se dividen en tres tipos: tabla de biblioteca, archivo e interfaz API. es más directo y tosco, mientras que en el método de intercambio de archivos, se puede lograr un intercambio de datos inverso a través de herramientas ETL. Lo que recomendamos es el método para compartir la interfaz API. En este método, el almacén de datos central puede conservar la propiedad de los datos y transferir los derechos de uso de los datos a través de la interfaz API. El uso compartido de la interfaz API se puede implementar utilizando la puerta de enlace API. Las funciones comunes son generación automatizada de interfaz, revisión de aplicaciones, límite actual, límite de concurrencia, aislamiento de múltiples usuarios, estadísticas de llamadas, auditoría de llamadas, lista blanca y negra, monitoreo de llamadas, monitoreo de calidad, etc. .