Cómo mejorar la calidad de los datos
La era del big data ha traído datos masivos, diversos y no estructurados. Podemos realizar análisis más amplios y profundos, pero deben basarse en datos de alta calidad para que sean significativos. Este número presenta la evaluación, mejora y monitoreo de la calidad de los datos desde una perspectiva empresarial.
En la era del big data, los activos de datos y sus capacidades de utilización de valor se han convertido gradualmente en elementos clave que constituyen la competitividad central de las empresas; sin embargo, las aplicaciones de big data deben basarse en datos confiables para que sean significativas. la aplicación de datos incorrectos puede frustrar su propósito original. Por lo tanto, la calidad de los datos es el cuello de botella de los datos de las aplicaciones empresariales. Los datos de alta calidad pueden determinar el límite superior de aplicación de datos, mientras que los datos de baja calidad inevitablemente reducirán el límite inferior de aplicación de datos.
La calidad de los datos generalmente se refiere al grado en que los datos pueden reflejar verdadera y completamente la situación real de la gestión empresarial. Generalmente se puede medir y evaluar a partir de los siguientes aspectos:
Exactitud: en el sistema El valor de los datos es consistente con el valor real Los datos deben cumplir con las reglas comerciales y los estándares estadísticos. Problemas comunes de precisión de los datos, como:
Inconsistencia con las condiciones reales: hay errores en las fuentes de datos, lo que dificulta estandarizar el juicio y las restricciones;
Inconsistencia con las especificaciones comerciales: en los datos recopilación, uso, Durante el proceso de gestión y mantenimiento, faltan especificaciones comerciales o están mal implementadas, lo que resulta en una falta de precisión de los datos.
Integridad: Integridad de los datos. Problemas comunes de integridad de datos, como:
El sistema establece un campo, pero en las operaciones comerciales reales, la recopilación de datos para este campo está incompleta, lo que resulta en datos faltantes o incompletos;
El sistema no ha configurado el campo: existe un requisito de datos, pero el sistema no ha configurado el campo de recuperación correspondiente.
Coherencia: el grado de coherencia de los datos entre las fuentes de datos internas y externas del sistema, si los datos siguen especificaciones unificadas y si la recopilación de datos mantiene un formato unificado. Problemas de coherencia comunes, como:
Falta de vinculación del sistema o errores de vinculación: los datos que deberían ser iguales entre sistemas son inconsistentes y faltan la vinculación e inspección necesarias.
Oportunidad: la medida en que los datos pueden respaldar rápidamente las aplicaciones en la recopilación, transmisión y procesamiento, y la medida en que las características de tiempo de los datos satisfacen la aplicación. La puntualidad está relacionada con si el sistema puede obtener los datos generados en un momento específico requerido por el sistema dentro de un tiempo específico para completar la función del sistema. Problemas comunes de puntualidad, como:
Puntualidad insuficiente: los datos no se actualizan de acuerdo con los requisitos de tiempo de actualización de datos especificados.
Disponibilidad: Se utiliza para medir la disponibilidad de la integración de elementos de datos y de las aplicaciones. Problemas de usabilidad comunes, como:
Falta de funciones de aplicación, falta de procesamiento de datos relevantes, reglas de procesamiento o funciones de aplicación de modelo de datos para obtener datos de destino;
Falta de integración, dispersión de datos, Difícil de integrar y compartir de manera efectiva.
Otras medidas, como la eficacia, pueden considerar hasta qué punto se cumplen los formatos, tipos y estándares de datos, y la racionalidad puede considerar hasta qué punto los datos se ajustan a restricciones lógicas. Una encuesta anterior sobre la calidad de los datos de una empresa mostró que entre los problemas comunes de calidad de los datos, la precisión representaba el 33%, la integridad representaba el 28%, la disponibilidad representaba el 24% y la coherencia representaba el 8%, lo que hasta cierto punto representa el datos que enfrentan las empresas nacionales.
La primera tarea para mejorar la calidad de los datos es definir un conjunto de especificaciones de datos estandarizados para estandarizar la definición, calibre, formato, valor y unidad de elementos de datos específicos para formar requisitos de calidad específicos para los elementos de datos. Basándose en este conjunto de especificaciones como criterio para medir y mejorar la calidad de los datos, los elementos de datos críticos pueden examinarse de manera preventiva o de seguimiento en todos los aspectos de la recopilación, el procesamiento y la aplicación de datos. Se puede utilizar un amplio diccionario de datos a nivel empresarial como portador de especificaciones de estandarización de datos para recopilar, estandarizar y compilar los nombres de los elementos de datos, las definiciones comerciales y las reglas involucradas en las operaciones empresariales, estandarizar la información de descripción de los elementos de datos y definir uniformemente el requisitos de seguridad y calidad de los datos, sentando así las bases para proporcionar servicios de datos confiables para las operaciones comerciales y mejorar la calidad general de los datos. Idealmente, el diccionario de datos generalizado a nivel empresarial está completo, todos los elementos de datos de todos los sistemas empresariales están incluidos en el diccionario de datos y no hay sinónimos ni sinónimos. Por el contrario, los diccionarios de datos en un sentido estricto suelen ser estándares de atributos técnicos para un único sistema y sirven para el desarrollo y la aplicación de un único sistema.
Los diccionarios de datos empresariales suelen dividirse en tres capas: elementos de datos, rangos de valores y valores de dominio. Las especificaciones a nivel de elemento de datos incluyen principalmente nombres, definiciones de reglas comerciales, requisitos de seguridad de datos y requisitos de calidad de datos.
Nombre del elemento de datos: incluye el nombre chino, el nombre en inglés y la abreviatura en inglés del elemento de datos. Los elementos de datos con diferentes significados tienen nombres diferentes. Las bases de datos físicas deben nombrar los campos según abreviaturas en inglés únicas a nivel mundial definidas en el diccionario de datos.
Definición de reglas comerciales: incluido el significado comercial de los datos, reglas de conversión, reglas de procesamiento y otros metadatos de seguridad, incluida la definición de requisitos de seguridad, como fuentes de datos, propietarios y derechos de acceso.
Requisitos de calidad de los datos: según la definición de las especificaciones de los datos, se proponen requisitos como la longitud, el formato, el valor, el procesamiento de los datos y las relaciones de verificación cruzada que satisfacen las necesidades comerciales como punto de apoyo de la gestión de la calidad de los datos. .
El dominio de valor se puede subdividir en dominio de código, dominio de codificación, dominio de texto, dominio de cantidad, dominio numérico, dominio de tiempo, etc.
Por ejemplo, el campo de valor correspondiente al elemento de datos "Lugar de nacimiento" es el campo de código "División administrativa", que hace referencia al estándar nacional GB-T2260-2016 "Código de división administrativa de la República Popular China", y el valor del campo correspondiente es la tabla de códigos definida por la norma nacional. Para otro ejemplo, el campo de valor correspondiente al elemento de datos "número de tarjeta de débito" es el campo de codificación "número de tarjeta de 19 dígitos", que define dos métodos de codificación de número de tarjeta de 16 dígitos y número de tarjeta de 19 dígitos, y el correspondiente Los valores de campo específicos no se enumeran.
La gestión de la calidad de los datos se refiere a la definición de la calidad de los datos, el control de procesos, el monitoreo, el análisis y la rectificación de problemas, con el fin de mejorar la calidad de los datos para satisfacer las necesidades comerciales durante la creación, el procesamiento, el uso y la migración de datos. de actividades de gestión tales como evaluación y valoración. La gestión de la calidad de los datos sigue principios orientados al negocio, determina los alcances clave del control de calidad y ajusta dinámicamente el enfoque del control por fases y la optimización continua. Las responsabilidades de la gestión de la calidad de los datos se pueden definir según el principio de "quien crea, quién es responsable; quién procesa, quién es responsable; quién proporciona, quién es responsable", y cada responsable en el enlace de circulación de datos es responsable de la calidad de los datos dentro de su jurisdicción. Priorizar Las medidas de control automático del programa del sistema para las reglas de calidad de los datos avanzan los puntos de control tanto como sea posible para controlar la calidad de los datos desde la fuente.
Los puntos de monitoreo de la calidad de los datos generalmente se implementan para. Se definen y generan elementos de datos clave y reglas de monitoreo de la calidad de los datos. Monitorear las alarmas, informarlas según la gravedad y manejar y responder en el nivel correspondiente. Según la experiencia, los elementos de datos clave generalmente tienen un impacto amplio, como involucrar a múltiples líneas de negocios. , o se utiliza en la firma de contratos, contabilidad, análisis de desempeño, etc. Precios de productos, recaudación y pago de fondos y otros vínculos comerciales clave, o se están aplicando a la gestión interna, divulgación de información externa y requisitos regulatorios de la industria, como datos de informes financieros e importantes. indicadores claramente establecidos en la implementación del nuevo acuerdo de capital.
Los métodos de control de los puntos de monitoreo de la calidad de los datos se dividen en dos tipos: prevención y monitoreo:
El control preventivo generalmente se implementa en. puntos de recopilación de datos para controlar los datos de origen ingresados manualmente y verificar los datos de origen importados por lotes para evitar la generación de datos incorrectos.
Verificación de entrada de datos: como verificación de entrada de tasa de interés de préstamo.
Umbral de datos. : por ejemplo, los datos no están vacíos y el valor de los datos excede el rango razonable definido por el rango de valores, el formato de los datos no cumple con los estándares
Modo de control de calidad: inspección automática del sistema/manual dual; inspección;
Método de verificación del sistema: obligatorio, si no cumple con las reglas, no pasará
Los controles de monitoreo monitorean los datos de error y emiten alertas cuando se encuentran problemas de calidad de los datos. Generalmente se implementan en aplicaciones y procesamiento de datos para verificar la integridad, coherencia, precisión, etc. de los datos;
Verificación de resultados: por ejemplo, verificación del saldo total del préstamo.
Coherencia de los datos. : Por ejemplo, la posición de la transacción es consistente con la posición de la transacción registrada en el sistema del libro mayor.
Modo de control de calidad: verificación automática del sistema p>
Modo de verificación del sistema: avisos opcionales, de error y de diferencia.
Para elementos de datos clave seleccionados, las reglas de calidad de los datos y los niveles de calidad de los datos deben definirse mediante "umbrales" y calificarse por "tolerancia":
Bueno: el nivel de calidad de los datos. elemento es superior al "Umbral"
Tolerable: el puntaje de calidad del elemento de datos es inferior al "Umbral" pero superior a la "Tolerancia"”
Alerta: La calidad la puntuación del elemento de datos es inferior a la “tolerancia”
Alarma grave: el problema de calidad del elemento de datos tendrá un impacto muy grave y se juzga por la experiencia humana.
Detalles Los puntos de monitoreo de elementos de datos clave deben mantenerse y actualizarse en el diccionario de datos empresariales para seguir el ritmo de su desarrollo, implementación y pruebas.
Los informes de calificación de corrección de errores de respuesta y calidad de los datos deben cumplir con los siguientes principios. :
Descubrir, informar y procesar oportunamente eventos de calidad de datos que hacen que el nivel de calidad de los datos entre en los estados "tolerable", "alarma" y "alarma grave";
Normal: para diferentes niveles Los problemas de calidad de los datos se informan a las partes interesadas y se asignan los recursos adecuados;
Eficiencia: resolver problemas de calidad de los datos dentro del tiempo de puntuación especificado. Los tiempos de respuesta deben especificarse en términos de alarmas tolerables, de alarma y críticas apropiadas;
Organizados. Al realizar informes de calificación de la calidad de los datos, debe haber un liderazgo unificado, responsabilidades en diferentes niveles e informes ordenados.
El programa de monitoreo de la calidad de los datos implementado en la capa UDP monitorea la calidad de los elementos de datos clave en tiempo real o periódicamente, califica la calidad de los datos y evalúa la calidad de los datos comparando el "umbral" y la "tolerancia". de los puntos de seguimiento. Para los resultados de la evaluación que no son "buenos", el monitor de calidad de los datos enviará un mensaje de alerta para notificar a los administradores de calidad de los datos. Los mensajes de alerta incluyen un encabezado de ubicación del problema y una descripción detallada. El personal de gestión de calidad de datos investiga los elementos de datos problemáticos basándose en la información de la alarma, verifica el contenido de la alarma, genera información de alerta temprana para notificar a los usuarios intermedios y completa órdenes de trabajo de corrección de errores para notificar al personal responsable relevante. El personal responsable relevante investigará los problemas de calidad de los datos en función del contenido específico del aviso de corrección de errores y propondrá requisitos y soluciones de mejora de la calidad de los datos, que serán corregidos por el equipo de operación y mantenimiento de implementación en el nivel de aplicación de datos o en el nivel de integración de recopilación de datos. Si los requisitos de calidad de los datos son demasiado estrictos o las reglas de control son incorrectas, lo que provoca corrección de errores y problemas de alarma, se debe modificar la lista de elementos de datos clave y las reglas de monitoreo relacionadas, y el equipo de operación y mantenimiento de implementación debe modificar o cancelar el monitoreo correspondiente. puntos desplegados.