Sistema de gestión de calidad de datos de recopilación
1. ¿Qué es la calidad de los datos?
Qué es la calidad de los datos se puede entender desde dos aspectos:
1.1 La calidad de los datos en sí.
p>
l Autenticidad de los datos.
Los datos deben reflejar fiel y fielmente el negocio real.
l Integridad de los datos.
La integridad de los datos significa que los datos son suficientes y que no se ha perdido ningún dato relacionado con la operación.
l Autoconsistencia de los datos.
Los datos no existen de forma aislada. A menudo existen varias restricciones entre los datos. Esta restricción describe la asociación de los datos. Los datos deben poder satisfacer la correlación entre los datos y no contradecirse entre sí.
La autenticidad, la integridad y la autoconsistencia de los datos son atributos que los datos en sí deben tener. Se denominan calidad absoluta de los datos y son la base para garantizar la calidad de los datos.
Además de la calidad absoluta de los datos, también existe la calidad de los datos producidos en el proceso de utilización y almacenamiento de datos, incluida la calidad de uso, la calidad de almacenamiento y la calidad de transmisión, lo que se denomina calidad del proceso.
1.2. Calidad del proceso de datos
l Calidad del uso de los datos
La calidad del uso de los datos significa que los datos se utilizan correctamente. Por muy correctos que sean los datos, si se utilizan incorrectamente es imposible sacar conclusiones correctas.
l Calidad del almacenamiento de datos
La calidad del almacenamiento de datos significa que los datos se almacenan de forma segura en los medios adecuados. La llamada seguridad se refiere a la adopción de soluciones y tecnologías adecuadas para resistir factores externos y proteger los datos de daños. La copia de seguridad es una tecnología que utilizamos con frecuencia, incluida la copia de seguridad externa y la copia de seguridad de doble máquina. El incidente del 11 de septiembre en los Estados Unidos. y el incidente del Océano Índico a finales de 2004 El incidente del tsunami ha hecho que cada vez más líderes empresariales se den cuenta de la importancia de la copia de seguridad, especialmente la copia de seguridad externa, el llamado almacenamiento en medios apropiados, lo que significa que los datos se pueden recuperar de manera rápida y conveniente cuando; necesario.
l Calidad de la transmisión de datos
La calidad de la transmisión de datos se refiere a la eficiencia y corrección de los datos durante la transmisión. En la sociedad de la información moderna, cada vez se transmiten más datos entre diferentes lugares y es muy importante garantizar una alta eficiencia y precisión durante el proceso de transmisión.
2. Calidad y coherencia de los datos
En nuestro trabajo, descubrimos que muchos usuarios e incluso algunos desarrolladores de proyectos de almacén de datos a menudo asocian la calidad de los datos con ETL en el desarrollo del almacén de datos. proyectos La coherencia de los datos del proceso es confusa y se cree erróneamente que el proyecto de almacén de datos (es decir, el proceso ETL) puede reparar los datos para mejorar la calidad de los datos y la coherencia de los datos del ETL. proceso son dos conceptos diferentes.
La coherencia de los datos en el proceso ETL significa que, basándose en el mismo entendimiento empresarial (basado en el modelo del sistema fuente y basado en el modelo del almacén de datos), la información consultada y contada en el sistema fuente y los resultados obtenidos. en el almacén de datos son consistentes en cada El nivel de detalle, incluido el nivel de detalle, es el mismo. Se debe garantizar la coherencia de los datos en el proceso ETL.
La calidad de los datos existe en el sistema fuente de la empresa. Por ejemplo, los códigos de clientes comunes no están estandarizados. El mismo cliente tiene códigos diferentes en diferentes sistemas (como los sistemas de procesamiento comercial y los sistemas financieros). El mismo cliente tiene diferentes códigos en el mismo sistema. Tomemos como ejemplo el sistema de procesamiento comercial de una compañía de seguros. Si el mismo cliente solicita un seguro en la misma compañía de seguros, diferentes vendedores pueden ingresar diferentes códigos de cliente. aplicaciones que no implementan la distribución centralizada a gran escala. Si el mismo cliente (como el Banco Industrial y Comercial de China) solicita un seguro en diferentes sucursales (como la sucursal de Henan y la sucursal de Hubei), es probable que el vendedor ingrese códigos diferentes; Por otro ejemplo, en el sistema de procesamiento empresarial, parte del personal de entrada a menudo deja parte del contenido sin ingresar o usa valores predeterminados para facilitar la entrada, lo que resulta en la pérdida o error de alguna información de entrada importante.
Estos problemas de calidad de los datos causan interrupciones e interrupciones significativas en nuestros sistemas de análisis de datos.
Aunque el proyecto de almacén de datos no puede reparar datos para mejorar su calidad, puede descubrir algunos problemas existentes y recordar a los usuarios qué datos tienen problemas de calidad, y al mismo tiempo brindarles algunas sugerencias para mejorar. Se debe reducir la dependencia de estos datos al tomar decisiones, y también se pueden proporcionar métodos auxiliares para rastrear y monitorear los problemas de calidad de los datos.
3. La importancia de la calidad de los datos
La información de datos es un recurso estratégico importante para las empresas. El uso razonable y eficaz de los datos correctos puede guiar a los líderes empresariales a tomar decisiones correctas y mejorar la calidad de los datos. competencia de las empresas. El uso irrazonable de datos incorrectos (es decir, mala calidad de los datos) puede provocar fallos en la toma de decisiones.
Ahora, muchas grandes empresas se han dado cuenta de la importancia de la información y la calidad de los datos y han establecido centros de datos especialmente para gestionar el trabajo de datos.
4. Razones de la baja calidad de los datos
Nuestros datos provienen del personal de entrada de datos que ingresa al sistema a través de medios de tecnología de la información (desarrollo de sistemas de procesamiento informático), por lo que la calidad de los datos no es alta. La alta eficiencia proviene de los dos aspectos siguientes:
4.1. Tecnología de la información significa
La tecnología de la información moderna es suficiente para garantizar la calidad del almacenamiento y la transmisión de datos. artículo, pero se discutirá en detalle. La razón por la cual la calidad de los datos obtenidos por nuestro sistema de procesamiento informático no es alta es que en muchos casos la interfaz de usuario de nuestro sistema de procesamiento informático es poco amigable, incómoda para los usuarios o no se ajusta a los hábitos operativos habituales de los usuarios, lo que hace que los usuarios propenso a errores o La carga de trabajo de entrada es pesada; la información de entrada importante no está reforzada.
4.2. Personal de entrada de datos
Los errores de entrada por parte del personal de entrada de datos o las violaciones de los procedimientos operativos (intencionales o no) son otra razón importante para la baja calidad de los datos. Este problema puede verse desde dos aspectos:
l El personal de entrada de datos tiene un bajo sentido de responsabilidad y baja calidad profesional.
l Los líderes de base no prestan atención a la calidad de los datos. Los ingresos comerciales son el sustento de las bases. Los líderes de base no invertirán mucha mano de obra y recursos materiales para mejorar la calidad de los datos. Debido a la feroz competencia del mercado, los líderes de base a veces incluso piden a los empleados de entrada que realicen algunas operaciones ilegales para competir. A los líderes de base no les importan los datos. Existe un conflicto entre la comprensión y la gestión y las necesidades de datos de los líderes superiores. Esta contradicción es una contradicción central que causa la baja calidad de los datos.
5. Cómo hacer un buen trabajo en la gestión de la calidad de los datos
Cómo hacer un buen trabajo en la gestión de la calidad de los datos, el autor cree que podemos partir de tres aspectos: p>
5.1. Aumentar el conocimiento de los datos
Solo cuando reconozcamos el importante papel de los datos en la gestión prestaremos atención a los problemas de calidad de los datos. Cada empleado de la empresa debe poder darse cuenta de que los datos son un recurso estratégico importante de la empresa y que todas las decisiones de la empresa provienen de datos. Sin datos correctos y de alta calidad, no puede haber decisiones correctas. Hay un proverbio en el extranjero: "Basura entra, basura sale". (Lo que entra es basura, lo que sale sigue siendo basura). Permítanme preguntarles, si utilizamos basura al tomar decisiones, ¿cómo podemos esperar ser buenos? decisiones? !
5.2. Garantía de tecnología de la información
Adoptar tecnología de desarrollo avanzada para desarrollar un sistema con una interfaz fácil de usar para reducir la carga de trabajo de entrada del operador y la posibilidad de errores al mismo tiempo; Se deben considerar plenamente las necesidades del usuario antes del desarrollo para evitar que el software de procesamiento empresarial no cumpla con los requisitos del cliente y que los operadores realicen operaciones ilegales.
Desarrollar herramientas de detección e inspección de datos para detectar problemas de calidad de datos de manera oportuna y corregirlos de manera oportuna. Debe saber que cuanto antes se descubra el problema, menor será el costo de la corrección. Si un hormiguero no se repara a tiempo, provocará el colapso de miles de kilómetros.
5.3. Gestión perfecta del sistema
Establecer un sistema completo de responsabilidad de datos en toda la empresa y vincularlo al desempeño de los empleados y a las recompensas y castigos. Las empresas con condiciones pueden establecer organizaciones especializadas y La organización es. responsable de la gestión de datos.