Red de Respuestas Legales - Asesoría legal - Calidad de los datos y ocho dimensiones de los indicadores de calidad de los datos

Calidad de los datos y ocho dimensiones de los indicadores de calidad de los datos

Calidad de los datos e indicadores ocho dimensionales de la calidad de los datos

La calidad de los datos afecta directamente el valor de los datos y afecta directamente los resultados del análisis de datos y las decisiones que tomamos en base a ellos. . calidad. Los datos de baja calidad no solo son un problema con los datos en sí, sino que también afectan las decisiones de gestión empresarial; los datos incorrectos son peores que la falta de datos, porque sin datos, tomaremos decisiones inexactas basadas en la experiencia y el juicio de sentido común. , y unos datos erróneos nos llevarán a tomar una decisión equivocada. Por lo tanto, la calidad de los datos es la clave para el gobierno de los datos en las operaciones y la gestión empresarial.

La calidad de los datos se puede medir desde ocho aspectos, y cada dimensión refleja la calidad de los datos desde un aspecto. Las ocho dimensiones son: exactitud, autenticidad, exhaustividad, exhaustividad, actualidad, inmediatez, precisión y relevancia.

A menudo utilizamos esta representación gráfica cuando comparamos la condición de dos conjuntos de datos. Por ejemplo, en términos generales, la exactitud, autenticidad y exhaustividad de la recopilación interna de datos son altas, mientras que la exhaustividad, puntualidad, inmediatez, exactitud y relevancia dependen de la importancia que se atribuye a los datos dentro de la empresa y de los medios técnicos utilizados. el avance de conjuntos de datos externos, como datos de Weibo, datos de medios de Internet, etc., su exhaustividad, puntualidad e inmediatez se pueden mejorar a través de medios técnicos, como rastreadores web, pero en términos de precisión, autenticidad, La precisión es difícil de garantizar y difícil de controlar, y la relevancia depende de las tecnologías relevantes de recopilación y extracción de datos.

También podemos utilizar este modelo para medir la calidad de los datos de varios departamentos funcionales dentro de la empresa. La siguiente figura es un esquema. A través de la evaluación de los ocho indicadores principales de la calidad de los datos, podemos tomar medidas específicas para el gobierno interno de los datos de la empresa para mejorar la calidad de los datos de la empresa.

Exactitud de los datos

La precisión de los datos (Exactitud) se refiere a la cercanía entre el valor de recopilación de datos o el valor observado y el valor real, también llamado valor de error, cuanto mayor es el error, mayor bajar la precisión. La exactitud de los datos está determinada por el método de recopilación de datos.

Exactitud de los datos

La precisión de los datos (Precisión) se refiere a la cercanía entre diferentes datos obtenidos cuando los datos de observación del mismo objeto se miden repetidamente. La precisión también se puede llamar exactitud. La exactitud está relacionada con la exactitud de nuestra recopilación de datos. Una alta precisión requiere una mayor granularidad de la recopilación de datos y una menor tolerancia a los errores.

Para medir la altura de una persona, podemos tener una precisión de centímetros, y la diferencia entre múltiples medidas solo será a nivel de centímetros; para medir la distancia de Beijing a Shanghai, podemos tener una precisión de kilómetros. y la diferencia entre múltiples mediciones será en kilómetros Nivel: Usar un calibre vernier para medir el espesor de una pieza puede tener una precisión de 1/50 mm, y el error entre múltiples resultados de medición será solo de 1/50 mm. Los métodos y medios de medición utilizados afectan directamente la precisión de los datos.

Autenticidad de los datos

La autenticidad de los datos también se denomina corrección de los datos (Corrección). La precisión de los datos depende del grado de controlabilidad del proceso de recopilación de datos. Si el grado de controlabilidad es alto y la trazabilidad es buena, la autenticidad de los datos se puede garantizar fácilmente. Si el grado de controlabilidad es bajo o no se puede garantizar. rastreados y los datos no se pueden rastrear después de haber sido falsificados, la autenticidad se verá comprometida.

Para mejorar la autenticidad de los datos, el uso de terminales inteligentes sin intervención humana en el proceso de recopilación directa de datos puede garantizar mejor la autenticidad de los datos recopilados, reducir la intervención humana y reducir el fraude de datos. haciendo así que los datos reflejen cosas objetivas con mayor precisión.

Oportunidad de los datos

La puntualidad de los datos (a tiempo) es si los datos se pueden garantizar cuando se necesitan. A principios de mes, realizaremos un resumen estadístico de los datos operativos y de gestión del mes anterior, si estos datos se pueden procesar de manera oportuna y si las finanzas se pueden calcular de manera oportuna después del cierre mensual. . La puntualidad de los datos es la garantía de la puntualidad de nuestro análisis y extracción de datos. Si la contabilidad financiera de la empresa es compleja y la velocidad contable es lenta, los datos del mes pasado solo se pueden resumir estadísticamente a mediados de mes. Cuando es necesario ajustar la estrategia financiera, ya es fin de mes. el mes casi termina. Especialmente cuando una empresa crece y su negocio cubre múltiples mercados y países, los datos no se pueden resumir de manera oportuna, lo que afectará la oportunidad de la toma de decisiones de alto nivel.

La puntualidad de los datos está directamente relacionada con la velocidad y la eficiencia del procesamiento de datos empresariales. Para mejorar la puntualidad de los datos, cada vez más empresas adoptan sistemas de información de gestión y agregan información adicional a la información de gestión. El sistema una función de procesamiento automático de datos puede completar automáticamente la mayoría de los informes después de que los datos se cargan en el sistema, lo que garantiza la eficiencia del procesamiento de datos. El procesamiento informático automático de datos de nivel medio es un medio eficaz para mejorar la eficiencia del procesamiento de datos empresariales.

Además de garantizar la puntualidad de la recopilación de datos y la eficiencia del procesamiento de datos, también es necesario garantizar la puntualidad de la transmisión de datos a través de sistemas y procesos. Una vez que se completa el informe de datos, debe enviarse al departamento designado de manera oportuna o dentro del rango de tiempo requerido, o cargarse en el espacio de almacenamiento designado.

Inmediatez de los datos

La inmediatez de los datos se refiere al nodo de tiempo de la recopilación y transmisión de datos. Un dato se almacena inmediatamente después de que se recopila la fuente de datos, y se procesa y presenta inmediatamente. datos en tiempo real, pero si se transmiten al sistema de información después de un período de tiempo, los datos serán menos en tiempo real.

Recopilación de datos de Weibo, cuando un usuario publica un Weibo, los datos se pueden capturar y procesar inmediatamente, se generará un informe de datos de Weibo instantáneo y, a medida que pase el tiempo, los datos seguirán cambiando, nosotros Podemos llamarlo Las operaciones se recopilan y procesan en tiempo real. El instrumento de un equipo de producción refleja instantáneamente la temperatura, el voltaje, la corriente, la presión del aire y otros datos del equipo. Estos datos generan flujos de datos para monitorear el estado operativo del equipo en cualquier momento. datos. Cuando los datos operativos en tiempo real del equipo se almacenan y se utilizan para analizar la relación entre las condiciones operativas del equipo y la vida útil del equipo, estos datos se convierten en datos históricos.

Integridad de los datos

La integridad de los datos se mide a partir del grado de recopilación de datos, que es la relación entre los datos que deben recopilarse y los datos que realmente se recopilan. Una pieza de información recopila 12 puntos de datos. Por ejemplo, cuando recopilamos datos de información de los empleados, debemos completar el nombre, la fecha de nacimiento, el sexo, el origen étnico, el lugar de origen, la altura, el tipo de sangre, el estado civil, el título más alto. especialidad con el grado más alto, escuela de graduación con el título más alto, hay 12 elementos de información, como la fecha de graduación del título académico más alto, etc., pero un empleado solo completa parte de la información si solo se completan 5 de los elementos. la integridad de los datos completados por el empleado es solo la mitad.

La integridad de los datos de una empresa refleja la importancia que la empresa concede a sus datos. Es necesario recopilar datos, pero en realidad no se recopilan en su totalidad, sino solo una parte. Esto es incompleto y, a menudo, se debe a los requisitos insuficientes de la empresa en cuanto a la calidad de la recopilación de datos. La empresa exige que todos completen un formulario de información personal completo, pero algunos empleados se niegan a completarlo. Sólo 1200 de los 2000 empleados de la empresa han completado un formulario de información personal completo, por lo que este conjunto de datos está incompleto.

Además, para los datos dinámicos, podemos medir la integridad de la recopilación de datos desde la línea de tiempo. Por ejemplo, si requerimos que se recopilen datos cada hora, se formarán 24 puntos de datos cada día y se registrarán como 24 datos. Sin embargo, debido a la mala conducta de los empleados, solo se registrarán 20 registros, por lo que este conjunto de datos también está incompleto.

Integridad de los datos

Existe una diferencia entre la exhaustividad y la integridad de los datos. La integridad mide la diferencia entre lo que se debe recopilar y lo que realmente se recopila. La exhaustividad se refiere a la omisión de puntos de recolección de datos. Por ejemplo, si queremos recopilar datos sobre el comportamiento de los empleados, solo recopilamos datos sobre las entradas y salidas de los empleados. No hemos recopilado datos sobre el comportamiento de los empleados durante el horario laboral o no hemos encontrado un método adecuado para recopilarlos. Entonces, este conjunto de datos no es completo.

Cuando describimos el embalaje de un producto, solo describimos el anverso y el reverso del embalaje del producto. Si no registramos los lados del embalaje del producto, está incompleto. Registramos los datos de la transacción de un cliente. Solo recopilamos los productos en el pedido del cliente, el precio y la cantidad de los productos en el pedido, pero no recopilamos la dirección de entrega ni el tiempo de compra del cliente. Esta recopilación de datos no es exhaustiva.

Los datos de usuario de Tencent QQ y WeChat registran los datos de comunicación del cliente; los datos de usuario de Alibaba y JD.com registran los datos de las transacciones de compra del usuario; Baidu Map registra los registros de viajes de los usuarios de Dianping y Meituan. datos de entretenimiento. Los datos de estas empresas no son completos para todos los aspectos de ropa, alimentación, vivienda y transporte que describen completamente la vida de una persona. Si sus datos se integran, se formarán datos más completos. Por tanto, la exhaustividad de los datos es un concepto relativo. No es realista perseguir excesivamente la exhaustividad de los datos.

Correlación de datos

La correlación de datos se refiere a la correlación entre varios conjuntos de datos. Por ejemplo, los datos salariales de los empleados y los datos de evaluación del desempeño de los empleados están relacionados a través del recurso de empleado, y los datos de desempeño están directamente relacionados con el salario. Los datos de las órdenes de compra y los datos de las órdenes de producción están relacionados a través del mecanismo de trazabilidad de materiales, y los empleados completan las órdenes de producción, es decir, a través de los datos de trabajo de los empleados y los datos de información de los empleados.

De hecho, en los big data corporativos que analizamos en este libro, cada conjunto de datos está relacionado, algunos están directamente relacionados, como los datos sobre salarios de los empleados y los datos de desempeño de los empleados, y otros están relacionados indirectamente, como Hablemos de los datos de las órdenes de compra de materiales y de los datos salariales de los empleados. Las relaciones entre estos datos están conectadas por los recursos de la empresa, incluidas personas, finanzas, materiales e información. Si algún conjunto de datos no se puede conectar a otros conjuntos de datos, habrá fragmentación de datos o silos de datos. La fragmentación de datos y los silos de datos son causados ​​por una correlación insuficiente de los datos empresariales. La correlación de datos afecta directamente el valor de los conjuntos de datos empresariales.