Manejo de valores faltantes en el análisis de datos
Sin datos de alta calidad, no habrá resultados de extracción de datos de alta calidad. Los valores de datos faltantes son uno de los problemas que a menudo se encuentran en el análisis de datos. Cuando la proporción que falta es pequeña, los registros faltantes se pueden descartar directamente o procesar manualmente. Sin embargo, en los datos reales, los datos faltantes suelen representar una gran proporción. En este momento, si el procesamiento manual es ineficiente y se descartan los registros faltantes, se perderá mucha información, lo que dará como resultado diferencias sistemáticas entre datos de observación incompletos y datos de observación completos. Si analiza datos como este, es probable que saque conclusiones equivocadas.
Causas de los datos faltantes
Los datos en el mundo real son muy confusos y los valores de atributos faltantes a menudo son incluso inevitables. Hay muchas razones para la pérdida de datos:
La información no está disponible temporalmente. Por ejemplo, en una base de datos médica, no todos los resultados de las pruebas clínicas de todos los pacientes están disponibles en un tiempo determinado, lo que hace que algunos valores de atributos estén vacíos.
Falta información. Puede deberse a que se consideró sin importancia al ingresar, olvido de completar o malinterpretar los datos, o puede perderse debido a fallas en el equipo de recolección de datos, medios de almacenamiento, medios de transmisión y algunos factores humanos.
Algunos objetos tienen una o más propiedades que no están disponibles. Por ejemplo, el nombre del cónyuge no casado, los ingresos fijos de los hijos, etc.
Alguna información no es importante. Por ejemplo, el valor de un atributo es independiente de un contexto determinado.
El coste de obtener esta información es demasiado elevado.
Este sistema requiere un alto rendimiento en tiempo real. Es decir, se requiere un juicio o decisión rápida antes de obtener esta información.
El manejo de valores faltantes requiere un análisis específico. ¿Por qué necesitamos un análisis específico? Porque los atributos faltantes a veces no significan datos faltantes. Los valores faltantes en sí contienen información y deben completarse adecuadamente en función de la información que los valores faltantes pueden contener en diferentes escenarios de aplicación. A continuación se muestran algunos ejemplos para ilustrar cómo analizar problemas específicos. Diferentes personas tienen opiniones diferentes, solo como referencia:
"Ingresos anuales": complete el valor promedio en el escenario de recomendación del producto, complete el valor mínimo en el escenario del monto del préstamo;
"Punto de tiempo de comportamiento": Complete el modo;
"Precio": complete el valor mínimo en el escenario de recomendación del producto, complete el valor promedio en el escenario de coincidencia de producto
<; p>"Vida": complete el valor máximo en el escenario de estimación del costo del seguro, Complete el valor promedio en el escenario de estimación de la población;"Experiencia de conducción": los usuarios que no completen este elemento pueden no tengo automóvil, por lo que es más razonable completar 0;
"Fecha de graduación de licenciatura": los usuarios que no completan este elemento pueden no haber asistido a la universidad, por lo que es más razonable completar infinito positivo;
"Estado civil": los usuarios que no completen este elemento pueden ser sensibles a su privacidad y deben configurar una categoría separada, si está casado, 1, soltero, 0, dejar en blanco -1 .
Tipos de falta
Antes de abordar los datos faltantes, es necesario comprender los mecanismos y las formas de los datos faltantes. Las variables sin valores faltantes en el conjunto de datos se denominan variables completas y las variables con valores faltantes en el conjunto de datos se denominan variables incompletas. Según la distribución de la eliminación, la eliminación se puede dividir en eliminación completamente aleatoria, eliminación aleatoria y eliminación completamente no aleatoria.
Falta completamente al azar (MCAR) significa que los datos faltantes son completamente aleatorios y no dependen de ninguna variable incompleta o completa, y no afectan la equidad de la muestra. Si falta la dirección de su casa.
Falta al azar (MAR): significa que los datos faltantes no son completamente aleatorios, es decir, los datos faltantes dependen de otras variables completas. Por ejemplo, la falta de datos financieros está relacionada con el tamaño de la empresa.
Falta no aleatoria (MNAR): Indica que los datos faltantes están relacionados con el valor de la propia variable incompleta. Por ejemplo, las personas con ingresos altos no están dispuestas a aportar ingresos familiares.
Para faltas aleatorias y no aleatorias, no es apropiado eliminar registros. Los datos perdidos al azar se pueden estimar utilizando variables conocidas. No existe una buena solución para la eliminación no aleatoria.
Nota: Para problemas de clasificación, podemos analizar las proporciones entre categorías en muestras faltantes, así como las proporciones de categorías en el conjunto de datos general.
La necesidad del manejo de valores perdidos
Los datos faltantes son un problema complejo en muchos campos de investigación. Para la minería de datos, la existencia de valores predeterminados tiene los siguientes efectos:
El sistema pierde mucha información útil;
La incertidumbre mostrada en el sistema es más obvia y la certeza contenida en el sistema El componente sexual es más difícil de captar;
Los datos que contienen valores nulos pueden confundir el proceso de minería y conducir a resultados no confiables.
El algoritmo de minería de datos en sí está más comprometido a evitar que los datos se ajusten demasiado al modelo establecido, lo que dificulta el manejo adecuado de datos incompletos a través de su propio algoritmo. Por lo tanto, los valores predeterminados deben derivarse y completarse mediante métodos especiales para cerrar la brecha entre los algoritmos de minería de datos y las aplicaciones prácticas.
Análisis y comparación de métodos de procesamiento de valores faltantes
Existen tres métodos principales para procesar conjuntos de datos incompletos: eliminar tuplas, completar datos y no procesar.
Eliminar tuplas
significa eliminar objetos (tuplas, registros) a los que les faltan valores de atributos de información, obteniendo así una tabla de información completa.
Este método es simple y factible, y es muy efectivo cuando hay muchos valores faltantes en el objeto y el objeto del que se eliminan los valores faltantes es muy pequeño en comparación con los datos del conjunto de datos inicial. Este método se utiliza normalmente cuando falta una etiqueta de clase.
Sin embargo, este método tiene importantes limitaciones. Reduce los datos históricos a cambio de la integridad de la información y descarta la gran cantidad de información oculta dentro de estos objetos. Cuando el conjunto de datos inicial contiene pocos objetos, eliminar algunos objetos afectará gravemente la objetividad de la información y la exactitud de los resultados. Por lo tanto, cuando la proporción de datos faltantes es grande, especialmente cuando los datos faltantes no están distribuidos aleatoriamente, este método puede generar sesgos en los datos y llevar a conclusiones incorrectas.
Nota: La eliminación de tuplas o la eliminación directa de atributos de columna a veces provoca una degradación del rendimiento.
Completación de datos
Este método llena los valores vacíos con un valor para completar la tabla de información. Normalmente, según principios estadísticos, los valores faltantes se completan en función de la distribución de valores de otros objetos en el conjunto de datos inicial. Los siguientes son métodos comúnmente utilizados en la minería de datos:
Relleno manual.
Debido a que el usuario conoce mejor los datos, este método produce los datos menos sesgados y es probablemente el mejor. Pero en términos generales, este método lleva mucho tiempo y no es factible cuando el tamaño de los datos es grande y hay muchos valores nulos.
Trate los valores de atributos faltantes como valores especiales.
Un valor nulo se trata como un valor de atributo especial, diferente de cualquier otro valor de atributo. Por ejemplo, todos los valores vacíos se rellenan con "desconocido". Esto crea otro concepto interesante que puede provocar un sesgo grave en los datos y, en general, no se recomienda.
Completador de promedio/modo
Divide los atributos del conjunto de datos inicial en atributos numéricos y atributos no numéricos, y los procesa por separado.
Si el valor nulo es un valor numérico, el valor del atributo faltante se completa en función del valor promedio del atributo en todos los demás objetos.
Si el valor nulo no es numérico; , entonces el valor de atributo faltante Los valores de atributo se completarán con el valor que ocurre con más frecuencia para ese atributo entre todos los demás objetos (es decir, el valor con la frecuencia más alta) de acuerdo con el principio de modo en estadística. Otro método similar se llama completador de sentido condicional. En este enfoque, el promedio no se toma de todos los objetos del conjunto de datos, sino de los objetos que tienen el mismo valor de atributo de decisión que el objeto.
El punto de partida básico de estos dos métodos de finalización de datos es el mismo y ambos utilizan el valor máximo posible para complementar los valores de atributos faltantes, pero difieren en métodos específicos. En comparación con otros métodos, utiliza la mayor parte de la información de los datos existentes para inferir los valores faltantes.
Relleno de cubierta en caliente (relleno de cubierta en caliente).
Para objetos con valores nulos, el método de llenado de tarjeta activa es encontrar un objeto que sea más similar a él en los datos completos y luego completarlo con el valor de este objeto similar. Diferentes preguntas pueden elegir diferentes criterios para juzgar la similitud. Este método es de concepto simple y utiliza la relación entre datos para estimar valores nulos. La desventaja de este método es que es difícil definir estándares similares y existen muchos factores subjetivos.
método de agrupamiento de k-medias
Primero, basándose en el análisis de correlación o distancia euclidiana, se determinan las k muestras más cercanas con datos faltantes y los valores k se ponderan y promedian. Estima los datos faltantes para esta muestra.
Asignar todos los valores posibles para el atributo.
Rellenar con todos los valores de atributo posibles del valor de atributo vacante puede obtener un mejor efecto de relleno. Sin embargo, cuando la cantidad de datos es grande o faltan muchos valores de atributos, el costo computacional es alto y hay muchas soluciones de prueba posibles.
Completador combinado (completado combinado)
Pruebe todos los valores de atributo posibles del valor de atributo vacante y seleccione el mejor del resultado final de reducción de atributo como atributo de relleno valor. Este es un método de finalización de datos con fines de reducción, que puede obtener buenos resultados de reducción; sin embargo, cuando la cantidad de datos es grande o faltan muchos valores de atributos, el costo computacional es muy alto;
Regresión (Regression)
Establece una ecuación de regresión basada en un conjunto de datos completo. Para objetos con valores nulos, sustituya los valores de atributos conocidos en la ecuación para estimar los valores de atributos desconocidos y rellénelos con los valores estimados. Cuando las variables no están relacionadas linealmente, puede dar lugar a estimaciones sesgadas.
Maximización de expectativas
El algoritmo EM es un algoritmo iterativo que calcula la estimación de máxima verosimilitud o distribución posterior con datos incompletos. En cada ciclo de iteración, se ejecutan alternativamente dos pasos: el paso de Excepción, dados los datos completos y la estimación del parámetro obtenido en la iteración anterior, calcular la expectativa condicional de la función de probabilidad logarítmica correspondiente a los datos completos (maximización; paso), utiliza la función de máxima probabilidad logarítmica para determinar los valores de los parámetros y utilizarlos en la siguiente iteración. El algoritmo itera entre el paso e y el paso m hasta que converge, es decir, el cambio de parámetro entre dos iteraciones es menor que un umbral determinado. Este método puede caer en extremos locales, la velocidad de convergencia no es muy rápida y el cálculo es muy complicado.
Imputación múltiple
El método de imputación múltiple se divide en tres pasos:
Generar un conjunto de posibles valores de imputación para cada valor nulo, que refleja la ausencia de incertidumbre en el modelo de respuesta; cada valor se utiliza para completar los valores faltantes en el conjunto de datos, produciendo varios conjuntos de datos completos.
Cada conjunto de datos imputado se analiza estadísticamente utilizando los mismos métodos estadísticos que el conjunto de datos completo.
La inferencia estadística final se genera sintetizando los resultados de cada conjunto de datos, teniendo en cuenta la incertidumbre introducida por el relleno de datos. Este método trata los valores de la brecha como muestras aleatorias, por lo que las inferencias estadísticas calculadas pueden verse afectadas por la incertidumbre en los valores de la brecha. Los cálculos de este método también son complejos.
Método C4.5
Rellena los valores faltantes encontrando relaciones entre atributos. Busca dos atributos con la mayor correlación, uno de los cuales no tiene valores faltantes se llama atributo proxy y el otro se llama atributo original. Los valores faltantes en el atributo original están determinados por el atributo proxy. Este enfoque inductivo basado en reglas sólo puede manejar propiedades nominales con cardinalidad pequeña.
En lo que respecta a varios métodos basados en estadísticas, el método de eliminación de tuplas y el método promedio no son tan buenos como el método de llenado de tarjetas activas, el método de maximización de expectativas y el método de llenado múltiple; un método mejor, pero aún no tan bueno como Thermocard y carecen del componente incierto contenido en MI. Vale la pena señalar que estos métodos tratan directamente de la estimación de los parámetros del modelo en lugar de la predicción del valor de la brecha en sí. Son adecuados para manejar problemas de aprendizaje no supervisado, pero para el aprendizaje supervisado la situación es diferente. Por ejemplo, puede eliminar objetos con valores nulos y utilizar el conjunto de datos completo para el entrenamiento, pero no puede ignorar los objetos con valores nulos al realizar predicciones. Además, C4.5 y todos los métodos de llenado de valor posible también tienen buenos efectos de llenado. Generalmente no se recomienda el llenado manual ni el llenado de valor especial.
Sin procesamiento
El procesamiento complementario solo utiliza nuestros valores estimados subjetivos para complementar los valores desconocidos, que pueden no ser completamente consistentes con los hechos objetivos. Si bien completamos información incompleta, hemos cambiado más o menos el sistema de información original. Además, el llenado incorrecto de valores nulos a menudo introduce nuevo ruido en los datos, lo que hace que las tareas de minería produzcan resultados erróneos. Por lo tanto, muchas veces todavía esperamos procesar el sistema de información manteniendo la información original sin cambios.
Los métodos que no tratan con valores faltantes y extraen directamente datos que contienen valores nulos incluyen redes bayesianas y redes neuronales artificiales.
Las redes bayesianas proporcionan una forma natural de expresar información causal entre variables y se utilizan para descubrir relaciones potenciales entre datos. En esta red, los nodos representan variables y los bordes dirigidos representan dependencias entre variables. Las redes bayesianas solo son adecuadas cuando se tiene una cierta comprensión del conocimiento del dominio, al menos cuando existen dependencias claras entre las variables. De lo contrario, aprender la estructura de la red bayesiana directamente a partir de los datos no sólo es complejo (aumenta exponencialmente a medida que aumentan las variables), sino que también es costoso mantener la red, con más parámetros estimados, lo que trae mayor varianza al sistema y afecta su rendimiento. Precisión de la predicción.
Las redes neuronales artificiales pueden manejar eficazmente los valores faltantes, pero la investigación sobre redes neuronales artificiales en esta área aún necesita más desarrollo.
Acerca del plan de Zhihu:
4. Asigne variables al espacio de alta dimensión. Por ejemplo, el género, masculino, femenino, faltante, se asigna a tres variables: masculino, femenino, faltante. Las variables continuas también se pueden tratar de esta manera. Por ejemplo, los modelos de predicción CTR de Google y Baidu tratarán todas las variables de esta manera durante el preprocesamiento, alcanzando cientos de millones de dimensiones. La ventaja de esto es que toda la información de los datos originales se conserva por completo y no es necesario considerar valores faltantes ni inseparabilidad lineal. La desventaja es que la cantidad de cálculo aumenta considerablemente.
Y el efecto solo es bueno cuando el tamaño de la muestra es grande; de lo contrario, el efecto será deficiente si es demasiado escasa.
Resumen
En la etapa de preprocesamiento de datos antes de la extracción de datos, la mayoría de los sistemas de minería de datos utilizan el primer y segundo método para tratar los datos vacantes. No existe una única forma de manejar valores nulos que funcione para todos los problemas. No importa qué método de llenado se utilice, no se puede evitar el impacto de los factores subjetivos en el sistema original y no es factible completar el sistema cuando hay demasiados valores nulos. En teoría, el bayesiano tiene todo en cuenta, pero el análisis completamente bayesiano sólo es factible si el conjunto de datos es pequeño o cumple ciertas condiciones (como la distribución normal multivariada). En la actualidad, la aplicación de las redes neuronales artificiales en la minería de datos es todavía limitada. Vale la pena mencionar que se ha estudiado ampliamente la explotación de información inexacta para abordar los datos incompletos. Los métodos de expresión de datos incompletos se basan principalmente en la teoría de la credibilidad, la teoría de la probabilidad, la teoría de conjuntos difusos, la teoría de la posibilidad, la teoría de la evidencia D-S, etc.