¿Cómo limpiar datos en el análisis de datos?
Primero déjame explicarte qué son los valores duplicados. Los llamados valores repetidos, como su nombre indica, son datos repetidos. Hay dos tipos de datos duplicados. El primero son varios registros de datos con el mismo valor de datos. La otra es que el cuerpo de los datos es el mismo, pero el valor del atributo único coincidente es diferente. Una de estas dos situaciones son los datos duplicados. Entonces, ¿cómo eliminar datos duplicados? En términos generales, sólo hay dos formas de tratar los datos duplicados: la solución en el primer caso es eliminar la duplicación;
En segundo lugar, déjame decirte qué es un valor atípico. Un valor atípico aquí se refiere a un valor de medición en el que la desviación promedio de un conjunto de valores de prueba excede el doble de la desviación estándar. Las mediciones que se desvían más de tres desviaciones estándar de la media se denominan valores muy atípicos. Generalmente no tratamos con valores atípicos. Por supuesto, esta premisa es que el algoritmo no es lo suficientemente sensible a los valores atípicos. ¿Cómo manejar si el algoritmo es sensible a valores atípicos? Entonces debemos usar el valor promedio o tratarlo como un valor atípico, para reducir la aparición de valores de datos anormales.
Los valores faltantes también son objetos que deben limpiarse en el análisis de datos. Los llamados valores perdidos son la agrupación de datos debido a la información faltante, y los valores perdidos se denominan valores perdidos. Uno o parte de los datos del valor faltante están incompletos, lo que tiene un cierto impacto en el análisis de los datos. Por lo tanto, necesitamos limpiar los valores faltantes. Entonces, ¿cómo limpiar los valores faltantes? Podemos eliminar directamente los valores faltantes en muestras grandes, pero no podemos eliminar directamente los valores faltantes en muestras pequeñas, porque las muestras pequeñas pueden afectar los resultados del análisis final. Para muestras pequeñas, solo podemos limpiar mediante imputación.
Los datos que deben aclararse en el análisis de datos son los valores repetidos, los valores atípicos y los valores faltantes introducidos en este artículo. Al limpiar datos, asegúrese de prestar atención a estos datos inútiles. Sólo así se podrá realizar bien el análisis de datos. Finalmente, un recordatorio: debe guardar sus datos originales antes de limpiarlos para que podamos hacer una copia de seguridad de los datos. Recuerda, recuerda.