Red de Respuestas Legales - Asesoría legal - ¿Cómo limpiar datos en el análisis de datos?

¿Cómo limpiar datos en el análisis de datos?

En el análisis de datos, nos centramos en los datos, pero no todos los datos son lo que necesitamos analizar, lo que requiere que los limpiemos. Al limpiar los datos, podemos garantizar buenos resultados del análisis de datos, por lo que los datos limpios pueden mejorar la eficiencia del análisis de datos. Por tanto, la limpieza de datos es una tarea muy importante. Al limpiar los datos, se puede unificar el formato de los datos, lo que reduce muchos problemas en el análisis de datos y mejora el nivel de análisis de datos. Pero, ¿qué datos es necesario limpiar? En términos generales, los objetos de limpieza de datos son valores faltantes, valores duplicados, valores atípicos, etc.

Primero déjame explicarte qué son los valores duplicados. Los llamados valores repetidos, como su nombre indica, son datos repetidos. Hay dos tipos de datos duplicados. El primero son varios registros de datos con el mismo valor de datos. La otra es que el cuerpo de los datos es el mismo, pero el valor del atributo único coincidente es diferente. Una de estas dos situaciones son los datos duplicados. Entonces, ¿cómo eliminar datos duplicados? En términos generales, sólo hay dos formas de tratar los datos duplicados: la solución en el primer caso es eliminar la duplicación;

En segundo lugar, déjame decirte qué es un valor atípico. Un valor atípico aquí se refiere a un valor de medición en el que la desviación promedio de un conjunto de valores de prueba excede el doble de la desviación estándar. Las mediciones que se desvían más de tres desviaciones estándar de la media se denominan valores muy atípicos. Generalmente no tratamos con valores atípicos. Por supuesto, esta premisa es que el algoritmo no es lo suficientemente sensible a los valores atípicos. ¿Cómo manejar si el algoritmo es sensible a valores atípicos? Entonces debemos usar el valor promedio o tratarlo como un valor atípico, para reducir la aparición de valores de datos anormales.

Los valores faltantes también son objetos que deben limpiarse en el análisis de datos. Los llamados valores perdidos son la agrupación de datos debido a la información faltante, y los valores perdidos se denominan valores perdidos. Uno o parte de los datos del valor faltante están incompletos, lo que tiene un cierto impacto en el análisis de los datos. Por lo tanto, necesitamos limpiar los valores faltantes. Entonces, ¿cómo limpiar los valores faltantes? Podemos eliminar directamente los valores faltantes en muestras grandes, pero no podemos eliminar directamente los valores faltantes en muestras pequeñas, porque las muestras pequeñas pueden afectar los resultados del análisis final. Para muestras pequeñas, solo podemos limpiar mediante imputación.

Los datos que deben aclararse en el análisis de datos son los valores repetidos, los valores atípicos y los valores faltantes introducidos en este artículo. Al limpiar datos, asegúrese de prestar atención a estos datos inútiles. Sólo así se podrá realizar bien el análisis de datos. Finalmente, un recordatorio: debe guardar sus datos originales antes de limpiarlos para que podamos hacer una copia de seguridad de los datos. Recuerda, recuerda.

上篇: David Bowen Street, ¿qué fregona es fácil de usar? 下篇: ¿Quién está sujeto a las obligaciones de divulgación de información del gobierno de mi país? Con la mejora de la reforma institucional, la implementación de políticas nacionales relevantes es más popular que antes, lo que también es una fuerte prueba de la construcción del sistema de divulgación de información. Entonces, ¿sabes quién está sujeto a la obligación de divulgación de información? En términos generales, los principales temas de divulgación de información incluyen principalmente la divulgación de agencias administrativas, asuntos públicos y empresas públicas. 1. ¿Quién está sujeto a la obligación de divulgación de información? Según la normativa, tres tipos de instituciones tienen la obligación de revelar información gubernamental: Primero, las agencias administrativas. La divulgación de información gubernamental es responsabilidad de los organismos administrativos y el acceso a la información gubernamental es un derecho de los ciudadanos. El "Reglamento" estipula que los gobiernos populares en todos los niveles y sus departamentos afiliados deben establecer y mejorar el sistema de trabajo de divulgación de información gubernamental de sus propias agencias administrativas, y designar agencias como agencias de trabajo de divulgación de información gubernamental que sean responsables del trabajo diario del gobierno. divulgación de información de sus propios organismos administrativos. El segundo es una organización autorizada por leyes y reglamentos para gestionar los asuntos públicos. La Oficina Sismológica, la Oficina Meteorológica, la Comisión Reguladora Bancaria de China, la Comisión Reguladora de Valores de China, la Comisión Reguladora de Seguros de China y la Comisión Reguladora Estatal de Electricidad son instituciones públicas, pero tienen la función de gestionar los asuntos públicos de conformidad con la autorización de las leyes y autoridades administrativas pertinentes. regulaciones. La información que generan u obtienen en el desempeño de funciones de gestión pública también debe clasificarse como información gubernamental, y estas unidades también son objeto de divulgación de información gubernamental. El tercero son las empresas e instituciones públicas estrechamente relacionadas con los intereses de las masas. Muchas empresas e instituciones públicas que brindan servicios públicos, como educación, medicina y salud, planificación familiar, suministro de agua, suministro de energía, suministro de gas, calefacción, protección ambiental, transporte público y otras industrias, están estrechamente relacionadas con la producción y la vida de el pueblo y afectan directamente la estabilidad social y la evaluación popular del gobierno. Las operaciones de estas empresas e instituciones también deberían estar sujetas a supervisión pública. En segundo lugar, investigar el estado actual de las entidades gubernamentales de divulgación de información. El artículo 2 del "Reglamento" define la forma de información gubernamental y estipula las obligaciones de divulgación de información de los organismos administrativos; en cuanto a las organizaciones autorizadas por leyes y reglamentos para gestionar los asuntos públicos, se estipula en forma de estatutos en el artículo 36. En consecuencia, los organismos administrativos y las organizaciones autorizadas por leyes y reglamentos para gestionar los asuntos públicos son sujetos de divulgación de información gubernamental. Sin embargo, dado que las organizaciones autorizadas por las leyes y reglamentos se especifican en los anexos de los reglamentos con la expresión "reglamentos aplicables", y existen cuestiones especiales como "si es necesario extender las bases de autorización al alcance de los reglamentos" , debido a limitaciones de espacio, este artículo no analiza las organizaciones autorizadas. Los siguientes temas de divulgación de información gubernamental se refieren al ámbito de las agencias administrativas. dos. Contenido de divulgación de información gubernamental 1. Agencias administrativas Las agencias administrativas divulgan proactivamente información gubernamental que cumple con uno de los siguientes requisitos básicos: (1) involucra los intereses vitales de ciudadanos, personas jurídicas u otras organizaciones (2) requiere conocimiento o participación pública generalizada (3) refleja la estructura organizacional; , Funciones y procedimientos; (4) Otros asuntos que deben ser divulgados proactivamente por las leyes, reglamentos y disposiciones nacionales pertinentes. 2. Los gobiernos populares a nivel de condado o superior y sus departamentos, dentro del alcance de sus respectivas responsabilidades, determinarán el contenido específico de la información gubernamental que se divulgará de manera proactiva, centrándose en la divulgación de la siguiente información gubernamental: (1) Regulaciones administrativas , reglas y documentos normativos; (2) Planes nacionales de desarrollo económico y social, planes especiales, planes regionales y políticas relacionadas; (3) Información estadística de desarrollo económico y social nacional; (4) Presupuestos financieros e informes de cuentas finales; , bases y normas para los cargos administrativos; (5) 6) Catálogo, normas y estado de implementación de los proyectos de adquisiciones gubernamentales centralizadas (7) Materias, bases, condiciones, cantidades, procedimientos y plazos para las licencias administrativas, así como una lista de todos; materiales que deben presentarse al solicitar una licencia administrativa y su estado de procesamiento; (8) Mayor Aprobación e implementación de proyectos de construcción (9) Políticas, medidas e implementación en alivio de la pobreza, educación, atención médica, seguridad social y promoción del empleo; (10) Planes de contingencia, información de alerta temprana y respuesta a emergencias públicas (11) Protección ambiental, salud pública, seguridad de la producción, alimentos y medicamentos, supervisión e inspección de la calidad de los productos; (Artículo 10) 3. La información gubernamental divulgada principalmente por el gobierno popular municipal de distrito, el gobierno popular a nivel de condado y sus departamentos también incluirá el siguiente contenido (1) Asuntos importantes en la construcción y gestión urbana y rural (2) Bienestar social; empresas Construcción; (3) Expropiación o expropiación de tierras, demolición de viviendas, pago y uso de compensaciones y subsidios (4) Gestión, uso y distribución de ayuda de emergencia en casos de desastre, atención preferencial, ayuda y donaciones sociales;