Red de Respuestas Legales - Asesoría legal - ¿Cuál es la relación entre la tecnología de minería de datos y la modernización hidrológica?

¿Cuál es la relación entre la tecnología de minería de datos y la modernización hidrológica?

Con el rápido desarrollo de la tecnología de bases de datos y la aplicación generalizada de sistemas de gestión de bases de datos, las personas han acumulado cada vez más datos. Hay mucha información importante escondida detrás de la explosión de datos, y la gente espera realizar análisis de alto nivel sobre ella para hacer un mejor uso de estos datos. El sistema de base de datos actual puede implementar eficientemente la entrada de datos, consultas, estadísticas y otras funciones, pero no puede descubrir las relaciones y reglas existentes en los datos, y no puede predecir tendencias de desarrollo futuras basadas en los datos existentes.

Utilizar bases de datos para almacenar datos, utilizar métodos de aprendizaje automático para analizar datos y extraer el conocimiento detrás de grandes cantidades de datos. La combinación de ambos ha llevado al surgimiento de la minería de datos. La minería de datos es un tema interdisciplinario que involucra muchos campos como la inteligencia artificial, el aprendizaje automático, la estadística matemática, las redes neuronales, las bases de datos, el reconocimiento de patrones, los conjuntos aproximados, las matemáticas difusas, etc. La tecnología de minería de datos incluye tres partes principales: algoritmo y tecnología, datos y capacidades de modelado.

La evolución de la minería de datos

La minería de datos es en realidad un proceso de evolución gradual. En los primeros días del procesamiento electrónico de datos, la gente intentaba lograr soporte automático para tomar decisiones a través de ciertos métodos. En ese momento, el aprendizaje automático se convirtió en el centro de atención de la gente. Más tarde, con la formación y el desarrollo de la tecnología de redes neuronales, la atención de la gente se centró en la ingeniería del conocimiento, y los sistemas expertos son el resultado de este método.

En la década de 1980, bajo la guía de la nueva teoría de redes neuronales, la gente volvió a los métodos de aprendizaje automático y aplicó sus resultados al procesamiento de grandes bases de datos comerciales, y surgió un nuevo término: KDD (descubrimiento de conocimiento en bases de datos). , generalmente se refiere al método de descubrir patrones o conexiones a partir de datos fuente). La gente usa KDD para describir todo el proceso de minería de datos, incluido el establecimiento inicial de los objetivos comerciales hasta el análisis del resultado final, mientras que la minería de datos (DM) se usa para describir el subproceso de minería de datos utilizando algoritmos de minería. DM se centra en la perspectiva de la base de datos y KDD se centra en la perspectiva de la inteligencia artificial [1].

La tecnología del módulo central de la minería de datos ha experimentado décadas de desarrollo, incluidas estadísticas matemáticas, inteligencia artificial y aprendizaje automático. La tecnología de minería de datos ha entrado en una etapa práctica en el entorno actual de almacenamiento de datos.

La definición de minería de datos

La definición de minería de datos es "descubrir información implícita, previamente desconocida y potencialmente útil de la base de datos. Es una tecnología en tecnología de bases de datos y". aprendizaje automático, inteligencia artificial, análisis estadístico, lógica difusa, redes neuronales artificiales y sistemas expertos. Se refiere al proceso de extracción de datos de aplicaciones prácticas derivados de una gran cantidad de datos incompletos, ruidosos, difusos y potenciales. e información y conocimientos útiles. Una afirmación más amplia es [2]: La minería de datos significa el proceso de apoyo a la decisión de encontrar patrones en una colección de hechos o datos de observación.

La diferencia esencial entre la minería de datos y el análisis tradicional (como consultas, informes y análisis de aplicaciones en línea) es que la minería de datos consiste en extraer información y descubrir conocimientos sin suposiciones claras. La información obtenida mediante minería de datos debe tener tres características: desconocida, válida y práctica. Información previamente desconocida significa que la información no se esperaba de antemano, es decir, la minería de datos consiste en descubrir información o conocimiento que no se puede descubrir intuitivamente, o incluso información o conocimiento que es contrario a la intuición. Cuanto más inesperada es la información descubierta, más inesperada es. es. Más valioso puede ser.

Introducción al sistema de análisis Markway

El sistema de análisis Markway es el primer conjunto de derechos de propiedad intelectual completamente independientes de China, que integra análisis estadístico, extracción de datos y minería de redes en un solo sistema de análisis de datos. Se puede integrar con los sistemas de gestión de información (MIS) existentes para ahorrar costos en proyectos de minería de datos y al mismo tiempo proteger los equipos existentes. El sistema consta de seis módulos funcionales: entrada de datos, procesamiento de datos, análisis estadístico, extracción de datos, gráficos estadísticos e informes electrónicos. Las características de cada módulo son:

(1) Métodos de entrada de datos flexibles y modificables. Los métodos de entrada incluyen entrada directa desde la interfaz, apertura directa de archivos de datos, uso de asistentes de datos para importar datos de la base de datos a la plataforma de análisis, etc., y lograr conexiones perfectas con todas las bases de datos convencionales, como Oracle, DB2, Sybase, SQLServer, MySQL, Informix, Access, etc.

(2) Funciones de procesamiento de datos enriquecidas.

Incluyendo fusión de datos, división de datos, inserción o eliminación de registros, procesamiento de registros, configuración de peso, consulta multidimensional, resumen de clasificación, muestreo de datos, cálculo de variables, llenado de valores faltantes, eliminación de valores atípicos, clasificación de registros, conversión de tipos de variables, conversión de filas y columnas. , generación de números aleatorios, etc.

(3) El análisis estadístico es uno de los módulos principales del sistema, con estadísticas básicas y estadísticas avanzadas disponibles. Las estadísticas básicas incluyen análisis de medias, tablas cruzadas, análisis de frecuencia, análisis descriptivo, análisis de varianza unidireccional, prueba T paramétrica, prueba T de muestra única, prueba T de muestra independiente, prueba T de muestras pareadas, análisis de correlación, pruebas no paramétricas, etc.; las estadísticas avanzadas incluyen análisis de regresión, análisis de conglomerados, análisis discriminante, análisis factorial, análisis de series temporales, análisis de varianza multifactorial, etc.

(4) El módulo de minería de datos proporciona un método de minería relativamente completo en el mercado. Incluyendo redes neuronales, árboles de decisión, reglas de asociación, agrupamiento difuso, conjuntos aproximados, máquinas de vectores de soporte, análisis de puntos aislados, etc.

(5) La visualización de información de datos es la tendencia de desarrollo de las aplicaciones de información. Los módulos de gráficos estadísticos incluyen gráficos de líneas, gráficos de barras, histogramas, gráficos circulares, gráficos de áreas, gráficos de disposición, gráficos de error, gráficos de secuencia, gráficos de dispersión, gráficos de autocorrelación, gráficos de correlación cruzada, gráficos de control, etc.

(6) El módulo de informes estadísticos está dirigido principalmente a usuarios chinos. Establece los informes principales y de uso común en formatos de acuerdo con el modelo convencional de la Oficina Nacional de Estadísticas y genera automáticamente tablas para los usuarios, incluidas plantillas integradas del sistema y módulos de usuario definidos por el usuario.

Modernización hidrológica y minería de datos

En respuesta a los problemas relacionados con el agua, como inundaciones, escasez de recursos hídricos, deterioro del medio ambiente hídrico y erosión del suelo en mi país, el Ministerio del Agua Resources ha propuesto una transformación de la conservación tradicional del agua a La transformación de la conservación moderna del agua y el desarrollo sostenible de la conservación del agua, una nueva idea de gestión del agua que apoya el desarrollo económico y social sostenible con el uso sostenible de los recursos hídricos y plantea requisitos básicos para el agua. modernización de la conservación [5].

Modernización hidrológica

La modernización hidrológica es la base de la informatización de la conservación del agua. El sistema hidrológico digital utiliza tecnología de bases de datos para establecer un sistema completo de procesamiento y almacenamiento de información utiliza bases de datos masivas y tecnología de minería de datos para establecer un sistema de extracción y análisis de información utiliza sistemas de información geográfica y otras herramientas para establecer meteorología, hidrología, topografía, vegetación, humedad del suelo, humana Un sistema digital distribuido espacialmente para información como medidas de impacto de actividades que utilizan modelos de pronóstico numérico de mesoescala y modelos hidrológicos distribuidos para establecer un sistema digital de pronóstico de distribución espacial y temporal basado en tecnologías como redes, sistemas de información geográfica y bases de datos; establecer un sistema para la toma de decisiones y aplicaciones profesionales de control de inundaciones, gobierno electrónico y otros sistemas de aplicaciones y servicios de información que brinden apoyo a las decisiones. Su núcleo radica en cómo formar productos de datos digitales que cubran todo el espacio regional designado, tengan múltiples escalas espaciales y temporales y múltiples elementos, y sean útiles para el análisis hidrológico.

Para la modernización hidrológica, a fin de formar capacidades de servicios de información que sean compatibles con la informatización de la conservación del agua, debemos construir vigorosamente una base de datos de información hidrológica y convertirla en una parte importante de los recursos de información sobre la conservación del agua, incluidos dos significados: 1. El primero es enriquecer el contenido de la base de datos; el segundo es integrar varios recursos de información dentro del departamento hidrológico para formar recursos de información hidrológica con un cierto grado de agregación y objetivos de servicio. Es difícil que los datos hidrológicos dispersos en departamentos individuales formen un recurso que pueda explotarse.

Implementación de minería de datos

Los pasos generales para implementar la minería de datos son: plantear y comprender preguntas → preparación de datos → clasificación de datos → construcción de modelos → evaluación e interpretación [2].

La implementación de la minería de datos debe considerarse desde los siguientes tres aspectos: primero, qué tipo de problemas de la industria se resuelven con la minería de datos; segundo, preparación de datos para la minería de datos; tercero, varios análisis del algoritmo de minería de datos; .

Los algoritmos de análisis de la minería de datos provienen principalmente de dos vertientes: el análisis estadístico y la inteligencia artificial (machine learning, reconocimiento de patrones, etc.). El principal trabajo realizado por los investigadores de minería de datos y los proveedores de software de minería de datos en esta área es optimizar algunos algoritmos existentes para adaptarse a los requisitos de grandes volúmenes de datos [4].

Si la minería de datos tiene éxito al final y si tiene beneficios económicos, la preparación de los datos es crucial. La preparación de datos incluye principalmente dos aspectos: primero, sintetizar los datos necesarios para la extracción de datos de múltiples fuentes de datos para garantizar la exhaustividad, la facilidad de uso, la calidad y la puntualidad de los datos. Esto puede requerir el uso de ideas y tecnología de almacenamiento de datos; Por otro lado, cómo derivar los indicadores requeridos a partir de los datos existentes, lo que depende principalmente de la experiencia de análisis del minero de datos y de la conveniencia de las herramientas.

3.3 Problemas en la minería de datos

(1) El problema básico de la minería de datos radica en la cantidad y dimensionalidad de los datos. Por lo tanto, la estructura de los datos se vuelve muy compleja. ? es el primer problema a resolver.

(2) Ante la gran cantidad de datos acumulados, los métodos estadísticos existentes han encontrado problemas y la idea inmediata de la gente es muestrear los datos. Cómo tomar muestras, qué tan grande es la muestra y cómo evaluar el efecto del muestreo son cuestiones que deben estudiarse.

(3) Dado que los datos son masivos, una cierta tendencia de cambio estará oculta en los datos, y se debe realizar la debida consideración y evaluación de esta tendencia durante la extracción de datos.

(4) Cómo aplicar varios modelos y cómo evaluar sus efectos. Diferentes personas que extraen los mismos datos pueden producir resultados muy diferentes, lo que plantea problemas de confiabilidad.

(5) La minería de datos implica datos, lo que también implica cuestiones de seguridad de los datos.

(6) Los resultados de la minería de datos son inciertos y deben combinarse con conocimientos profesionales para emitir juicios [1].

Extracción de datos hidrológicos

El sistema integral de bases de datos hidrológicos y la plataforma de servicios (centro de datos hidrológicos) es la garantía básica para proporcionar a los usuarios información hidrológica eficiente y de alta calidad y servicios compartidos utilizando sistemas modernos. medios técnicos [5]. El rápido desarrollo de la tecnología de adquisición y análisis de información, especialmente la aplicación de telemetría, teledetección, redes, bases de datos y otras tecnologías, ha promovido eficazmente el desarrollo de la tecnología de recopilación y procesamiento de datos hidrológicos, haciéndola más eficiente en términos de escalas de tiempo y espacio. y tipos de elementos. Debido al papel especial del agua en la supervivencia y el desarrollo humanos, la aplicación de diversas tecnologías nuevas para obtener datos hidrológicos y la extracción del conocimiento contenido en los datos hidrológicos se ha convertido en un nuevo punto caliente en el desarrollo de la ciencia hidrológica.

La minería de datos hidrológicos puede aplicar teorías y tecnologías como árboles de decisión, redes neuronales, que cubren ejemplos positivos y excluyen ejemplos negativos, árboles de conceptos, algoritmos genéticos, descubrimiento de fórmulas, análisis estadístico, teoría difusa, etc., y con el apoyo de la tecnología de visualización, construir sistemas de aplicación de minería de datos hidrológicos que cumplan diferentes propósitos.

Según las estadísticas, la cantidad acumulada de datos hidrológicos compilados en mi país ha superado los 7 GB. Además de los datos meteorológicos, geográficos y de otro tipo necesarios para la previsión hidrológica, la cantidad de datos necesarios para el análisis hidrológico es. muy grande. El uso de herramientas y métodos técnicos tradicionales para extraer el conocimiento requerido de manera oportuna y precisa a partir de estas enormes cantidades y tipos complejos de datos será inevitablemente ineficaz debido a la insuficiencia de potencia informática, capacidad de almacenamiento y algoritmos. Por lo tanto, una tecnología de extracción de datos hidrológicos eficiente es insuficiente. necesario. .

El data warehouse puede integrar los datos de todo el departamento, independientemente de su ubicación geográfica, formato y requisitos de comunicación, para que los usuarios finales puedan acceder a ellos y analizarlos desde una perspectiva histórica, y finalmente tomar decisiones estratégicas. . La tecnología de minería de datos puede descubrir relaciones, patrones y tendencias potenciales, valiosos y desconocidos a partir de grandes cantidades de datos, y expresarlos de una manera fácilmente comprensible [3].

Es necesario enfatizar que para hacer realmente un buen trabajo en la minería de datos, las herramientas de minería de datos son solo un aspecto. El éxito de la minería de datos requiere una comprensión profunda del campo donde se encuentra el problema. Se espera que se resuelva (como el campo de la hidrología). Comprender los atributos de los datos de los elementos en este campo y el proceso de su recopilación. También es necesario tener suficiente experiencia en análisis de datos en el negocio en este campo.

Para obtener más información sobre la redacción y producción de documentos de licitación de ingeniería/servicio/compra para mejorar la tasa de adjudicación de ofertas, puede hacer clic en el sitio web oficial de servicio al cliente en la parte inferior para realizar una consulta gratuita: /#/?source= bdzd