Método de puntos en métodos de análisis de datos
①Método de red neuronal
Las redes neuronales tienen buena robustez, autoorganización y adaptabilidad, procesamiento paralelo y distribución. las ventajas del almacenamiento formal y la alta tolerancia a fallas, que es muy adecuado para resolver problemas de minería de datos y ha recibido cada vez más atención en los últimos años. Los modelos típicos de redes neuronales se dividen principalmente en tres categorías: modelos de redes neuronales de retroalimentación representados por perceptrones, modelos de retropropagación de bp y redes funcionales, utilizados para clasificación, predicción y reconocimiento de patrones, y modelos continuos de hopfield. utilizado para la memoria asociativa y el cálculo de optimización respectivamente; el método de mapeo autoorganizado de agrupamiento representado por el modelo art y el modelo koholon. La desventaja del método de red neuronal es que es una "caja negra" y a las personas les resulta difícil comprender el proceso de aprendizaje y toma de decisiones de la red.
⑵Algoritmo genético
El algoritmo genético es un algoritmo de búsqueda aleatoria basado en la selección natural biológica y el mecanismo genético. Es un método de optimización global biónico. Los algoritmos genéticos se utilizan en la minería de datos debido a su paralelismo implícito y su facilidad de combinación con otros modelos.
La aplicación de algoritmos genéticos también se refleja en la combinación con redes neuronales, conjuntos aproximados y otras tecnologías. Por ejemplo, el algoritmo genético se utiliza para optimizar la estructura de la red neuronal y eliminar conexiones redundantes y unidades de capa ocultas sin aumentar la tasa de error. El algoritmo genético y el algoritmo BP se combinan para entrenar la red neuronal y luego extraer las reglas de la misma; red. Sin embargo, el algoritmo genético es complejo y el problema de la convergencia prematura a mínimos locales no se ha resuelto.
③Método del árbol de decisión
El árbol de decisión es un algoritmo comúnmente utilizado en modelos predictivos. Descubre información valiosa y potencial al clasificar intencionalmente grandes cantidades de datos. Sus principales ventajas son una descripción sencilla y una clasificación rápida, lo que resulta especialmente adecuado para el procesamiento de datos a gran escala. El método de árbol de decisión más antiguo y más influyente es el famoso algoritmo id3 basado en la entropía de la información propuesto por Quinlan. El principal problema es: id3 es un algoritmo de aprendizaje no incremental; el árbol de decisión Id3 es un árbol de decisión univariado, que es difícil de expresar conceptos complejos. La relación entre personas del mismo sexo no se enfatiza lo suficiente; la inmunidad al ruido es pobre. Para resolver los problemas anteriores, han surgido muchos algoritmos mejorados, como el algoritmo de aprendizaje incremental de id4 diseñado por Schlimmer y Fisher. Zhong Ming, Chen Wenwei y otros propusieron un algoritmo factible.
⑷Método de conjuntos aproximados
La teoría de conjuntos aproximados es una herramienta matemática para estudiar conocimientos imprecisos e inciertos. El método del conjunto aproximado tiene varias ventajas: no requiere información adicional, simplifica el espacio de expresión de la información de entrada; el algoritmo es simple y fácil de operar; El objeto procesado por conjunto aproximado es una tabla de información similar a una tabla relacional bidimensional. En la actualidad, los sistemas maduros de gestión de bases de datos relacionales y los sistemas de gestión de almacenes de datos recientemente desarrollados han sentado una base sólida para la extracción de datos aproximados. Sin embargo, la base matemática de los conjuntos aproximados es la teoría de conjuntos y es difícil tratar directamente con atributos continuos. Sin embargo, los atributos continuos son omnipresentes en las tablas de información real. Por tanto, la discretización de atributos continuos es una dificultad que restringe la aplicación práctica de la teoría de conjuntos aproximados. En la actualidad, se han desarrollado internacionalmente algunas aplicaciones de herramientas basadas en conjuntos aproximados, como KDD-r desarrollado por la Universidad de Regina en Canadá; ler desarrollado por la Universidad de Kansas en los Estados Unidos.
5. Cubrir ejemplos positivos y rechazar contraejemplos
Utiliza la idea de cubrir todos los ejemplos positivos y rechazar todos los contraejemplos para encontrar reglas. Primero, se selecciona una semilla del conjunto de ejemplos positivos y se compara con el conjunto de ejemplos negativos uno por uno. Si es compatible con un selector que consta de valores de campo, se descartará; de lo contrario, se conservará. Según esta idea, si recorremos las semillas de todos los ejemplos positivos, obtendremos la regla para los ejemplos positivos (la fórmula conjuntiva de selectores). Los algoritmos típicos incluyen el método aq11 de Michalski, el método aq15 mejorado de Hong y su método ae5.
[6] Método de análisis estadístico
Hay dos tipos de relaciones entre elementos de campo de la base de datos: relaciones funcionales (pueden expresarse mediante fórmulas funcionales) y relaciones de correlación (no pueden expresarse mediante fórmulas funcionales). fórmulas, pero aún asociadas con la certeza). Se puede analizar mediante métodos estadísticos, es decir, la información de la base de datos se puede analizar utilizando principios estadísticos. Estadísticas de uso común (encontrar el máximo, mínimo, suma, promedio, etc. en una gran cantidad de datos), análisis de regresión (usando ecuaciones de regresión para expresar la relación cuantitativa entre variables), análisis de correlación (usando coeficientes de correlación para medir el grado de correlación entre variables), se puede realizar análisis de diferencias (utilizando los valores de estadísticas de muestra para determinar si existen diferencias entre los parámetros de la población), etc.
Método de conjuntos difusos de primer orden
Utiliza la teoría de conjuntos difusos para llevar a cabo evaluaciones difusas, toma de decisiones difusas, reconocimiento de patrones difusos y análisis de agrupamiento difuso en problemas prácticos. Cuanto mayor es la complejidad del sistema, mayor es la ambigüedad. La teoría general de conjuntos difusos utiliza grados de membresía para describir las interrelaciones de cosas difusas. Sobre la base de la teoría difusa tradicional y las estadísticas de probabilidad, Li Deyi y otros propusieron un modelo de conversión de incertidumbre cualitativa y cuantitativa-modelo de nube, y formaron la teoría de la nube.