Red de Respuestas Legales - Asesoría legal - Los diez algoritmos clásicos principales de minería de datos finalmente se explican claramente. Si deseas mejorar los tuyos, date prisa y recopilelos.

Los diez algoritmos clásicos principales de minería de datos finalmente se explican claramente. Si deseas mejorar los tuyos, date prisa y recopilelos.

Un excelente analista de datos, además de dominar las estadísticas básicas, el pensamiento de análisis de datos y las herramientas de análisis de datos, también necesita dominar las ideas básicas de minería de datos para ayudarnos a extraer datos valiosos. Esta es también la diferencia entre los datos. expertos en análisis y analistas de datos generales.

La Conferencia Internacional IEEE sobre Minería de Datos (ICDM), una organización académica internacional autorizada, seleccionó los diez mejores algoritmos clásicos en el campo de la minería de datos: C4.5, k-Means, SVM, Apriori, EM , PageRank, AdaBoost, kNN, Naive Bayes y CART.

No solo se seleccionaron los diez algoritmos principales, sino también los 18 algoritmos que participaron en la selección. De hecho, se puede llamar a cualquiera de ellos. Un algoritmo clásico, han tenido un profundo impacto en el campo de la minería de datos. Hoy compartiré principalmente 10 de los algoritmos clásicos. El contenido es relativamente seco. Se recomienda guardarlos para estudiarlos más adelante.

1. C4.5

El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación entre los algoritmos de aprendizaje automático. Su algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda ID3. Las ventajas del algoritmo y el algoritmo ID3 se han mejorado en los siguientes aspectos:

1) El uso de la tasa de ganancia de información para seleccionar atributos supera la desventaja de usar la ganancia de información para seleccionar atributos con más valores;

2) Poda durante el proceso de construcción del árbol;

3) Capaz de completar la discretización de atributos continuos

4) Capaz de completar el procesamiento de datos.

El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. Su desventaja es: en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse secuencialmente varias veces, lo que conduce a la ineficiencia del algoritmo (el algoritmo CART relativo solo necesita escanear el conjunto de datos dos veces. Los siguientes son sólo las ventajas y desventajas del árbol de decisión).

2. El algoritmo k-means es el algoritmo K-Means

El algoritmo k-means es un algoritmo de agrupamiento que divide n objetos en k segmentos según sus atributos, k. < n. Es similar al algoritmo de maximización de expectativas que trata con distribuciones normales mixtas en el sentido de que ambos intentan encontrar los centros de grupos naturales en los datos. Se supone que los atributos del objeto provienen de vectores espaciales y el objetivo es minimizar la suma de los errores cuadráticos medios dentro de cada grupo.

3. Máquinas de vectores de soporte

Máquina de vectores de soporte, en inglés es Support Vector Machine, denominada máquina SV (generalmente denominada SVM en el documento). Es un método de aprendizaje supervisado que se utiliza ampliamente en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de dimensiones superiores, donde se establece un hiperplano de margen máximo en este espacio. Se construyen dos hiperplanos paralelos a ambos lados del hiperplano que separa los datos. El hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Se supone que cuanto mayor sea la distancia o espacio entre hiperplanos paralelos, menor será el error general del clasificador. Una guía excelente es la Guía de C.J.C Burges sobre máquinas de vectores de soporte para el reconocimiento de patrones. van der Walt y Barnard compararon las máquinas de vectores de soporte con otros clasificadores.

4. El algoritmo Apriori

El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea del conjunto de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de elementos frecuentes.

5. Algoritmo de expectativa máxima (EM)

En computación estadística, el algoritmo de expectativa máxima (EM, Expectation-Maximization) consiste en encontrar la máxima probabilidad de parámetros en un modelo probabilístico. Algoritmos de estimación en los que los modelos probabilísticos se basan en variables latentes no observables (Latent Variables). La expectativa máxima se utiliza a menudo en los campos de la agrupación de datos en el aprendizaje automático y la visión por computadora.

6. PageRank

El PageRank es una parte importante del algoritmo de Google. Se le concedió una patente estadounidense en septiembre de 2001 y el titular de la patente es Larry Page, uno de los fundadores de Google. Por lo tanto, la página en PageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.

El PageRank mide el valor de un sitio web en función de la cantidad y calidad de sus enlaces externos y enlaces internos.

El concepto detrás de PageRank es que cada enlace a una página es un voto para esa página, y cuantos más enlaces tenga, más votos tendrá de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo. El concepto de PageRank se deriva de la frecuencia de citas de un artículo en los círculos académicos, es decir, cuantas más veces sea citado por otros, mayor será la autoridad del artículo.

7. AdaBoost

Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego usar estos clasificadores débiles para juntos. forman un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí se implementa cambiando la distribución de datos. Determina el peso de cada muestra en función de si la clasificación de cada muestra en cada conjunto de entrenamiento es correcta y la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía al clasificador inferior para su entrenamiento y, finalmente, los clasificadores obtenidos de cada entrenamiento finalmente se fusionan como el clasificador de decisión final.

8. kNN: clasificación de k-vecino más cercano

El algoritmo de clasificación K-vecino más cercano (KNN) es un método teóricamente maduro y el más simple de los algoritmos de aprendizaje automático. La idea de este método es: si una muestra pertenece a una determinada categoría entre las k muestras más similares (es decir, el vecino más cercano en el espacio de características) en el espacio de características, entonces la muestra también pertenece a esta categoría.

9. Naive Bayes

Entre los muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión y el modelo Naive Bayes (NBC). El modelo Naive Bayes se originó a partir de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable.

Al mismo tiempo, el modelo NBC requiere pocos parámetros estimados, no es muy sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero, de hecho, este no es siempre el caso, porque el modelo NBC supone que los atributos son independientes entre sí. Esta suposición a menudo no es cierta en aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es relativamente grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. Cuando la correlación de atributos es pequeña, el rendimiento del modelo NBC es el mejor.

10. CART: Árboles de Clasificación y Regresión

CART, Árboles de Clasificación y Regresión. Hay dos ideas clave detrás del árbol de clasificación. La primera es la idea de dividir recursivamente el espacio de la variable independiente (método de división binaria) y la segunda idea es utilizar datos de verificación para la poda (prepoda, pospoda). La dificultad de construir un árbol modelo basado en un árbol de regresión puede aumentar, pero al mismo tiempo también mejora su efecto de clasificación.

Libro de referencia: "Aprendizaje automático en la práctica"