Red de Respuestas Legales - Leyes y reglamentos - ¿Qué algoritmos de big data necesitas dominar?

¿Qué algoritmos de big data necesitas dominar?

No solo los diez algoritmos principales, sino también cualquiera de los 18 algoritmos que participan en la selección pueden considerarse algoritmos clásicos, que han tenido un profundo impacto en el campo de la minería de datos.

1.C4.5

El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación en algoritmos de aprendizaje automático, y su algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda las ventajas del algoritmo ID3 y mejora el algoritmo ID3 en los siguientes aspectos:

1) El uso de la tasa de ganancia de información para seleccionar atributos supera el problema de usar la ganancia de información para seleccionar atributos al seleccionar Desventajas de más atributos.

2) Poda durante el proceso de construcción del árbol;

3) Puede completar la discretización de atributos continuos

4) Puede manejar datos incompletos;

El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que resulta en una baja eficiencia del algoritmo.

2. El algoritmo k-medias es un algoritmo k-medias.

El algoritmo K-means es un algoritmo de agrupamiento que divide N objetos en K particiones según sus atributos, k 3.Supportvectormachines.

SupportVectorMachine (SVM) se llama máquina de vectores de soporte en inglés. Es un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de dimensiones superiores y establecen un hiperplano con el intervalo más grande en este espacio. Hay dos hiperplanos paralelos a cada lado del hiperplano que separa los datos. Un hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Se supone que cuanto mayor sea la distancia o espacio entre hiperplanos paralelos, menor será el error general del clasificador. Una buena guía es la Guía de máquinas de vectores de soporte de reconocimiento de patrones de C.J. CB Pulses. VanderWalt y Barnard compararon máquinas de vectores de soporte con otros clasificadores.

4. Algoritmo de prioridad

El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de frecuencia.

5. Algoritmo de expectativa máxima

En computación estadística, el algoritmo de expectativa máxima (EM) es un algoritmo para encontrar la estimación de máxima verosimilitud de los parámetros en un modelo de probabilidad, donde el modelo de probabilidad depende debido a una variable latente no observable. La expectativa máxima se utiliza a menudo en el campo de la agrupación de datos en el aprendizaje automático y la visión por computadora.

6.PageRank

PageRank es una parte importante del algoritmo de Google. En septiembre de 2001, Larry Page, uno de los fundadores de Google, le concedió una patente estadounidense. Por lo tanto, la página en pageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.

PageRank mide el valor de un sitio web en función de la cantidad y calidad de sus enlaces externos e internos. El concepto detrás de PageRank es que cada enlace a una página es un voto para esa página, y cuantos más enlaces obtenga, más votos obtendrá de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo. El concepto de PageRank proviene de la frecuencia de citación de un artículo en la comunidad académica; es decir, cuantas más veces es citado por otros, mayor es la autoridad que generalmente se juzga sobre el artículo.

Algoritmo 7.adaboost

Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego usar estos clasificadores débiles para hacerlo. ensamblados para formar un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí se implementa cambiando la distribución de datos. Determina el peso de cada muestra en función de si cada muestra en cada conjunto de entrenamiento se clasificó correctamente y de la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía al clasificador de nivel inferior para su entrenamiento y, finalmente, los clasificadores obtenidos de cada entrenamiento finalmente se fusionan en el clasificador de toma de decisiones final.

8.kNN: clasificación de k vecinos más cercanos

El algoritmo de clasificación de k vecinos más cercanos (KNN) es un método relativamente maduro en teoría y también es uno de los algoritmos de aprendizaje automático más simples. . La idea de este método es: si la mayoría de las k muestras más similares (es decir, más cercanas) en un espacio de características pertenecen a una determinada categoría, entonces esta muestra también pertenece a esta categoría.

9. Naive Bayes

Entre los muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión y el modelo Naive Bayes (NBC). El modelo Naive Bayes se deriva de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable. Al mismo tiempo, el modelo NBC requiere que se estimen pocos parámetros, no es sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso, porque el modelo NBC supone que los atributos son independientes entre sí, y esta suposición a menudo es insostenible en aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. Cuando la correlación de atributos es pequeña, el rendimiento del modelo NBC es el mejor.

10.CART: Árboles de clasificación y regresión

Carrito de compras, árboles de clasificación y regresión Hay dos ideas clave bajo el árbol de clasificación. La primera es sobre la idea de dividir recursivamente el espacio de la variable independiente; la segunda idea es utilizar datos de validación para la poda;