En el proceso de extracción de datos, ¿cuáles son los indicadores alternativos de obtención de información? Descubra los artículos en inglés relevantes. Solo encontré el índice de Gini.
No es sólo que el algoritmo elegido sea 10, de hecho, el algoritmo elegido para ser 18 es solo para crear lo que se puede llamar un algoritmo clásico en el campo de la minería de datos, que tiene un gran alcance. influencia.
C4.5
El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación y un algoritmo de aprendizaje automático. El algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda las ventajas del algoritmo ID3. El algoritmo ID3 se ha mejorado en los siguientes aspectos:
1) Mejorar la tasa de ganancia de información y seleccionar atributos para superar las deficiencias de los atributos de selección de valores de sesgo. , atributos de selección de ganancia de información;
p>
2) Poda en la estructura del árbol;
3) Discretización de atributos continuos en el proceso de finalización;
4) Datos incompletos.
El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que el conjunto de datos se escanea y clasifica secuencialmente en una estructura de árbol, lo que da como resultado una baja eficiencia del algoritmo.
2. Algoritmo k-means
Algoritmo k-means El algoritmo K-means es un algoritmo de agrupación, dividido en K, K
Máquina de vectores de soporte
Máquina de vectores de soporte ( SVM) es la abreviatura de máquina SV (a menudo llamada SVM). Este es un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión. La máquina de vectores de soporte se asigna a un espacio de alta dimensión y en este espacio se crea un hiperplano con el intervalo más grande. Dos hiperplanos mutuamente paralelos, ubicados a cada lado del hiperplano de un solo dato. Separar hiperplanos para maximizar la distancia entre dos hiperplanos paralelos. Se supone que cuanto mayor sea la distancia o espacio entre hiperplanos paralelos, menor será el error general del clasificador. Excelente guía "Guía para máquinas de vectores de soporte de reconocimiento de patrones" de CJC Berg. Se comparan las máquinas de vectores de soporte de Van der Waals y Barnard.
Algoritmo a priori
El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es una frecuencia de dos etapas basada en un conjunto de ideas de algoritmos recursivos. Las reglas de asociación se dividen en reglas de asociación unidimensionales, simples y booleanas. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes como configuración de frecuencia.
El algoritmo de expectativa máxima (EM) encuentra la expectativa con los parámetros más grandes en el algoritmo de expectativa máxima (EM) de la computación estadística. A menudo se usa en los campos del aprendizaje automático y la recopilación de datos de visión por computadora (probabilidad). en modelos de agrupamiento de datos). ) Algoritmo de estimación de probabilidad, en el que el modelo de probabilidad se basa en variables latentes no observables (variables latentes)
6. PageRank de
El algoritmo PageRank de Google recibió una patente estadounidense en septiembre de 2006, 5438+0. La patente pertenece al fundador de Google, Larry Page. PageRank y años no se refieren a páginas, sino que se nombran en este nivel.
PageRank mide el valor de un sitio web en función de su cantidad y calidad, enlaces internos y externos. El concepto detrás de PageRank es que cada página vinculada es una página de votación. Los enlaces y votos significan para otros sitios, esto se llama "popularidad de enlaces", una medida de cuántas personas les gustaría estar enlazadas a su sitio, el suyo. El PageRank se cita a menudo en artículos académicos como referencia, es decir, a partir de otros juicios autorizados más generales.
7 AdaBoost
Adaboost es un algoritmo iterativo. Su idea central es que diferentes clasificadores (clasificadores débiles) tienen el mismo conjunto de entrenamiento, y luego estos clasificadores débiles * * * juntos forman. un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí se modifica cambiando la distribución de los datos y el peso de cada muestra se determina en función de la clasificación de cada muestra en cada conjunto de entrenamiento y la precisión de la clasificación general final. Se asignan pesos en el nuevo conjunto de datos al entrenamiento de clasificadores inferiores, y las clasificaciones finales de cada entrenamiento se fusionan como la clasificación de decisión final.
KNN: clasificación de K vecinos más cercanos
El algoritmo de clasificación de k vecinos más cercanos (KNN) es un método relativamente maduro en teoría y también es la idea más simple entre los algoritmos de aprendizaje automático. El método es el siguiente: si las k muestras más similares en el espacio de características (es decir, las muestras más similares en el espacio de características) pertenecen a una categoría, entonces la muestra también pertenece a esa categoría. BR p>9. Naive Bayes
Entre muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión y Na? Modelo de clasificación bayesiano (NBC) El modelo bayesiano ingenuo se deriva de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable. Al mismo tiempo, se requieren pocos parámetros para estimar el modelo NBC, no es sensible a los datos faltantes y el algoritmo es relativamente simple.
En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso, porque los supuestos del modelo NBC son independientes entre sí, en aplicaciones prácticas, este supuesto es a menudo insostenible y tiene un cierto impacto en la clasificación correcta del modelo NBC. La clasificación de los modelos NBC compara la eficiencia de los modelos de árboles de decisión cuando el número de atributos o la correlación entre atributos es grande. Hay pocos problemas relacionados con el sector inmobiliario y el modelo NBC es el más favorable.
10. Car: Árboles de Clasificación y Regresión
Car, Árboles de Clasificación y Regresión. Hay dos ideas clave debajo del árbol de clasificación. El primer pensamiento es ¿sí? Partición recursiva del espacio de variables independientes; la segunda idea es podar y validar los datos.