Red de Respuestas Legales - Directorio de abogados - ¿Qué algoritmos de agrupamiento existen?

¿Qué algoritmos de agrupamiento existen?

Los métodos de cálculo del análisis de conglomerados incluyen principalmente el método jerárquico, el método de partición, el método basado en densidad, el método basado en cuadrícula, el método basado en modelos, etc. Entre ellos, los dos primeros algoritmos utilizan medidas de distancia definidas estadísticamente.

El proceso de trabajo del algoritmo k-means se describe a continuación: primero, se seleccionan aleatoriamente K objetos de N objetos de datos como centros de agrupamiento iniciales y para los objetos restantes, en función de su similitud con estos; centros de agrupamiento (distancia), asígnelos al grupo más similar a ellos (representado por el centro del grupo y luego calcule el centro del grupo de cada nuevo grupo (el promedio de todos los objetos en el grupo se repite hasta alcanzar el estándar); La función de medición comienza a converger. Normalmente, el error cuadrático medio se utiliza como función de medición estándar. Los K-clusters tienen las siguientes características: cada cluster en sí es lo más compacto posible y cada cluster es lo más independiente posible.

El proceso es el siguiente:

(1) Seleccionar aleatoriamente k objetos de n objetos de datos como centro de agrupamiento inicial

(2) Según cada uno; El valor promedio de los objetos agrupados (objeto central), calcule la distancia entre cada objeto y estos objetos centrales y vuelva a dividir los objetos correspondientes de acuerdo con la distancia mínima

(3) Recalcular cada uno (cambiar; ) el valor promedio de los grupos (objeto central);

(4) Bucle (2) y (3) hasta que cada grupo ya no cambie (la función de medición estándar converge).

Ventajas: El error cuadrático de las K particiones determinado por este algoritmo es el más pequeño. Cuando la agrupación es densa y las diferencias entre clases son obvias, el efecto es mejor. Para procesar grandes conjuntos de datos, este algoritmo es relativamente escalable y eficiente, con una complejidad computacional de O(NKt), donde N es el número de objetos de datos y T es el número de iteraciones.

Desventajas:

1.k se da por adelantado, pero es difícil elegir;

2 La selección del centro de agrupación inicial tiene un impacto. en los resultados del clustering.