¿Qué algoritmos de agrupamiento existen?
El proceso de trabajo del algoritmo k-means se describe a continuación: primero, se seleccionan aleatoriamente K objetos de N objetos de datos como centros de agrupamiento iniciales y para los objetos restantes, en función de su similitud con estos; centros de agrupamiento (distancia), asígnelos al grupo más similar a ellos (representado por el centro del grupo y luego calcule el centro del grupo de cada nuevo grupo (el promedio de todos los objetos en el grupo se repite hasta alcanzar el estándar); La función de medición comienza a converger. Normalmente, el error cuadrático medio se utiliza como función de medición estándar. Los K-clusters tienen las siguientes características: cada cluster en sí es lo más compacto posible y cada cluster es lo más independiente posible.
El proceso es el siguiente:
(1) Seleccionar aleatoriamente k objetos de n objetos de datos como centro de agrupamiento inicial
(2) Según cada uno; El valor promedio de los objetos agrupados (objeto central), calcule la distancia entre cada objeto y estos objetos centrales y vuelva a dividir los objetos correspondientes de acuerdo con la distancia mínima
(3) Recalcular cada uno (cambiar; ) el valor promedio de los grupos (objeto central);
(4) Bucle (2) y (3) hasta que cada grupo ya no cambie (la función de medición estándar converge).
Ventajas: El error cuadrático de las K particiones determinado por este algoritmo es el más pequeño. Cuando la agrupación es densa y las diferencias entre clases son obvias, el efecto es mejor. Para procesar grandes conjuntos de datos, este algoritmo es relativamente escalable y eficiente, con una complejidad computacional de O(NKt), donde N es el número de objetos de datos y T es el número de iteraciones.
Desventajas:
1.k se da por adelantado, pero es difícil elegir;
2 La selección del centro de agrupación inicial tiene un impacto. en los resultados del clustering.