> Statistiques > Analyse de données > Clustering kmeans
Clustering kmeans
Principe du clustering k-means :
- déterminer à l'avance un nombre k de clusters souhaités.
- démarrer en tirant k points au hasard (les centroïdes).
- attribuer chaque point de mesure à l'un des k points en prenant le plus proche.
- recalculer les centroïdes de chaque cluster (barycentre des points affectés à celui-ci).
- recommencer l'attribution des points aux nouveaux centroïdes et itérer jusqu'à ce que cela converge.
La fonction keams de faire un clustering de type k-means.
cl <- kmeans(mat, k), avec mat une matrice N x p, N nombre d'individus et p nombre d'attributs : effectue un clustering en k clusters et renvoie un objet de classe kmeans (on peut aussi donner un dataframe).
nombre d'itérations et de tentatives :
- cl <- kmeans(mat, k, iter.max = 20) : autorise 20 itérations (défaut est de 10).
- cl <- kmeans(mat, k, nstart = 5) : fait 5 tentatives (avec à chaque le nombre d'itérations par défaut.
Propriétés des objets de classe kmeans
- cl$cluster : vecteur de taille N indiquant le numéro du cluster d'appartenance pour chaque individu.
- cl$centers : matrice k x p des k centres.
- cl$withinss : sum of squares par cluster
- cl$size : vecteur de la taille des clusters.
Copyright Aymeric Duclert
programmer en R, tutoriel R, graphes en R