La méthode des kmeans

str(mtcars) ## 'data.frame': 32 obs. of 11 variables: ## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ... ## $ disp: num 160 160 108 258 360 ... ## $ hp : num 110 110 93 110 175 105 245 62 95 123 ... ## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... ## $ wt : num 2.62 2.88 2.32 3.21 3.44 ... ## $ qsec: num 16.5 17 18.6 19.4 17 ... ## $ vs : num 0 0 1 1 0 1 0 1 1 1 ... ## $ am : num 1 1 1 0 0 0 0 0 0 0 ... ## $ gear: num 4 4 4 3 3 3 3 4 4 4 ... ## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...

library(tidyverse) # selection des variables mtcars_num <- mtcars %>% dplyr::select(mpg,disp:qsec) str(mtcars_num) ## 'data.frame': 32 obs. of 6 variables: ## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ## $ disp: num 160 160 108 258 360 ... ## $ hp : num 110 110 93 110 175 105 245 62 95 123 ... ## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... ## $ wt : num 2.62 2.88 2.32 3.21 3.44 ... ## $ qsec: num 16.5 17 18.6 19.4 17 ...

mtcars_num_sc <- scale(mtcars_num) str(mtcars_num_sc) ## num [1:32, 1:6] 0.151 0.151 0.45 0.217 -0.231 ... ## - attr(*, "dimnames")=List of 2 ## ..$ : chr [1:32] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" "Hornet 4 Drive" ... ## ..$ : chr [1:6] "mpg" "disp" "hp" "drat" ... ## - attr(*, "scaled:center")= Named num [1:6] 20.09 230.72 146.69 3.6 3.22 ... ## ..- attr(*, "names")= chr [1:6] "mpg" "disp" "hp" "drat" ... ## - attr(*, "scaled:scale")= Named num [1:6] 6.027 123.939 68.563 0.535 0.978 ... ## ..- attr(*, "names")= chr [1:6] "mpg" "disp" "hp" "drat" ...

km.out$cluster # Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive ## 4 4 4 4 ## Hornet Sportabout Valiant Duster 360 Merc 240D ## 2 4 1 4 ## Merc 230 Merc 280 Merc 280C Merc 450SE ## 4 4 4 2 ## Merc 450SL Merc 450SLC Cadillac Fleetwood Lincoln Continental ## 2 2 2 2 ## Chrysler Imperial Fiat 128 Honda Civic Toyota Corolla ## 2 3 3 3 ## Toyota Corona Dodge Challenger AMC Javelin Camaro Z28 ## 4 2 2 1 ## Pontiac Firebird Fiat X1-9 Porsche 914-2 Lotus Europa ## 2 3 3 3 ## Ford Pantera L Ferrari Dino Maserati Bora Volvo 142E ## 1 1 1 4

# Gap statistic # nboot = 50 to keep the function speedy. # recommended value: nboot= 500 for your analysis. # Use verbose = FALSE to hide computing progression. set.seed(123) fviz_nbclust(mtcars_num_sc, kmeans, nstart = 25, method = "gap_stat", nboot = 50)+ labs(subtitle = "Gap statistic method")

15 réponses

REZAK Salima dit :
6 mai 2020 à 14 h 16 min
Bonjour Madame,
je suis intéressée par tout ce que vous faites pour élaircir les méthodes statistiques en appliquant R.
Comment interpréter le graphe (en sorte de matrice: les points rouge et points noir) dans le paragraphe visualisation?
Mes sincères salutations
Répondre
1. Claire Della Vedova dit :
  10 mai 2020 à 22 h 32 min
  Bonjour,
  les points noirs correspondent à un premier cluster et les points rouges à l’autre cluster.
  Bonne continuation
  Répondre
Ali Mcheik dit :
6 mai 2020 à 22 h 51 min
C’est trés intéressant , merci beaucoup pour vos efforts
Répondre
WANDJI TANGUEP dit :
7 mai 2020 à 9 h 01 min
Bonjour à vous
merci pour cette présentation
Répondre
BONNEFOY dit :
7 mai 2020 à 11 h 47 min
Bonjour Claire
L’illustration montre des clusters qui se chevauchent alors que le contexte indique que les clusters ne se chevauchent pas?
Répondre
1. Claire Della Vedova dit :
  10 mai 2020 à 22 h 30 min
  Bonjour,
  Ce sont les ellipses qui se chevauchent, pas les clusters en eux-même.
  Répondre
BOUXIN Guy dit :
9 mai 2020 à 10 h 22 min
Personnellement, quand je fais des clusters (hiérarchique ou K means), mes données de végétation sont d’abord transformées, par une double transformation : d’abord transformer les données d’abondance ( ,r, 1,2,3,4,5 selon la méthode phytosociologique) en tableau disjonctif et puis par une analyse non-symétrique des correspondances (souvent associée à une analyse factorielle multiple). Les coordonnées des variables sur les premiers axes de l’analyse sont utilisées pour calculer les distances euclidiennes. Le nombre utile d’axes est fixé par permutations.
Guy Bouxin
Répondre
1. Claire Della Vedova dit :
  10 mai 2020 à 22 h 24 min
  Bonjour Guy,
  je ne connais pas la méthode de transformation phyotosociologique ! Quand je travaillais sur les abondances, j’avais l’habitude de faire une transformation de Hellinger puis une ACP. Est ce que vous auriez un publication d’introduction à me recommander ?
  Répondre
Dany OTRON dit :
10 mai 2020 à 12 h 26 min
Super bien cet article, très très utile. Merci Claire
Répondre
nicolas dit :
10 mai 2020 à 13 h 29 min
Bonjour,
merci de votre blog très pédagogique.
Concernant l’attribution à chaque observation du cluster qui lui est le plus proche, est-il possible de récupérer l’équation finale permettant de la calculer?
i.e. les coordonnées du centroïde?
Mon idée est dans l’hypothèse d’une nouvelle donnée, d’être capable d’estimer à quel cluster elle se rattache sans avoir à recalculer les kmeans.
Amicalement
Nicolas
Répondre
1. Claire Della Vedova dit :
  10 mai 2020 à 22 h 21 min
  Bonsoir Nicolas,
  je pense que vous pouvez avoir accès aux coordonnées des centroides, avec les commandes suivantes :
  km.out=kmeans(mtcars_num_sc,centers=4,nstart =20)
  km.out$centers
  Bonne continuation.
  Répondre
Tao dit :
13 juin 2020 à 11 h 35 min
j’aime beaucoup votre blog, très pédagogue sans superflu. Je vais continuer à vous suivre! Merci claire de ce partage !
Répondre
1. Claire Della Vedova dit :
  21 juin 2020 à 22 h 55 min
  Merci Tao ! Je suis ravie si le blog vous aide, c’est le but !
  Bonne continuation.
  Répondre
BAH dit :
12 décembre 2020 à 1 h 06 min
Bonjour ,
Merci de votre bloc très pédagogique, j’ai un sujet qui est : Quels sont les besoins en professionnels (kinésithérapeute, ergothérapeute et orthoprothésiste…) de la réadaptation pour les pays à bas et moyen niveaux de revenus ?
Proposition et application d’une méthode de calcul
j’ai pensé à votre méthode de calcul qui est la méthode K means. qu’est vous en pensez et comment je pourrai là mettre avec le logiciel R)?
Répondre
Dr BOULET JF dit :
18 décembre 2020 à 14 h 25 min
Merci pour la clarté de vos explications
Répondre

La méthode des kmeans

Contexte de la méthode des kmeans

Principe

La distance euclidienne

L'algorithme

L'attribution initiale

Kmeans avec R

Les données

Standardisation des données

La fonction kmeans()

Choix du nombre de clusters

Visualisations

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

15 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)