dplyr : pourquoi vos résultats sont faux avec group_by() et summarise() (et comment corriger)

# chargement du packahe funModeling library(funModeling) # chargement des données data("heart_disease") # chargement du package dplyr library(dplyr) # aperçu des données glimpse(heart_disease) Rows: 303 Columns: 16 $ age <int> 63, 67, 67, 37, 41, 56, 62, 57, 63, 53, 57, 56,… $ gender <fct> male, male, male, male, female, male, female, f… $ chest_pain <fct> 1, 4, 4, 3, 2, 2, 4, 4, 4, 4, 4, 2, 3, 2, 3, 3,… $ resting_blood_pressure <int> 145, 160, 120, 130, 130, 120, 140, 120, 130, 14… $ serum_cholestoral <int> 233, 286, 229, 250, 204, 236, 268, 354, 254, 20… $ fasting_blood_sugar <fct> 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,… $ resting_electro <fct> 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0, 0,… $ max_heart_rate <int> 150, 108, 129, 187, 172, 178, 160, 163, 147, 15… $ exer_angina <int> 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0,… $ oldpeak <dbl> 2.3, 1.5, 2.6, 3.5, 1.4, 0.8, 3.6, 0.6, 1.4, 3.… $ slope <int> 3, 2, 2, 3, 1, 1, 3, 1, 2, 3, 2, 2, 2, 1, 1, 1,… $ num_vessels_flour <int> 0, 3, 2, 0, 0, 0, 2, 0, 1, 0, 0, 0, 1, 0, 0, 0,… $ thal <fct> 6, 3, 7, 3, 3, 3, 3, 3, 7, 7, 6, 3, 6, 7, 7, 3,… $ heart_disease_severity <int> 0, 2, 1, 0, 0, 0, 3, 0, 2, 1, 0, 0, 2, 0, 0, 0,… $ exter_angina <fct> 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0,… $ has_heart_disease <fct> no, yes, yes, no, no, no, yes, no, yes, yes, no…

# chargement du package forcast pour recoder les modalités de la douleur library(forcats) heart_disease$chest_pain<- heart_disease$chest_pain %>% fct_recode( "Typical Angina" = "1", "Atypical Angina" = "2", "Non-anginal pain" = "3", "Asymptomatic" = "4" ) # Affichage des 5 premières lignes des données heart_disease |> slice_head(n=5) age gender chest_pain resting_blood_pressure serum_cholestoral 1 63 male Typical Angina 145 233 2 67 male Asymptomatic 160 286 3 67 male Asymptomatic 120 229 4 37 male Non-anginal pain 130 250 5 41 female Atypical Angina 130 204 fasting_blood_sugar resting_electro max_heart_rate exer_angina oldpeak slope 1 1 2 150 0 2.3 3 2 0 2 108 1 1.5 2 3 0 2 129 1 2.6 2 4 0 0 187 0 3.5 3 5 0 2 172 0 1.4 1 num_vessels_flour thal heart_disease_severity exter_angina has_heart_disease 1 0 6 0 0 no 2 3 3 2 1 yes 3 2 7 1 1 yes 4 0 3 0 0 no 5 0 3 0 0 no

# pour obtenir un affichage des moyennes avec une décimale après la virgule options(pillar.sigfig = 4) # calcul des moyennes par combinaison des modalités gender et chest pain by_gender_chest_pain <- heart_disease |> group_by(gender, chest_pain) |> summarise( mean_resting_blood_pressure = round(mean(resting_blood_pressure, na.rm = TRUE), 1)) # affichage du résultat by_gender_chest_pain # A tibble: 8 × 3 # Groups: gender [2] gender chest_pain mean_resting_blood_pressure <fct> <fct> <dbl> 1 female Typical Angina 147.5 2 female Atypical Angina 128.1 3 female Non-anginal pain 127.9 4 female Asymptomatic 139.1 5 male Typical Angina 139.5 6 male Atypical Angina 128.6 7 male Non-anginal pain 131.9 8 male Asymptomatic 129.6

by_gender_chest_pain |> slice_max(mean_resting_blood_pressure, n = 2) # A tibble: 4 × 3 # Groups: gender [2] gender chest_pain mean_resting_blood_pressure <fct> <fct> <dbl> 1 female Typical Angina 147.5 2 female Asymptomatic 139.1 3 male Typical Angina 139.5 4 male Non-anginal pain 131.9

by_gender_chest_pain <- heart_disease |> group_by(gender, chest_pain) |> summarise( mean_resting_blood_pressure = round(mean(resting_blood_pressure, na.rm = TRUE), 1) ) |> ungroup() # utilisation de la fonction ungroup()

by_gender_chest_pain |> slice_max(mean_resting_blood_pressure, n = 2) # A tibble: 2 × 3 gender chest_pain mean_resting_blood_pressure <fct> <fct> <dbl> 1 female Typical Angina 147.5 2 male Typical Angina 139.5

by_gender_chest_pain <- heart_disease |> group_by(gender, chest_pain) |> summarise( mean_resting_blood_pressure = round(mean(resting_blood_pressure, na.rm = TRUE), 1), .groups = "drop" # ici )

by_gender_chest_pain <- heart_disease |> summarise( mean_resting_blood_pressure = round(mean(resting_blood_pressure, na.rm = TRUE), 1), .by = c(gender, chest_pain) # ici ) gender chest_pain mean_resting_blood_pressure 1 female Typical Angina 147.5 2 male Typical Angina 139.5

4 réponses

Menus dit :
12 mai 2026 à 10 h 46 min
Merci. J’utilisais la solution 2 mais sans avoir réellement remarqué le danger. Je le fais intuitivement tant affectueusement peur que le grouping se propage au cours de l’analyse. Je n’avais même pas encore remarqué le message d’attention de R.
Répondre
kik dit :
12 mai 2026 à 12 h 34 min
Très utile, merci beaucoup, personnellement j’utilse souvent la solution 1, mais je après la lecture de cet article je pense que je vais migrer à la solution 3
Répondre
fgardavaud dit :
18 mai 2026 à 15 h 03 min
Bravo Claire pour ce tuto qui rappelle les écueils rencontrés très tôt dans des études de cas.
Répondre
GALBONI dit :
20 mai 2026 à 20 h 23 min
Bravo 👏 pour cette demonstration pas a pas.
Répondre

dplyr : pourquoi vos résultats sont faux avec group_by() et summarise() (et comment corriger)

Table des matières

Introduction

Un exemple concret avec des données cliniques

Une analyse très classique

Le piège apparaît après

Ce que fait réellement summarise()

Pourquoi c’est problématique ?

Comment éviter ce piège ?

Solution 1 : utiliser la fonction ungroup()

Solution 2 : utiliser .groups = “drop”

Solution 3 : utiliser l’argument .by

Conclusion

Vous préférez les vidéos ?

Aller plus loin

Apprendre R à votre rythme

Poursuivez votre lecture

Commentaires

4 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)