Identifier des groupes homogènes après une ANOVA et les afficher sur un graphique

library(tidyverse) ggplot(chickwts, aes(x=feed, y=weight,colour=feed ))+ geom_jitter(height=0, width=0.15)+ geom_boxplot(alpha=0.25, outlier.shape = NA)+ theme_minimal()+ theme(legend.position="none")

summary(chickwts.aov1) Df Sum Sq Mean Sq F value Pr(>F) feed 5 231129 46226 15.37 5.94e-10 *** Residuals 65 195556 3009 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

library(emmeans) emmeans(chickwts.aov1, specs=pairwise~feed, adjust="holm")$contrasts contrast estimate SE df t.ratio p.value horsebean - linseed -58.55 23.5 65 -2.493 0.0944 horsebean - soybean -86.23 22.7 65 -3.797 0.0030 horsebean - meatmeal -116.71 24.0 65 -4.870 0.0001 horsebean - sunflower -168.72 23.5 65 -7.184 <.0001 horsebean - casein -163.38 23.5 65 -6.957 <.0001 linseed - soybean -27.68 21.6 65 -1.283 0.5177 linseed - meatmeal -58.16 22.9 65 -2.540 0.0944 linseed - sunflower -110.17 22.4 65 -4.920 0.0001 linseed - casein -104.83 22.4 65 -4.682 0.0002 soybean - meatmeal -30.48 22.1 65 -1.379 0.5177 soybean - sunflower -82.49 21.6 65 -3.823 0.0030 soybean - casein -77.15 21.6 65 -3.576 0.0053 meatmeal - sunflower -52.01 22.9 65 -2.271 0.1322 meatmeal - casein -46.67 22.9 65 -2.039 0.1823 sunflower - casein 5.33 22.4 65 0.238 0.8125 P value adjustment: holm method for 15 tests

library(multcomp) LetterResults <- emmeans(chickwts.aov1, specs = pairwise ~ feed, adjust = "holm") %>% multcomp::cld(Letters = letters) LetterResults feed emmean SE df lower.CL upper.CL .group horsebean 160 17.3 65 126 195 a linseed 219 15.8 65 187 250 ab soybean 246 14.7 65 217 276 b meatmeal 277 16.5 65 244 310 bc casein 324 15.8 65 292 355 c sunflower 329 15.8 65 297 361 c Confidence level used: 0.95 P value adjustment: tukey method for comparing a family of 6 estimates significance level used: alpha = 0.05 NOTE: If two or more means share the same grouping symbol, then we cannot show them to be different. But we also did not show them to be the same.

library(ggstatsplot) ggbetweenstats( data = chickwts, x = feed, y = weight, type = "parametric", var.equal = TRUE, p.adjust.method = "holm", title = "Efficacité de 6 suppléments alimentaires sur le taux de croissance des poulets", results.subtitle = FALSE) + # Masque le résultat global de l'ANOVA et les p-values) scale_y_continuous( limits = c(100, 445), breaks = seq(from = 100, to = 444, by = 100) )+ geom_text(data=LetterResults, aes(label=.group, y=440))

library(PMCMRplus) dunn_results<-PMCMRplus::kwAllPairsDunnTest(weight~feed, data=chickwts,p.adjust.method = "holm") Warning in kwAllPairsDunnTest.default(c(179, 160, 136, 227, 217, 168, 108, : Ties are present. z-quantiles were corrected for ties. dunn_results Pairwise comparisons using Dunn's all-pairs test data: weight by feed horsebean linseed soybean meatmeal sunflower linseed 0.5830 - - - - soybean 0.0834 0.9900 - - - meatmeal 0.0092 0.4815 0.9900 - - sunflower 9.2e-06 0.0062 0.0715 0.5830 - casein 2.1e-05 0.0103 0.0994 0.6274 0.9900 P value adjustment method: holm alternative hypothesis: two.sided

# Créer un tableau avec les résultats et obtenir les sous-groupes library(multcompView) p_values <- dunn_results$p.value group_letters <- multcompLetters(p_values, compare = "<", threshold = 0.05) group_letters linseed soybean meatmeal sunflower casein "a" "ab" "bc" "c" "c" # Extraire les lettres associées aux groupes letters_df <- data.frame(feed = names(group_letters$Letters), Letters = group_letters$Letters) letters_df feed Letters linseed linseed a soybean soybean ab meatmeal meatmeal bc sunflower sunflower c casein casein c

# Créer le plot et ajouter les lettres sur le graphique ggbetweenstats(data = chickwts, x = feed, y = weight, type = "nonparametric", var.equal = TRUE, p.adjust.method = "holm", title = "Efficacité de 6 suppléments alimentaires sur le taux de croissance des poulets") + geom_text(data = letters_df, aes(x = feed, y = 440, label = Letters))

ggbetweenstats(data = chickwts, x = feed, y = weight, type = "nonparametric", var.equal = TRUE, p.adjust.method = "holm", title = "Efficacité de 6 suppléments alimentaires sur le taux de croissance des poulets", results.subtitle = FALSE)+ scale_y_continuous( limits = c(100, 445), breaks = seq(from = 100, to = 444, by = 100) )+ geom_text(data = letters_df, aes(x = feed, y = 440, label = Letters))

14 réponses

Yakouba dit :
9 octobre 2024 à 8 h 30 min
Bonjour,
Vraiment très très intéressant
Merci grandement !
Répondre
Oumar Sadio dit :
9 octobre 2024 à 9 h 42 min
C est génial vraiment merci beaucoup
Répondre
SOULAMA dit :
9 octobre 2024 à 12 h 56 min
Merci pour cet article enrichissant, mais je racontre un problème avec cette partie du script, pourriez m’aider ?
« `{r}
library(multcomp)
LetterResults %
multcomp::cld(Letters = letters)
LetterResults
« `
Erreur dans UseMethod(« cld ») :
pas de méthode pour ‘cld’ applicable pour un objet de classe « emmGrid »
Répondre
1. Claire Della Vedova dit :
  10 octobre 2024 à 10 h 36 min
  Bonjour,
  Est-ce que vous obtenez cette erreur en reproduisant l’exemple ou sur d’autres données ?
  Répondre
Doni dit :
9 octobre 2024 à 17 h 02 min
Merci pour le billet, il est très clair dans l’ensemble.
Quelques remarques/questions toutefois :
– Il me semble que les tests de vérifications des hypothèses doivent être réalisés sur les résidus du modèle de régression et non sur les valeurs brutes. Le Shapiro est réalisé sur les résidus mais pas les Bartlett et Levene. J’ai déjà vu un modèle dont les résidus ne répondaient pas au critère d’homogénéité alors qu’un Levene sur les variances des données brutes était OK.
– Je ne connaissais pas le test d’homoscédasticité sur les résidus du modèle, je faisais toujours une inspection visuelle mais c’est vrai que lorsque j’avais un doute, j’étais bien en peine pour tester avec une procédure formelle (i.e. un indicateur statistique et une p-val).
– A quoi correspondent les contrastes dans les modèles linéaires ?
– J’utilise classiquement Tukey, Bonferroni ou Holm mais sans jamais trop savoir lequel utiliser et pourquoi. Un petit billet sur ces sujets là pour compléter celui-ci ?
Répondre
1. Claire Della Vedova dit :
  10 octobre 2024 à 10 h 32 min
  Bonjour,
  Pour la normalité, oui, c’est sur les résidus.
  Par contre, pour l’homogénéité, d’après ma compréhension, cela revient au même de le faire sur les résidus ou sur les données brutes (dans le cadre de l’ANOVA à un facteur)). J’ai regardé dans 2 livres (Stats facile avec R et Introductory Statistics with R) et la condition est évaluée sur les données brutes. Si vous avez l’exemple sous la maain dont vous parlez, je veux bien y jeter un coup d’œil.
  Les contrastes sont des différences en quelque sorte.
  Concernant les approches pour les comparaisons multiples, j’avais écrit un article dessus (il ya trèèès longtemps) : https://delladata.fr/comparaisons-multiples-et-ajustement-des-pvalues-avec-le-logiciel-r/
  Bonne continuation
  Répondre
SALAM dit :
11 octobre 2024 à 1 h 24 min
Merci Claire pour cette révision de l’Anova à un facteur. Moi j’avais un souci sur les tests post-hoc. Il m’arrive parfois d’utiliser différents tests pour la comparaison multiples afin être sûr des résultats obtenus (SNK test, tukey et autres). Parfois je trouve des résultats différents. La question est de savoir quel test le plus robuste pour ces analyses? Et t’il aussi possible de réaliser volontairement le test student paramétrique pour la comparaison multiples ?
Répondre
1. Claire Della Vedova dit :
  14 octobre 2024 à 9 h 45 min
  Bonjour,
  je ne sais pas si une approche est plus robuste que les autres dans toutes les situations. Je ne pense pas.
  Je vous conseille d’en choisir une et de vous y tenir (vous pouvez employer celle qui est le plus généralement employée dans votre domaine d’étude).
  Je ne suis pas sûre de comprendre votre question sur les tests de stuent pour les comparaisons multiples. Vous pouvez regarder du coté de la fonction pairwise.t.test() qui permet d’utiliser différentes approches d’ajustement.
  Bonne continuation
  Répondre
Isabelle dit :
11 octobre 2024 à 18 h 15 min
Bonjour, merci beaucoup pour ce tutoriel, ça aide beaucoup!
Je me demandais cependant, dans l’ANOVA non-paramétrique, pourquoi les lettres ne sont pas attribuées à tous les groupes? Dans votre cas, « horsebean » n’a pas de lettre et n’est pas comparé aux autres groupes. J’avais une analyse à peu près similaire à faire et la même chose s’est produite: mon premier groupe n’est pas considéré. Comment corriger cela?
Merci beaucoup!
Répondre
1. Claire Della Vedova dit :
  14 octobre 2024 à 9 h 42 min
  Bonjour,
  Merci pour votre question, elle est très pertinente.
  Sur les résultats des pvalues, on voit que horsbean est significativement différent des autres groupes.
  Je ne sais pas pourquoi la fonction multcompLetters() ne le prend pas en compte.
  Voici un code qui devrait vous aider :
  # Réaliser le test de Dunn dunn_results <- PMCMRplus::kwAllPairsDunnTest(weight ~ feed, data = chickwts, p.adjust.method = "holm")# Obtenir les p-values p_values <- dunn_results$p.value# Vérifier que tous les groupes sont bien présents dans le jeu de données original all_groups <- levels(chickwts$feed)# Appliquer multcompLetters pour obtenir les lettres des groupes group_letters <- multcompLetters(p_values, compare = "<", threshold = 0.05)# Créer un tableau de lettres pour les groupes présents dans les p-values letters_df <- data.frame(feed = names(group_letters$Letters), Letters = group_letters$Letters)# Ajouter les groupes manquants (s'ils existent) avec une lettre distincte (par exemple "d") missing_groups <- setdiff(all_groups, letters_df$feed)if(length(missing_groups) > 0) { # Ajouter les groupes manquants avec une lettre distincte (ou ajustée selon vos besoins) for(group in missing_groups) { letters_df <- rbind(letters_df, data.frame(feed = group, Letters = "d")) } }# Résultat final letters_df #plot ggbetweenstats(data = chickwts, x = feed, y = weight, type = "nonparametric", var.equal = TRUE, p.adjust.method = "holm", title = "Efficacité de 6 suppléments alimentaires sur le taux de croissance des poulets", results.subtitle = FALSE)+ scale_y_continuous( limits = c(100, 445), breaks = seq(from = 100, to = 444, by = 100) )+ geom_text(data = letters_df, aes(x = feed, y = 440, label = Letters))
  Bonne continuation
  Répondre
  1. Arthur dit :
    16 mars 2026 à 14 h 54 min
    Bonjour, Merci pour vos explications. J’ai eu le même problème mais je ne trouvais pas que la solution manuelle était viable. J’ai vu que multcompLetters() a besoin d’avoir le nom explicite des groupes testés, et en l’occurrence avec PMCMRplus::kwAllPairsDunnTest « horsbean » n’apparait pas explicitement dans les rownames.
    Comme multcompLetters() s’attend à une matrice carrée elle prend les 5 noms présent comme les cinq seuls groupes. Il vaut mieux reformuler pour avoir une matrice carrée (avec des NAs sur la diagonale) ou un vecteur nommé avec les groupes séparés par « -« .
    Par exemple ici en transformation rapide peu élégante:
    p_values <- dunn_results$p.value
    p_values_vector % `names% na.omit()
    group_letters <- multcompLetters(p_values_vector , compare = "<", threshold = 0.05)
    Et tout le reste fonctionne bien.
    Répondre
Claire Della Vedova dit :
15 octobre 2024 à 21 h 44 min
Astuce transmise par Antoine Soetewey :
Si vous désirez supprimer les p-valeurs et accolades des tests post-hoc tout en gardant les résultats de l’ANOVA/Kruskal-Wallis dans le sous-titre du graphique, il existe l’argument pairwise.display = « none » (dans la fonction ggbetweenstats et ggwithinstats).
Répondre
Matthieu dit :
16 octobre 2024 à 2 h 04 min
Merci beaucoup madame !
Pouvez vous nous faire un article sur les modèles linéaires mixtes ?
Répondre
Jattiot dit :
16 juillet 2025 à 15 h 43 min
Bonjour,
Merci pour cet article très intéressant. J’ai un message d’erreur quand j’essaie d’utiliser la fonction ggbetweenstats, y compris avec le data chickwts.
L’erreur est la suivante : « Erreur dans train_continuous(x, self$range, call = call) :
argument inutilisé (call = call) »
J’ai bien remis à jour tous les packages, rien n’y fait..
Si vous avez une astuce 🙂
Merci
Répondre

Identifier des groupes homogènes après une ANOVA et les afficher sur un graphique

Table des matières

Data

Modifier les modalités pour ordonner les compléments alimentaires

Réalisation de l’ANOVA paramétrique

Évaluation des conditions d’application

Interprétation des résultats et tests post-hoc

Identifier et afficher les groupes homogènes

Réaliser le graphique des résultats

Réalisation avec une ANOVA non paramétrique

Réalisation de l’ANOVA non paramétrique

Tests post-hoc (comparaisons multiples) non paramétriques

Identifier et afficher les groupes homogènes

Création du graphique avec les groupes homogènes :

Conclusion

Poursuivez-votre lecture

14 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez vous former à Quarto ?

Vous souhaitez soutenir mon travail ?

Vous souhaitez vous former à R, ou aux statistiques ?

Vous avez besoin d'un assitance pour analyser vos données ?

Aide mémoire off'R ;)

Identifier des groupes homogènes après une ANOVA et les afficher sur un graphique

Table des matières

Data

Modifier les modalités pour ordonner les compléments alimentaires

Réalisation de l’ANOVA paramétrique

Évaluation des conditions d’application

Interprétation des résultats et tests post-hoc

Identifier et afficher les groupes homogènes

Réaliser le graphique des résultats

Réalisation avec une ANOVA non paramétrique

Réalisation de l’ANOVA non paramétrique

Tests post-hoc (comparaisons multiples) non paramétriques

Identifier et afficher les groupes homogènes

Création du graphique avec les groupes homogènes :

Conclusion

Poursuivez-votre lecture

14 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez vous former à Quarto ?

Vous souhaitez soutenir mon travail ?​

Vous souhaitez vous former à R, ou aux statistiques ?

Vous avez besoin d'un assitance pour analyser vos données ?

Aide mémoire off'R ;)

Vous souhaitez soutenir mon travail ?