ANOVA à 2 facteurs - quand les hypothèses ne sont pas satisfaites

mydata <- structure(list(Fatigue = c(118.32, 110.02, 125.32, 110.42, 111.94, 138.65, 112.59, 118.7, 136.42, 113.7, 60.25, 68.22, 82.22, 80.53, 77.02, 72.21, 69.45, 64.92, 59.73, 69.4, 65.09, 77.01, 69.09, 68.76, 61.55, 72.08, 69.98, 60.41, 63.13, 69.95, 51.11, 47.21, 49.06, 44.45, 57.88, 54.12, 46.09, 42.28, 45.63, 41.27, 52.97, 52.58, 55.92, 57.84, 53.95, 60.37, 57.65, 50.17, 56.35, 60.01, 35.03, 35.98, 34.26, 33.12, 32.22, 34.43, 34.13, 38.16, 31.63, 35.97), Exercice = structure(c(3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("Course", "Vélo elliptique", "Vélo simple" ), class = "factor"), Hydratation = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("eau", "boisson glucidique" ), class = "factor")), row.names = c(NA, -60L), class = "data.frame")

library(tidyverse) ggplot(mydata,aes(y=Fatigue, x=Exercice, colour=Hydratation))+ geom_point(position=position_jitterdodge(dodge.width=0.7), size=2) + geom_boxplot(alpha=0.5, position = position_dodge(width=0.8), fatten=NULL)+ theme_classic()

mydata$condition <- interaction(mydata$Exercice, mydata$Hydratation, sep="_") tail(mydata) ## Fatigue Exercice Hydratation condition ## 55 32.22 Course boisson glucidique Course_boisson glucidique ## 56 34.43 Course boisson glucidique Course_boisson glucidique ## 57 34.13 Course boisson glucidique Course_boisson glucidique ## 58 38.16 Course boisson glucidique Course_boisson glucidique ## 59 31.63 Course boisson glucidique Course_boisson glucidique ## 60 35.97 Course boisson glucidique Course_boisson glucidique

bartlett.test(residuals(mod)~mydata$condition) ## ## Bartlett test of homogeneity of variances ## ## data: residuals(mod) by mydata$condition ## Bartlett's K-squared = 26.022, df = 5, p-value = 8.837e-05

bartlett.test(residuals(mod_log)~mydata$condition) ## ## Bartlett test of homogeneity of variances ## ## data: residuals(mod_log) by mydata$condition ## Bartlett's K-squared = 6.7056, df = 5, p-value = 0.2435

library(car) leveneTest(residuals(mod_log)~mydata$condition) ## Levene's Test for Homogeneity of Variance (center = median) ## Df F value Pr(>F) ## group 5 1.0705 0.387 ## 54

mydata_bc <- transform(mydata, Fatigue_bc=bcPower(Fatigue,coef(p1))) head(mydata_bc) ## Fatigue Exercice Hydratation condition Fatigue_bc ## 1 118.32 Vélo simple eau Vélo simple_eau 2.747563 ## 2 110.02 Vélo simple eau Vélo simple_eau 2.726083 ## 3 125.32 Vélo simple eau Vélo simple_eau 2.764256 ## 4 110.42 Vélo simple eau Vélo simple_eau 2.727164 ## 5 111.94 Vélo simple eau Vélo simple_eau 2.731229 ## 6 138.65 Vélo simple eau Vélo simple_eau 2.793021 mod_bc <- lm(Fatigue_bc~ Exercice*Hydratation, contrasts=list(Exercice=contr.sum, Hydratation=contr.sum), data=mydata_bc)

mydata_bc$condition <- interaction(mydata_bc$Exercice, mydata_bc$Hydratation, sep="_") bartlett.test(residuals(mod_bc)~mydata_bc$condition) ## ## Bartlett test of homogeneity of variances ## ## data: residuals(mod_bc) by mydata_bc$condition ## Bartlett's K-squared = 6.1115, df = 5, p-value = 0.2955

Anova(mod_bc,type=3) ## Anova Table (Type III tests) ## ## Response: Fatigue_bc ## Sum Sq Df F value Pr(>F) ## (Intercept) 383.89 1 448427.887 < 2.2e-16 *** ## Exercice 0.65 2 380.712 < 2.2e-16 *** ## Hydratation 0.37 1 433.678 < 2.2e-16 *** ## Exercice:Hydratation 0.01 2 5.336 0.007679 ** ## Residuals 0.05 54 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Anova(mod,type=3) ## Anova Table (Type III tests) ## ## Response: Fatigue ## Sum Sq Df F value Pr(>F) ## (Intercept) 261217 1 6529.414 < 2.2e-16 *** ## Exercice 26869 2 335.814 < 2.2e-16 *** ## Hydratation 13589 1 339.671 < 2.2e-16 *** ## Exercice:Hydratation 2746 2 34.317 2.411e-10 *** ## Residuals 2160 54 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

11 réponses

Rojas dit :
12 juillet 2019 à 9 h 09 min
Merci beaucoup pour votre article, il tombe à point ! Et merci encore pour ce blog très utile à tous les niveaux !
Répondre
salim HEDDAM dit :
12 juillet 2019 à 12 h 41 min
Très impressionnant
Merci beaucoup
Répondre
Dany OTRON dit :
12 juillet 2019 à 17 h 22 min
Merci Claire pour cet article qui vient booster nos connaissance. Well done
Répondre
Eustache Jude dit :
16 mars 2020 à 3 h 30 min
Merci Claire pour cet article qui vient nous éclaircir de plus.
Répondre
Huré Mathilde dit :
17 juin 2020 à 10 h 35 min
Bonjour, que faire lorsque ces approches sont insuffisantes ?
Répondre
1. Claire Della Vedova dit :
  21 juin 2020 à 22 h 47 min
  Bonjour Mathilde,
  j’imagine que malgré les solutions l’hypothèse de normalité des résidus et/ou celles d’homogénéité ne sont pas satisfaites.
  Si c’est la normalité, et que la forme des résidus ne ressemble pas à une banane, on peut croiser les doigts en disant que le modèle linéaire est robuste par rapport à la non normalité. Si c’est l’hypothèse d’homogénéité, on peut modéliser la variance, ou utiliser un estimateur sandwich. Vous trouverez des infos sur la modélisation de la variance dans le livre de zuur : https://www.amazon.fr/Mixed-Effects-Models-Extensions-Ecology/dp/0387874577/ref=sr_1_1?__mk_fr_FR=ÅMÅŽÕÑ&dchild=1&keywords=alain zuur mixed models&qid=1592772346&sr=8-1
  Et pour les estimateurs sandwich, il me semble qu’il ya un exemple dans cet ouvrage : https://www.amazon.fr/R-Companion-Applied-Regression/dp/141297514X/ref=sr_1_4?__mk_fr_FR=ÅMÅŽÕÑ&dchild=1&keywords=companion for regression analysis&qid=1592772402&sr=8-4
  Bonne continuation.
  Répondre
Clélia dit :
4 septembre 2020 à 11 h 29 min
Bonjour Claire,
Merci pour cet article qui me permet de mieux comprendre la(les) démarche(s).
J’ai réalisé la transformation log puis la transformation BoxCox à la réponse. L’intéraction est toujours significative avec une statistique F de l’ordre de 8. Cependant avant la transformation elle était de 6. Que cela signifie-t-il ?
Ayant une intéraction significative, j’ai suivi votre démarche (2.3.4) en réalisant une anova à 1 facteur avec comparaison 2 à 2. Cependant dois-je utilisé les données transformées (« Fatigue_bc », mydata_bc$condition dans votre exemple) ou les données initiales (« Fatigue », mydata$condition dans votre exemple) ?
Répondre
1. Claire Della Vedova dit :
  5 septembre 2020 à 22 h 56 min
  Bonjour Clélia,
  l’augmentation de F vient sans doute de la diminution de l’erreur standard, a priori cela n’a pas trop d’importante. Pour les comparaisons multiples, il faut utiliser les variables avec la transformation boxcox.
  Bonne continuation.
  Répondre
Samuel dit :
13 janvier 2022 à 20 h 15 min
Merci infiniment pour cette série d’articles sur l’anova. C’était incomparablement plus clair et complet que tout ce que j’ai pu voir avant, et ça m’a permis d’enfin comprendre cette méthode et de pouvoir l’appliquer sur mes données.
Répondre
1. Claire Della Vedova dit :
  15 janvier 2022 à 16 h 23 min
  Bonjour Samuel,
  merci pour votre commentaire. Je suis ravie que les articles vous aient permis de comprendre la méthode et de l’appliquer. C’est très chouette !
  Bonne continuation
  Répondre
Dany dit :
13 septembre 2024 à 13 h 54 min
Merci beaucoup pour toutes ces notions, cela m’a beaucoup aidé 🙏🏼 Les explications sont tellement claires.
Répondre

ANOVA à 2 facteurs : quand les hypothèses ne sont pas satisfaites

Rappels concernant les hypothèses de validité de l'ANOVA à 2 facteurs

Une solution simple pour l'ANOVA à 2 facteurs : la transformation

Tutoriel

Visualisation des données

Mise en évidence des défauts de normalité et d'homogénéité

Réalisation de l'ANOVA à 2 facteurs

Evaluation de l'hypothèse de normalité des résidus

Evaluation de l'hypothèse d'homogénéité des résidus

Utilisation d'une transformation log de la réponse

Réalisation de l'ANOVA à 2 facteurs avec le log de la réponse

Evaluation de l'hypothèse de normalité

Evaluation de l'hypothèse d'homogénéité

Résultats

Utilisation d'une transformation BoxCox de la réponse

Evaluation de l'hypothèse de normalité des résidus

Evaluation de l'hypothèse d'homogénéité des résidus

Résultats

Conclusion

11 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)