Introduction à l’ANOVA à 2 facteurs

L’ANOVA à 2 facteurs est une extension de l’ANOVA à un facteur puisqu’elle permet d’évaluer les effets des modalités, non plus d’une variable catégorielle (ou facteur), mais de deux variables catégorielles, sur une réponse de type numérique continu. Il s’agit d’une méthode statistique classique, mais qui de mon point de vu, est un peu plus complexe à appréhender que l’ANOVA à un facteur, notamment du fait de la possible interaction des effets des deux facteurs sur la réponse.

NB : Avant de lire cet article, il vous sera peut être utile de lire ma série de trois articles que j’ai consacré l’ANOVA à un facteur : ici, et .

Table des matières

Contexte

Le plan factoriel

L’ANOVA à 2 facteurs est généralement employée pour analyser les résultats d’une expérimentation dans laquelle des individus, ou des unités expérimentales, ont été exposées, de façon aléatoire (randomisée), à l’une des combinaisons (ou croisement) des modalités des deux variables catégorielles. On parle alors de plan factoriel, 2 X 2 si les variables catégorielles possèdent deux modalités chacune, ou 2 X 3 par exemple si l’un des variables possède deux modalités et l’autre trois modalités, etc…

Le nombre d’observations au sein de chaque condition (croisement des modalités) est généralement identique, on parle de plan factoriel “équilibré”.

Prenons par exemple, le jeu de données “warpbreak”s du package “multcomp”. Les données sont issues d’un plan d’expérience visant à évaluer le nombre de ruptures de fils sur un métier à tisser, en fonction de deux variables catégorielles qui sont :

  • la tension exercée sur la laine, avec 3 modalités croissantes :Low / Medium / High
  • le type de laine (A/B).

Les résultats des plans expérimentaux contrôlés sont généralement présentés comme ceci.

ANOVA 2 facteurs avec R

Dans un plan d’expérience factoriel, les variables catégorielles sont dites contrôlées, car c’est l’expérimentateur qui choisit leurs modalités (ou niveaux).

De plus, la randomisation permet d’effacer, en moyenne, (là aussi on dit “contrôler”) les effets de variables non étudiées (on parle de variables confondantes, ou parasites).

Les données d’un plan factoriel peuvent être représentées comme ceci, avec les modalités de la première variable catégorielle sur l’axe des x, et les modalités de la seconde variable mise en évidence par des couleurs différentes.

ANOVA 2 facteurs avec R

L'étude observationnelle non contrôlée

D’un point de vu calculatoire, il est tout à fait possible de réaliser une ANOVA à 2 facteurs dans le cadre d’une étude observationnelle non contrôlée. Une étude observationnelle non contrôlée est une étude dans laquelle on observe les caractéristiques d’individus ou d’unités expérimentales disponibles.

Par exemple, le jeu de données “mtcars”, est issu d’une étude observationnelle dans laquelle 11 caractéristiques de 32 modèles de voitures répertoriés. En voici un extrait :

 

 mpgcyldisphpdratwtqsecvsamgearcarb
Mazda RX421.061601103.902.62016.460144
Mazda RX4 Wag21.061601103.902.87517.020144
Datsun 71022.84108933.852.32018.611141
Hornet 4 Drive21.462581103.083.21519.441031
Hornet Sportabout18.783601753.153.44017.020032
Valiant18.162251052.763.46020.221031

On pourrait alors, par exemple, envisager d’évaluer l’impact du type de transmission (am=0 pour une boite de vitesse automatique, am=1 pour une boite de vitesse manuelle), et du type de moteur (vs=0 pour un moteur en V, vs=1 pour un moteur droit) sur la distance parcouru avec un galon d’essence (variable mpg).

Ce type d’étude pose cependant un problème majeur : les autres variables ne sont pas contrôlées, et elles peuvent biaiser les effets des variables d’intérêt.

Par exemple, même si on ne connaît pas grand chose aux voitures, on peut penser qu’à priori, plus une voiture est lourde, moins la distance qu’elle peut parcourir avec un galon d’essence est importante.

Imaginons à présent, que les voitures les plus lourdes ont plutôt un moteur de forme droite qu’un moteur en forme de V. Dans cette situation, si l’ANOVA à 2 facteurs met en évidence un effet de la forme du moteur sur la distance parcourue, dans le sens d’une distance moins importante pour les moteurs droits, il se pourrait que derrière l’effet de la forme du moteur, se cache, en réalité, l’effet du poids des voitures. Le poids de la voiture est alors un facteur de confusion ( on dit aussi parfois variable confondante).

Dans cette situation, on peut contrôler à posteriori (c’est à dire lors de l’analyse statistique) les effets d’une ou plusieurs variables confondantes, en les ajoutant dans le modèle de régression (l’ANOVA est un modèle de régression). On dit qu’on ajuste sur les autres variables. Mais dans ce cas, on est plus dans le cadre de l’ANOVA à 2 facteurs, c’est autre chose, une analyse de covariance par exemple.

L'interaction des variables

Définition

Le plan d’expérience factoriel permet de limiter le nombre d’unités expérimentales employées (par rapport à une étude réalisée avec chacune des variables séparément), mais il permet surtout d’évaluer si les deux variables catégorielles agissent conjointement sur la variable réponse, ou non. On parle alors d’interaction.

Si l’évolution de la réponse en fonction des différentes modalités de la première variable catégorielle, ne dépend pas des modalités de la seconde variable catégorielle, alors il n’existe pas d’interaction entre les deux variables. Si au contraire, on observe une modification de cette évolution, soit par une augmentation de l’effet de la première variable, soit par une diminution, alors il existe une interaction.

Visualisation

En prenant pour contexte le plan expérimental des métiers à tisser, présenté plus haut, voici un exemple des différents cas de figure que l’on pourrait rencontrer.

Remarque : les points représentent la moyenne.

ANOVA 2 facteurs avec R

Sur la première représentation (à gauche), l’évolution du nombre de ruptures en fonction du niveau croissant de tension est identique pour les deux types de laines, puisque les profils sont parallèles. Il n’y a donc pas d’interaction.

Sur la seconde représentation, le nombre de ruptures en fonction du niveau croissant de tension, augmente plus rapidement pour la laine de type B. Il y a alors une interaction entre la tension du fil et le type de laine avec ici un effet synergique. Lorsque les profils ont la même direction, mais avec des “vitesses” différentes, on parle parfois d‘interaction “quantitative”.

Sur la dernière représentation, les évolutions du nombre de ruptures en fonction de la tension sont contraires. Lorsque les profils se croisent, l’interaction est parfois appelée “qualitative”.

Interprétation

Lorsqu’une interaction qualitative est mise en évidence par l’ANOVA à 2 facteurs, il n’est pas possible de conclure sur les effets propres (individuels) de chacune des deux variables.

En effet, sur le premier graph, celui mettant en évidence une absence d’interaction, on peu dire qu’en moyenne (sur les deux types de laine considérés) le nombre de ruptures de la tension L <;au nombre de ruptures de la tension M < nombre de ruptures de la tension H. De même, on peut dire qu’en moyenne (sur les 3 niveau de tension) nombre de ruptures de la tension A < nombre de ruptures de la tension B. On peut tirer les mêmes conclusions sur la deuxième représentation. En revanche sur le 3ème graph, celui de l’interaction qualitative, on ne peut pas dire que le nombre de ruptures L < nombre de ruptures M < nombre de ruptures H car cela dépend du type de laine. De la même façon on ne pet pas dire que le nombre de ruptures de la laine A est inférieur à celui de la laine B, car cela dépend du niveau de tension.

Principe de l'ANOVA à 2 facteurs

De façon similaire à l’ANOVA à un facteur, le principe de l’ANOVA à  2 facteurs repose sur la dispersion totale des données, et sa décomposition en quatre origines :

  • la part imputable au premier facteur
  • la part imputable au second facteur
  • la part imputable à l‘interaction des 2 facteurs
  • la part non expliquée, ou résiduelle.

Imaginons que les données de l’expérimentation en plan factoriel 2×3 sur les métiers soient celles-ci :

 

ANOVA à deux facteurs avec R

Sur le plot ci-dessus, on voit que le nombre de ruptures a tendance à être plus élevé pour les tensions M puis H. Une partie de la dispersion du nombre de ruptures est donc imputable aux modalités M et H puisque par rapport à la modalité L, elles tirent le nombre de ruptures vers le haut. Cette part de dispersion ou variabilité est appelée variabilité factorielle (du premier facteur).

De même , on voit que le nombre de ruptures à tendance a être plus élevé pour la laine B que pour la laine A. Une partie de la dispersion du nombre de ruptures est donc imputable au type de laine puisque la laine B tire les valeurs vers le haut. Cette part de dispersion ou variabilité est également appelée variabilité factorielle (mais du second facteur cette fois).

On voit encore qu’il existe un effet synergique entre le type de laine et la tension, puisque le nombre de ruptures pour les combinaisons Tension M et Laine B, ainsi que Tension H et laine B est supérieur au nombre attendu par une simple addition des effet de la tension et du type de laine. Cette part de dispersion ou variabilité est simplement appelée variabilité de l’interaction.

Enfin, pour une même condition (combinaison d’une tension et d’un type de laine), on voit que les nombres de ruptures ne sont pas strictement identiques, mais qu’il existe une certaine variabilité. On parle de variabilité intra-classe. Cette variabilité est aussi appelée variabilité résiduelle, car c’est la part de variabilité qui reste lorsque les deux variabilités factorielles et la variabilité de l’interaction sont soustraite à la variabilité totale. On considère que la variabilité résiduelle est le bruit des données, car elle correspond à la part qui n’est pas expliquée.

L’ANOVA à 2 facteurs va consister à déterminer, à l’aide d’un test statistique si chacune des parts de dispersion (imputable aux facteurs étudiés et à leur intercation), est significativement supérieure à la part résiduelle.

Conclusion

J’espère que cette introduction à l’ANOVA à 2 facteurs répondra à une partie de vos interrogations et de vos attentes sur cette méthode statistique. Dans un prochain article, j’aborderai les éléments calculatoires de cette approche.

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee

Crédits photos : MBatty

Poursuivez votre lecture

15 réponses

  1. Par rapport à ma demande précédente qui était d’avoir les enseignements sur quant et pourquoi utiliser un test stat, je me rend compte que de détails sur le test (ANOVA à 2 facteurs …); Tout est résolu… Donc je suivrai le détail de chaque test pour comprendre enfin quant et pourquoi….
    Merci claire

  2. Scinsères salutations, que dieu vous protège…c’était vraiment un article très utile.
    SVP, s’il y aura une possibilté, je voudrai avoir une brève explication de cette fonction : “””MorphoTools: a set of R functions for morphometric analysis”””
    à la prochaine.

    1. Bonjour Youcef,
      je ne connais pas du tout ce package…je garde la suggestion dans un coin de ma tête.
      Bonne continuation.

  3. Merci Claire pour cet article !
    Vivement l’article “ANOVA à 2 facteurs : partie 2 – la pratique ” comme pour votre série d’articles sur l’ANOVA à 1 facteur !

  4. Bonjour,
    Serait-il possible d’expliquer de manière plus générale l’interprétation du graphique “autre interaction”?
    Merci à vous,
    Manon.

    1. Bonjour,

      votre message me permet de me rendre compte que les titres des graphes sont incomplets.
      Le graphe “interaction” montre une interaction parfois dit de type “quantitatif, car les évolutions du nombre de ruptures en fonction des tensions ont le même schéma pour les deux types de laine, mais un type (le B) connait une évolution plus rapide.
      Le graphe nommé “autre interaction” montre une interaction parfois dit de type qualitatif . Ici l’évolution du nombre de ruptures en fonction de la tension dépend du type de laine. L’évolution est décroissante pour le type A et croissante pour le type B. De ce fait on ne peut pas dire que le nombre de ruptures augmente en fonction de la tension parce que cela dépend du type de laine. Et inversement on ne peut pas dire que le nombre de ruptures est plus important pour la laine B, car cela dépend du niveau de tension.
      J’espère que cela vous aide.
      Bonne continuation.

  5. bonjour Claire
    merci pour cet article qui m’aide vraiment à mieux comprendre. Peut-on utiliser ces modèles si la variable réponse n’est pas de type variable continue mais binomiale (comme erreur/pas d’erreur), le but étant par exemple d’observer le taux d’erreur en fonction de deux variables catégorielles?

    1. Bonjour Nathalie,

      non dans ce cas là il faut utiliser une régression logistique. Allez voir les articles : La régression logistique par l’exemple et Introduction à la régression logistique.
      Bonne continuation !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.