Analyse de la variance (ANOVA) à un facteur : partie 1

L’Analyse de la variance à un facteur (ou one-way ANOVA) est une méthode statistique extrêmement répandue, qui est employée pour comparer plus de deux moyennes. Elle est dite à un facteur, car les moyennes sont relatives aux différentes modalités d’une seule variable, ou facteur.

Cette méthode est un peu déconcertante au début parce que ANOVA veut dire “ANalysis Of VAriance”, que la variance est un paramètre de dispersion, et qu’elle est employée pour comparer des moyennes qui sont des
paramètres de position ! Ca peut sembler paradoxale, mais je vais essayer de vous expliquer pourquoi.

Contexte de l'analyse de la variance à un facteur

En prenant comme exemple le jeu de données iris, une analyse de la variance à un facteur pourrait, par exemple, être employée pour comparer les moyennes (les traits horizontaux sur le plot) des longueurs des sépales des trois espèces d’iris, et répondre ainsi à la question “est ce que ces moyennes sont globalement différentes ou pas ?“

Note : ici, le facteur est la variable Species qui contient 3 modalités ou groupes (setosa, virginica et versicolor). Pour plus de lisibilité le nombre de données a été réduit à 10 par espèces.

Principe de l'analyse de la variance à un facteur

Le principe de l’ANOVA repose sur la dispersion des données (c’est à dire l’écartement des données autour de la moyenne).

L’idée derrière l’Analyse de la variance à un facteur est de dire que la dispersion des données a deux origines :

d’une part, l’effet du facteur étudié. Par exemple, sur le plot précédent, on voit que les longueurs des sépales de l’espèce versicolor ont tendance à être plus élevées que celles de l’espèce setosa. Lorsque toutes les fleurs sont considérées ensemble, une partie de la dispersion est donc imputable aux modalités versicolor et virginica, puisque, par rapport à l’espèce setosa, elles tirent les valeurs vers le haut. Cette part de dispersion ou variabilité est appellée variabilité factorielle ou variabilité inter-classe.
et d’autre part, la variabilité intrinsèque des fleurs. Toujours sur le plot précédent, on voit que, pour une même espèce, les longueurs des sépales ne sont pas strictement identiques, mais qu’il existe une certaine variabilité. On parle de variabilité intra-classe. Cette variabilité est aussi appelée variabilité résiduelle, car c’est la part de variabilité qui reste lorsque la variabilité factorielle est soustraite à la variabilité totale. On considère que la variabilité résiduelle est le bruit des données,car elle correspond à la part qui n’est pas expliquée.

Le principe de l’analyse de la variance est de déterminer, à l’aide d’un test statistique, si la part de dispersion imputable au facteur étudié, est significativement supérieure à la part résiduelle.

Si la dispersion factorielle est significativement supérieure à la dispersion résiduelle (comme dans le plot de gauche ci dessous), alors cela signifie que la dispersion des données, autour des moyennes de chaque modalité, est faible par rapport à la dispersion des moyennes autour de la moyenne générale (traits magenta). Et si les moyennes relatives à chaque modalités sont très dispersées, en même temps que la variabilité intra-classe est faible, alors cela signifie que les moyennes sont globalement différentes.

A l’inverse, si la dispersion factorielle est du même ordre de grandeur que la disepersion résiduelle (comme sur le plot de droite ci dessous), alors cela signifie que les moyennes ne sont pas globalement différentes.

Les traits verticaux en pointillés illustrent la dispersion des moyennes de chaque espèce, par rapport à la moyenne générale (lorsque toutes les données sont considérées ensemble).Ces données ne sont pas celles du jeu de données iris, elles ont été simulées.

Processus détaillé de l'analyse de la variance à un facteur

Première étape : calcul de la dispersion totale des données

La première étape de l’ANOVA à un facteur, consiste à mesurer la dispersion totale des données, en employant comme paramètre la somme des distances au carré, entre chaque observation et la moyenne globale (ou Grand Mean). On appelle ce paramètre la Somme des Carrés Totaux (SCT). En, anglais on l’apelle Total Sum of Squares, son abréviation est SST.

Avant de voir la formule de calcul de la Somme des Carrés Totaux, posons quelques repères :

le facteur étudié (ici Species) comporte k modalités (ici 3).
le nombre de données, pour chacune des modalités, est noté n_i(dans le jeu de données iris original, n1 = n2 = n3 = 50).
le nombre total de données est noté N dans le jeu de données irisoriginal N=150).
les observations (ici les longueurs des sépales) sont notées yij.
i est l’indice des modalités, ici, il va de 1 à k.
j est l’indice de l’observation au sein d’une modalité, ici il va de 1 à 50.
les moyennes des observations de chaque modalité sont notée y_bar_i.

\[\overline {y_i} = \frac{1}{n_i}\sum_{i=1}^{n_i}(y_{ij})\]

la moyenne générale des observations (appellée aussi Grand Mean), est notée y_bar (tout court)

\[\text{Grand Mean} = \overline{y} = \frac{1}{N} \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij}) \]

Comme dit précédemment, la Somme des Carrés Totaux (SCT) correspond à la somme des distances au carré entre chaque valeur observée et la
moyenne globale ( Grand Mean) :

\[\text{SCT} = \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij } – \overline{y})^2 \]

La somme des carrés totaux peut s’illustrer comme ceci, ici, pour l’illustration le nombre de données à été réduit à 10 par espèces.

Décomposition de la dispersion totale

La seconde étape, de l’ANOVA à un facteur, consiste, comme expliqué précédemment, à décomposer la Somme des Carrés Totaux (SCT) en deux parties :

celle imputable au facteur, c’est-à-dire imputable aux modalités de la variable étudiée, ici l’espèce. Cette partie est appelée la Somme des Carrés Factoriels (SCF). Elle est appelé Factorial Sum of Squares (SSF) en anglais.
et la partie restante, qui est appellée la Somme des Carrés Résiduels (SCR). Elle est appelée Error Sum of Squares (SSE) en anglais.

La Somme des Carrés Factoriels se calcule de la même façon que la Somme des carrés Totaux, à la différence que les valeurs observées (yij) sont remplacées par les moyennes des groupes auxquels elles sont rattachées. Les écarts considérés sont donc ceux entre les moyennes des groupes et la moyenne générale.

\[ SCF = \sum_{i=i}^{k} n_i \times(\overline{y_i} – \overline{y})^2\]

Le graph ci dessous illustre la somme des carrés factoriels :

La Somme des Carrés Résiduels s’obtient par simple différence :

SCR = SCT − SCF

La variance résiduelle peut aussi se calculer avec la formule déjà vue précédemment, en remplaçant la moyenne générale par la moyenne des groupes, comme cela :

\[\text{SCR} = \sum_{i=1}^{k}\sum_{j=1}^{n_j} (y_{ij } – \overline{y_i})^2 \]

On peut illustrer la somme des carrés résiduels comme ceci :

Calcul des variance factorielle et résiduelle

Après avoir calculé les sommes des carrés factoriels et résiduels, il est nécessaire de calculer les variances de ces deux sources de variations. La variance n’est rien d’autre que la Somme des Carrés divisées par son nombre de degrés de liberté (degrees of freedom en anglais). En pratique, le nombre de degrés de liberté de la part factorielle est k-1, et celui de la part résiduelle est N-k.

Les variances calculées ici sont aussi appeleés Carrés Moyen, ou Mean Squares en anglais.

\[\text{Variance Factorielle} = \frac{SCF}{k-1} \]

\[\text{Variance Résiduelle} = \frac{SCR}{(N-k)} \]

Test statistique

Dans la quatrième étape de l’ANOVA à un facteur, un test statistique est employé pour déterminer si la variance factorielle est significativement supérieure à la variance résiduelle. Il s’agit du test F du rapport de ces deux variances.

Sous certaines hypothèses (normalité et homogénéité des résidus (écarts entre les observations et les moyennes des groupes), la statistique du test F suit un loi de Fisher à k-1 et N-k degrès de liberté.

\[ F_{(k-1, N-k)} =\frac{ \frac{SCF}{(k-1)}}{\frac{SCR}{(N-k)}} \]

Si la valeur de F est supérieure à la valeur seuil théorique selon la distribution de Fisher, avec un risque alpha donné (5% en général), alors cela signifie qu le test est significatif. Dans ce cas, la variabilité factorielle est significativement supérieure à la variabilité résiduelle (ou au bruit). Et on conclut que les moyennes sont globalement différentes.

Hypothèses de ll'analyse de la variance à un facteur

Je disais plus haut que l’ANOVA à un facteur est employée pour répondre à la question “est ce que les moyennes sont globalement différentes” ?

De façon plus précise, l’expression “globalement différente” veut dire “est ce qu’au moins deux moyennes, (parmi les k observées) sont significativement différentes? “.

Les hypothèses nulle et alternative de l’ANOVA à un facteur sont alors :

\[H_0 : µ_1 = µ_2 =….=µ_k \]

\[H_1 : \exists (i,j)\ tel\ que : µ_i \ne µ_j \]

Note : les hypothèses sont faites au niveau des populations, c’est pour cela qu’on utilise la lettre grec µ. Les y_ij_barre correspondent aux moyennes des échantillons.

Le modèle ANOVA est un modèle linéaire

Bien que cela ne soit pas complètement intuitif aux premiers abords, l’ANOVA est un modèle régression linéaire qui fait l’hypothèse d’une moyenne par modalité du facteur étudié. Il s’écrit :
\[ y_{ij}= \overline{y_i} + e_{ij}\]

eij correspondent aux résidus (les écarts entre les observations et les moyennes des groupes auxquels elles sont relatives). Ce sont sur ces résidus que sont évalués les hypothèses de validité du test F.

Présentation des résultats

Les résultats de l’ANOVA à un facteur sont généralement présentés dans
une table d’analyse de variance, comme ceci :

Source	Somme des carrés	ddl	Carrés Moyens	Fvalue	pvalue
Facteur	SCF	k-1	SCF / (k-1)
Résidus	SCR	N-k	SCR / (N-1)	F	p
Total	SCT	N-1

Les conditions de validité de l'analyse de la variance

Comme évoqués plus haut, les résultats du test F sont valides, si :

les résidus sont indépendants.
les résidus suivent une loi Normale de moyenne 0 et de variance = variance résiduelle.
les résidus sont homogènes.

Cela se vérifie avec un diagnostique de régression et/ou l’utilisation de tests statistiques adéquats.

Si ces hypothèses ne sont pas vérifiées, il est toujours possible d’appliquer une transformations au niveau des réponses (log par exemple), ou bien d’utiliser une ANOVA non-paramétrique (test de Kruskal-Wallis), ou encore de réaliser une ANOVA basée sur des tests de permutations.

Pour aller plus loin

Je vous montrerai dans un prochain article comment réaliser une ANOVA à un facteur avec R, c’est-à-dire quelles sont les commandes à utiliser, comment vérifier les hypothèses de validité, et comment faire les tests-post hoc (les comparaisons deux à deux pour déterminer quelles sont les moyennes qui sont différentes).

En attendant, j’espère que ce premier article sur l’ANOVA à un facteur permettra aux débutants de bien comprendre la théorie de cette approche statistique.

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee

Poursuivez votre lecture

Étiqueté modélisation

8 réponses

Dany OTRON dit :
12 juillet 2018 à 12 h 03 min
Je tiens à vous remercier pour cet article est très enrichissant et facile à comprendre.
Répondre
Youcef GUEFASSA dit :
19 juillet 2018 à 20 h 14 min
Une brève explication très facile à comprendre. Très grand merci
Le grand problème –pour moi – c’est que je traite toujours un nombre limité d’échantillons (manque des moyens) donc je suis obligé d’utiliser un test de comparaison non paramétrique (comme Kruskal-Wallis) .
Répondre
Anonyme dit :
15 octobre 2019 à 22 h 16 min
Bonjour,
Il me semble que la formule de la SCF contient une erreur : d’une part, il manque le symbole de la somme, et d’autre part, le dénominateur (k-1) ne devrait-il pas apparaître uniquement dans les carrés moyens ?
Merci par ailleurs pour cette explication claire.
Répondre
1. Claire Della Vedova dit :
  16 octobre 2019 à 11 h 26 min
  Bonjour,
  oui vous avez raison, j’ai corrigé
  Merci
  Répondre
Cedric dit :
11 janvier 2020 à 12 h 00 min
Article très intéressant et enrichissant . Merci beaucoup. Cst très bien expliqué. Cependant il ya une partie assez floue pour moi . Quand jai lu jai compris que SCR et SCF etaient des variances. Alors je ne comprend pas pq leurs variances ont été calculés plus bas. Alors je me demande : quelle est la nature de SCF et SCR ? Mercii
Répondre
1. Claire Della Vedova dit :
  11 janvier 2020 à 17 h 51 min
  Bonjour,
  SCR et SCF sont des sommes des carrés. Les variances sont calculés à partir des SCR et SCF, en divisant par leur nombre de degrés de liberté respectifs.
  Bonne continuation
  Répondre
Ryma dit :
8 juin 2021 à 1 h 22 min
Un grand merci .
Répondre
hussen dit :
29 mai 2023 à 15 h 43 min
Une explication claire, un grand merci à vous.
Répondre

DellaData

Transformez vos données en connaissances