Comprendre les degrés de liberté en statistiques

Crédits photos : « Jean Le Rohellec – www.phototropic.fr » 

Lorsqu’on réalise des analyses statistiques, il y a un terme qui revient régulièrement, et qui est plutôt énigmatique : les “degrés de liberté” !

Sous ce jargon, se cache une notion assez importante en statistiques, mais qui est difficile à expliquer. Elle est en lien avec:

  • la taille des échantillons (c.-à-d. le nombre d’observations),
  • l’estimation de la variabilité (écart type, variance) d’une variable au niveau de la population dont est issu l’échantillon
  • les valeurs critiques à dépasser sur les courbes de distribution théoriques pour que la pvalue d’un test statistique soit <0.05.

Qu’est-ce qu’un degré de liberté en statistiques ?

Les définitions que l’on peut trouver dans les ouvrages ou sur internet sont toujours assez incompréhensibles. Par exemple :

En statistiques le degré de liberté (ddl) désigne le nombre de variables aléatoires qui ne peuvent être déterminées ou fixées par une équation (notamment les équations des tests statistiques).

Pour tenter une explication, je vous propose un petit exemple.

Imaginons que l’on dispose d’un échantillon de taille n=3 observations, par exemple {2, 4, 6}. La moyenne de cet échantillon est égale à 4.

Si on réalise un autre échantillon, mais que l’on fixe comme contrainte que la moyenne doit de ce nouvel échantillon doit aussi être égale à 4, alors la première observation a la liberté de prendre n’importe quelle valeur (1 par exemple) ; la seconde observation a aussi la liberté de prendre n’importe quelle valeur (5 par exemple). En revanche, la troisième observation n’a aucune liberté puisque sa valeur est nécessairement 6, afin que (1+5+6) /3 = 4.

Le nombre de degrés de liberté associé à cet échantillon est donc 2, c’est à dire n-1.

Quel est le lien entre un degrés de liberté des analyses statistiques ?

Lorsqu’on réalise un test statistique, on calcule une statistique de test.

Par exemple, si on réalise un test de Student pour un échantillon (one sample student t test), afin de comparer une moyenne à une moyenne théorique), la statistique est :

\[\begin{equation}
t = \frac{\bar{x} – \mu_0}{s / \sqrt{n}}
\end{equation}\]

Ou :

  • t est la statistique du test,
  • x barre est la moyenne estimée (à partir des observations) de la population dont est issu l’échantillon, 
  • µ0 est la valeur de la moyenne théorique ou attendue sous l’hypothèse nulle (celle à laquelle vous comparez votre échantillon),
  • s est l’écart-type estimé de la population, à partir des observations de l’échantillon
  • n est la taille de l’échantillon

Et s est calculé, comme ceci :

\[
\begin{equation}
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2}
\end{equation}\]

Avec x barre la moyenne des observations.

Lorsqu’on estime l’écart-type d’une population à partir des observations d’un échantillon, on utilise la moyenne de la population comme point de référence. Cela consomme un degré de liberté, car une fois que la moyenne est connue, une des données est « déterminée » par les autres.

On retrouve d’ailleurs cette notion au dénominateur : le terme n-1 fait référence au nombre d’observations qui avaient la liberté de prendre n’importe quelle valeur, sous la contrainte que la moyenne soit égale à la moyenne de la population.

Si on revient à la statistique, on peut dire que pour la calculer, nous avons dû consommer un degré de liberté ;  elle est donc à n-1 degrés de liberté.
C’est pour cela qu’on l’écrit, en réalité, en faisant mention du nombre de degrés de liberté, en écrivant t(n-1) :

\[\begin{equation}
t(n-1) = \frac{\bar{X} – \mu_0}{s / \sqrt{n}}
\end{equation}\]

Mais ça ne s’arrête pas là !

Une fois que la statistique du test à n-1 degrés de liberté est calculée, elle est reportée sur la distribution de Student, elle aussi à n-1 degrés de liberté, afin de calculer la p-value (probabilité, sous l’hypothèse nulle, d’observer une valeur de statistique au moins aussi grande que celle obtenue).

C’est important de prendre conscience qu’il n’existe pas une seule distribution de Student, mais une infinité, correspondant chacune à un nombre de degrés de liberté différents.

Par conséquent, une même valeur de statistique peut correspondre à des p-values très différentes en fonction du nombre de degrés de liberté (et donc indirectement à la taille de l’échantillon).

Voici une illustration 

Degrés de liberté et distribution de Student

Par exemple, si on a obtenu une statistique de test de 2.05 pour 1 degrè de liberté, la p-value bilatérale est de l’ordre de 30% (figure en haut à gauche), alors qu’elle est de 4.3% pour 100 degrés de libertés, soit 101 observations (en bas à droite).

Et cette notion se retrouve dans tous les tests statistiques.
Si on utilise un test de Student pour comparer les moyennes de deux populations indépendantes, l’estimation de la statistique va consommer 2 degrés de libertés (1 pour chaque moyenne lors de l’estimation de l’écart type des 2 populations dont sont issus les échantillons).

\[\begin{equation}
t(n_1 + n_2 – 2) = \frac{\bar{X}_1 – \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
\end{equation}\]

Dans certains tests, comme l’ANOVA, la statistique (et la distribution théorique) dépendent de 2 valeurs de degré de liberté : un pour le numérateur et un pour le dénominateur : 

Avec :

  • k le nombre de groupes
  • N le nombre total des données

Voici une seconde série d’illustrations, pour visualiser l’évolution de la distribution F (de Fisher), en fonction de ses deux degrés de libertés:

Là encore, pour une même valeur de statistique, la conclusion du test peut être inversée en fonction des nombres de degrés de libertés. Dans l’exemple ci-dessus, une statistique de valeur 3 est non significative pour 1 et 20 degrés de libertés (pval = 0.0987), et significative pour 3 et 100 degrés de liberté (pval=0,042)

Conclusion

Comme nous venons de le voir, les degrés de liberté ont un rôle important dans les analyses statistiques, puisqu’ils conditionnent les résultats.

Il faut donc les prendre en considération en amont de l’expérimentation en anticipant les tests statistiques qui seront ensuite réalisés.

Et là façon la plus simple de les prendre en considération, c’est de réaliser un calcul du nombre de sujets nécessaires pour avoir une certaine probabilité (en général 80 à 90%) de mettre en évidence une différence significative. Ou si le nombre d’unités expérimentales est limité par des contraintes financières, logistiques, ou éthiques, de faire un calcul de puissance, pour avoir une idée de la probabilité de mettre en évidence une différence significative.

Pour plus d’information sur les calculs de puissance et nombre de sujets nécessaires, vous pouvez consulter les articles suivants :

 

 

Et vous ? Qu’en pensez-vous ? Dites-le moi en commentaire 👇👇👇

11 Responses

  1. Merci pour ce bel article.
    Comment faire un calcul de puissance sur un modèle linéaire avec des 3 variables et leurs interactions (à 2 et 3 composantes)?

  2. Merci Claire. Les graphiques roses du test de Fisher me perturbent, il va falloir que je regarde ça à tête reposée (pour comprendre les implications).

    Quand je parle de la différence entre les formules de calcul de l’écart-type (la division par n ou par n-1), j’explique que lorsqu’on ne prend qu’un échantillon dans une population normale, on a peu de chances de tomber sur les rares valeurs extrêmes. Utiliser directement la valeur de l’ET de l’échantillon conduirait à sous-estimer celui de la population. Il convient donc d’augmenter la valeur de l’ET de l’échantillon, ce qu’on fait en diminuant le dénominateur (quand on coupe le gâteau en moins de parts, chaque part est plus grosse), d’où le n-1. J’ai constaté que c’était plus parlant que les degrés de liberté, qui effectivement restent assez abstraits.

    Et n’hésitez pas à enrichir Wikipedia avec votre approche, c’est le principe du truc !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches « aide mémoire » (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.