Analyses statistiques descriptives de données numériques – partie 1
Les analyses statistiques descriptives ont un rôle très important car elles permettent de donner une première intelligibilité aux données. Comme je l’ai expliqué ici, les analyses statistiques descriptives consistent à calculer des paramètres qui résument les données étudiées. Ces paramètres sont de deux types. Il s’agit d’une part de paramètres de position, qui renseignent sur un niveau, et d’autre part, des paramètres de dispersion, qui renseignent sur l’espacement des données, notamment autour de la moyenne. Outre ces paramètres, l’intervalle de confiance à 95% de la moyenne est très fréquemment estimé
Dans cet article, je vais vous parler des principaux paramètres de position et de dispersion généralement utilisés dans les analyses statistiques descriptives. Nous allons voir quel type d’information ils apportent les uns par rapport aux autres, et quels sont les éventuelles difficultés liées à leurs estimations.
1. Les paramètres de position
Les paramètres de position les plus couramment employés dans les analyses statistiques descriptives sont la moyenne, la médiane, le min, le max, et les quartiles 1 et 3. La moyenne et la médiane sont deux paramètres différents de position centrale (central tendency).
La moyenne
La moyenne ne pose généralement pas de problème parce qu’il s’agit d’un paramètre intuitif, qui est utilisé depuis l’école primaire.
Imaginons que l’on mesure individuellement la masse de 100 olives. La masse est une variable dite aléatoire continue car elle peut prendre une infinité de valeurs ; elle est notée X. Dans l’échantillon observé cette variable aléatoire X a pris les valeurs x1, x2…x100, par exemple 2.23, 1.72, ….0.96,
La moyenne arithmétique est estimée par l’estimateur :
La médiane
La médiane, contrairement à la moyenne, n’est pas un paramètre intuitif, et de ce fait pose plus souvent problèmes. Pour calculer la médiane d’une variable aléatoire (la masse d’une olive par exemple), il est nécessaire de classer les valeurs observées de la plus petite à la plus grande. La médiane correspond à la valeur qui partage ces valeurs ordonnées en deux parties de même effectif.
Une des difficultés liées à la médiane est le fait que son mode de calcul est différent selon que la taille de l’échantillon est un nombre pair ou impair. Lorsque la taille de l’échantillon est un nombre impair, la médiane est une valeur réellement observée ; celle qui est entre les deux parties de même taille. Par exemple si l’échantillon est de taille 5, et contient les valeurs 2, 3, 8, 12, 19 ; la médiane est la valeur 8.
Lorsque la taille de l’échantillon est un nombre pair, la médiane est la moyenne des valeurs qui font la jonction entre les deux parties, c’est à dire la dernière valeur de la première partie de l’échantillon et la première valeur de sa deuxième partie.
Par exemple, si l’échantillon contient la valeur 50 en plus des valeurs précédentes,
soit 2, 3, 8, 12, 19, 50, alors la médiane est la moyenne de 12 et 8, soit 10.
Saisir la différence entre la moyenne et la médiane n’est pas forcément évident de premier abord. Un petit exemple, emprunté à Thomas qui se reconnaitra, devrait aider à la compréhension. Imaginons une entreprise composée de 10 employés et d’un dirigeant. Les employés ont un salaire de 1200 euros par mois et le dirigeant un salaire de 1500 euros par mois. Le salaire moyen de cette entreprise est de (10*1200 + 1500) /11, soit environ 1227 euros.
Pour calculer le salaire médian de l’entreprise, on ordonne les valeurs, et on cherche celle qui coupe les 11 valeurs en 2 parties de mêmes taille, c’est à dire la 6ème valeur, soit 1200 euros.
1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 1500.
Imaginons à présent que le salaire du dirigeant passe de 1500 à 6000 euros, et que celui des salariés reste à 1200 euros. Le salaire moyen est à présent de 1636 euros, il a augmenté de 33% !
Le salaire médian, en revanche, est toujours de 1200 euros, il n’a pas augmenté !
1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 1200, 6000.
C’est aussi pour cette raison que l’on dit que la moyenne est sensible aux valeurs extrêmes alors que la médiane ne l’est pas.
Il n’y a pas de paramètre meilleur, ou plus juste que l’autre ; la moyenne et la médiane reflètent simplement des valeurs de tendance centrales différentes.
Les 1er et 3ème quartiles
Les quartiles 1 et 3 sont de même nature que la médiane (que l’on peut aussi appeler second quartile). Pour calculer le premier et le troisième quartile (nommés Q1 et Q3), il est toujours nécessaire d’ordonner les valeurs de la plus petite à la plus grande. En revanche, on ne sépare plus l’échantillon de valeurs en deux parties de mêmes effectifs, mais en quatre parties de mêmes effectifs. Le premier quartile correspond à la valeur de l’échantillon qui sépare la première partie (inférieure) des données des 3 autres parties. Autrement dit, il s’agit de la valeur qui sépare les 25% inférieurs des données.
De la même façon, le troisième quartile correspond à la valeur de l’échantillon qui sépare les trois premières parties, de la dernière (supérieure). Il s’agit donc de la valeur qui sépare les 25% supérieur des données.
Par exemple, avec cet échantillon de taille 12 :
2, 3, 8, 12, 19, 50, 62, 73, 78, 82, 99, 100
Pour calculer la médiane, on coupe l’échantillon en 2 parties de taille 6, soit entre les valeurs 50 et 62. La médiane est alors la moyenne de ces deux valeurs, c’est à dire 56.
Pour calculer les premier et troisième quartiles, on coupe cet échantillon en 4 parties de même taille, soit les valeurs 2, 3, 8 ensemble, puis les valeurs 12, 19, 50 ensemble, puis 62, 73, 78 ensemble, et enfin 82,99, et 100 ensemble. Le premier quartile (Q1) est la moyenne des valeurs à la jonction des 1ère et 2ème parties, soit la moyenne de 8 et 12, c’est à dire 10. De même le troisième quartile est la moyenne des valeurs à la jonction de la troisième et quatrième parties, soit la moyenne de 78 et 82, c’est à dire 80.
Le premier et le troisième quartile, ainsi que la médiane, sont représentés sur les boxplots. Ils correspondent respectivement aux limites inférieure et supérieure de la boite, et au trait horizontal à l’intérieur de celle-ci.
Sur ce graph réalisé avec la librairie ggplot2, les valeurs des quartiles sont un peu différentes de ceux indiqués dans le texte précédent. Ceci est dû au fait qu’il existe, en réalité, plusieurs façons de calculer la médiane, et les quartiles. Le logiciel R n’en propose pas moins de 7 ! Pour les connaître, consultez l’aide de la fonction quantile .
L’intérêt de ces 2 paramètres (Q1, Q3) réside surtout dans le fait qu’ils permettent, en comparant leur éloignement avec la médiane, d’évaluer un éventuel défaut de symétrie dans la distribution des valeurs mesurées. Comme le montrent Wilcox et Rousselet (voir la figure 1, panels A, B, C et D), lorsqu’il existe une asymétrie marquée des valeurs mesurées, cela peut entraîner une asymétrie dans la distribution de la moyenne de l’échantillon. Dans ce cas, les formules classiques d’estimation de l’intervalle de confiance de la moyenne peuvent s’avérer biaisés (cf. plus bas). Il est donc intéressant de pouvoir de détecter une éventuelle asymétrie des valeurs mesurées, pour ensuite choisir une méthode robuste d’estimation de l’intervalle de confiance de la moyenne (voir plu bas).
Le min et le max
Calculer les valeurs minimal et maximal de l’échantillon permet de vérifier la cohérence des valeurs extrêmes afin de mettre en évidence la présence d’éventuels outliers, et ou d’éventuelles erreurs lors du report des valeurs mesurées.
2. Les paramètres de dispersion
Il existe trois paramètres de dispersion (autour d’une valeur centrale) classiquement calculés dans les analyses statistiques descriptives :
- la variance
- l’écart type (qui est la racine carrée de la variance)
- l’intervalle interquartile.
La variance et l’écart type sont des paramètres qui mesurent l’étalement des donnés autour de la valeur centrale “moyenne”, alors que l’intervalle inter quartile mesure la répartition des données autour de la valeur centrale “médiane”.
La variance
Imaginons toujours que l’on mesure la masse de 100 olives. Comme expliqué précédemment, la masse est une variable aléatoire continue (notée X) qui peut prendre une infinité de valeurs, mais qui dans l’échantillon observé a pris les valeurs x1, x2…x100.
Il existe classiquement deux estimateurs (c’est à dire 2 façons) d’estimer la variance : un estimateur la variance de la population (toutes les olives), et un estimateur de la variance de l’échantillon observé (la variance des masses mesurées des 100 olives constituant l’échantillon,).
La variance de la population se calcule en sommant les écarts au carré de chaque valeur avec la moyenne, puis en divisant cette somme par le nombre de données.
La variance est donc la moyenne arithmétique des carrés des écarts à la moyenne.
La variance de la variable aléatoire X dans l’échantillon observé se calcule quasiment de la même façon si ce n’est que la somme des écarts au carré est divisé par n-1.
Dans 99.99% des cas, c’est celle-là qui est reportée dans les analyses statistiques descriptives. C’est d’ailleurs cette formule qui est employée par la fonction var du logiciel R.
Pourquoi on utilise les écarts au carré pour mesurer la dispersion?
Parce que ça permet que les écarts positifs (lorsque la valeur est supérieure à la moyenne) et négatifs (lorsque la valeur est inférieure à la moyenne) ne se compensent pas. On pourrait utiliser un écart absolu, mais la manipulation des grandeurs est alors plus complexe.
Une autre raison est que les écarts aux carrés, ont semble-t-il, un sens du point de vu de la géométrie, et qu’historiquement les mathématiques étaient envisagés sous cet angle. C’est donc un peu aussi une habitude historique qui présente des avantages calculatoires.
Pourquoi on utilise n-1 plutôt que n au dénominateur pour estimer la variance?
Parce que l’estimateur de la variance (cad la méthode de calcul) qui utiliserait n au dénominateur, comme ci-dessous, est un estimateur biaisé.
Cela veut dire que cet estimateur fournit des estimations qui, en moyenne, s’écartent systématiquement de la valeur à estimer. Il est donc à légèrement à côté de la plaque !
En revanche l’estimateur qui utilise n-1 au dénominateur, comme ceci:
est en moyenne non biaisé. C’est donc celui-là qu’on utilise !
Concrètement, ça s’interprète comment une variance ?
La variance d’une variable s’exprime dans l’unité au carré de cette variable. On ne peut donc pas comparer les variances de variables ayant des unités différentes, puisque cela n’a pas de sens de comparer, par exemple, des mètres carrés avec des grammes carrés.
La seule chose que l’on peut dire c’est que plus la variance d’une variable est élevée, plus cette variable est capable de prendre des valeurs éloignées de la moyenne
L’écart type
L’écart type est simplement la racine carrée de la variance.
Un des avantages de l’écart type sur la variance c’est qu’il s’exprime dans l’unité de la variable.
L’écart type est encore intéressant car il est utilisé pour estimer l’erreur standard de la moyenne (ou sem pour standard error mean), qui elle-même entre dans l’estimation de l’intervalle de confiance de la moyenne.
Où tα est le quantile d’ordre alpha (ça se dit comme ça !) de la loi de Student à n-1 degrés de libertés.
Une autre raison pour laquelle l’écart type est un paramètre remarquable tient à la règle dite 68-95-99.7. Cette règle indique que si la variable aléatoire X suit une loi normale alors:
- 68% des valeurs se situent dans l’intervalle de la moyenne ± 1s
- 95% des valeurs se situent l’intervalle de la moyenne ± 2s
- 99.7% des valeurs se situent dans l’intervalle de la moyenne ± 3s
By Dan Kernler – Own work, CC BY-SA 4.0 https://commons.wikimedia.org/w/index.php?curid=36506025
L’intervalle interquartile
L’intervalle interquartile est simplement l’intervalle entre le premier et le troisième quartile, soit [Q1, Q3].
3. L’intervalle de confiance de la moyenne
Dans les analyses statistiques descriptives, lorsqu’une moyenne est estimée elle est généralement accompagnée d’un intervalle de confiance à 95%.
L’intervalle de confiance à 95% d’une moyenne est défini par :
t97.5% est le quantile d’ordre 0.975 de la loi de Student à n-1 degrés de libertés. On utilise t97.5% et pas t95% car on laisse 2.5% des valeurs (les plus extrêmes) de chaque côté de la distribution. Autrement dit, seules 5% des estimations de la moyenne sont supérieures, en valeur absolu, à la valeur du quantile t97.5%.
ce quantile correspond à la valeur seuil (ou limite) au-delà de laquelle seules 5 % des moyennes sont supérieures en valeur absolue.
Malgré ce qu’on peut lire parfois, l’intervalle de confiance à 95% d’une moyenne n’est pas l’intervalle de valeurs dans lequel la vraie moyenne (celle de la population) à une probabilité de 95% de se trouver. La moyenne de la population n’est pas une variable aléatoire, c’est une constante, elle a une valeur fixe. La moyenne de la population n’est donc pas associée une probabilité de “tomber” dans un intervalle. Elle est dans l’intervalle ou elle ne l’est pas.
En revanche, l’intervalle de confiance est une variable aléatoire. En effet, si on réalise un deuxième échantillon, dans les mêmes conditions que le premier, alors on va estimer une deuxième moyenne, et un deuxième écart type. Ces deux estimations vont alors nous servir à construire un deuxième intervalle à 95%, qui lui aussi contient, ou pas, la moyenne de la population.
Si on recommence ce processus 100 fois et que les échantillons sont représentatifs de la population, alors en moyenne, 95 des 100 intervalles estimés contiendront la vraie moyenne.
Ainsi, chaque intervalle de confiance à 95% a donc une probabilité théorique de 0.95 de contenir la vraie moyenne. Cette fréquence de 95/100 provient des propriétés de la distribution de Student.
En pratique on ne calcule qu’un seul intervalle de confiance à 95% (puisque généralement on ne réalise qu’un seul échantillon). Cet intervalle de confiance à 95% peut donc être défini comme une plage de valeurs ayant une probabilité de 95% de contenir la vraie moyenne (celle de la population). A première vu cela peut paraître de la sémantique, mais la distinction est importante : la confiance que l’on a est dans l’intervalle, pas dans la moyenne de la population car elle n’est pas associée à une probabilité.
L’intervalle de confiance d’une moyenne peut être estimé selon l’équation rapportée plus haut, c’est à dire en employant un quantile dérivé de la loi de Student. Lorsque la taille de l’échantillon est grand (n ≥ 30 en théorie), l’intervalle de confiance peut également être estimé par “approximation normale”, c’est à dire en employant un quantile issu de la distribution Normale plutôt que de celle de Student. L’intervalle de confiance peut encore être calculé par une approche bootstrap, qui a l’avantage de ne pas dépendre d’une loi de distribution.
Lorsque les formules classiques sont utilisées pour estimer l’intervalle de confiance, on fait l’hypothèse que la moyenne de l’échantillon est parfaitement distribuée selon une loi de Student ou une loi Normale, qui sont des distributions symétriques. Le quantile employé, correspond à une valeur seuil au-delà de laquelle seules 5% des moyennes se situent en théorie (en valeur absolue). Si, en réalité, la distribution est asymétrique, alors ce n’est plus 5% des moyennes qui sont supérieures à cette valeur seuil, mais un pourcentage qui peut être nettement supérieur. Autrement dit, le quantile employé pour calculer l’intervalle de confiance ne correspondra pas au risque alpha théorique. Au final, l’intervalle de confiance à 95% estimé, n’aura peut-être en réalité qu’une probabilité de 80% par exemple de contenir la vraie moyenne (celle de la population). C’est donc ici que l’approche d’estimation de l’intervalle de confiance par bootstrap prend tout son sens. En effet, l’approche bootstrap ne repose pas sur des distributions, elle est donc plus robuste, et doit donc être privilégiée lorsqu’une asymétrie manifeste est détectée au niveau des valeurs mesurées.
Les autres informations utiles
En plus des paramètres décrits précédemment, les analyses statistiques descriptives présentent généralement la taille de l’échantillon considéré, ainsi que le nombre de données manquantes. Et lorsqu’il existe plusieurs groupes d’intérêt, les analyses statistiques descriptives sont réalisées pour chacun des groupes.
J’espère qu’avec cet article vous aurez une meilleure vue d’ensemble des paramètres classiquement utilisés dans les analyses statistiques descriptives. Et vous, utilisez-vous d’autres paramètres que ceux mentionnés ici ?
Dans le prochain post, je vous montrerai comment calculer très simplement tous ces paramètres avec le logiciel R (retrouvez le ici )
Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏
👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R
Crédit photo : Cat Branchman
Salut Claire, votre article est très simple et très instructif. Merci
Bonjour, et merci pour cet article super intéressant ! Je débute en stats (j’ai des notions de ce que j’avais appris à l’école, mais ça remonte à loin), alors j’aimerais suggérer une petite modification : ça aiderait la compréhension de préciser quand il s’agit de la moyenne de la population ou de l’échantillon (peut-être même faire un schéma pour illustrer la différence entre les deux). En tout cas, des fois j’étais un peu confuse sur la moyenne dont il était question, mais en prenant son temps c’est quand même compréhensible.
Encore une fois merci, ça aide vraiment à se lancer dans l’univers des stats !