
Quand je travaillais à l’IRSN, une partie de mon travail consistait à aider les doctorants et chercheurs à analyser leurs données. Et une remarque revenait très souvent :
“Je ne sais pas quel test utiliser avec mes données…”
C’est une remarque que j’entends encore très fréquemment, notamment lors des tours de table de mes formations de remise à niveau en biostatistiques, quand je demande aux stagiaires quelles sont leurs principales difficultés.
À l’inverse, dans mon esprit, tout cela est bien rangé. Sans doute parce que j’ai eu de très bons professeurs : d’abord Joseph Lellouch, Jean Maccario, puis Bruno Falissard.
Cet article a pour objectif de vous guider dans le choix du test statistique à utiliser, en s’appuyant sur une carte mentale ET/OU un tableau récapitulatif (qui contient aussi les conditions d’application) qui résument les principaux tests et leur logique d’application.

Avant de plonger dans les tests, il est important de distinguer deux approches.
Le test statistique permet d’évaluer l’effet d’un seul facteur à la fois — par exemple comparer la perte de poids moyenne entre deux régimes (A vs B). Il suppose implicitement que les groupes sont comparables pour toutes les autres caractéristiques, comme l’âge ou le sexe, qui ne sont pas prises en compte dans le test lui-même.
La modélisation, quant à elle, permet d’ajuster sur d’autres variables. Par exemple : si l’on souhaite comparer deux régimes alimentaires tout en tenant compte de l’âge des participants, le modèle statistique permettra de « retirer » l’effet de l’âge. Sans cela, si les sujets du régime B sont plus jeunes que ceux du régime A, on risque de confondre l’effet du régime avec celui de l’âge.
Les tests statistiques sont donc de simples outils ciblés, tandis que la modélisation permet une analyse ajustée et multivariée.
Les tests présentés dans cet article sont des tests de supériorité : leur objectif est de détecter une différence significative entre des groupes. Par exemple, montrer que le traitement B entraîne une réduction de la douleur supérieure à celle du traitement A.
Mais il existe d’autres types de tests, utilisés dans des contextes différents :
Les tests d’équivalence cherchent à démontrer que deux traitements donnent des résultats similaires, c’est-à-dire que la différence entre eux est suffisamment petite pour être considérée comme négligeable d’un point de vue clinique (vous trouverez plus d’information dans cet article https://delladata.fr/tests-equivalence/
Les tests de non-infériorité visent à montrer qu’un nouveau traitement n’est pas moins efficace qu’un traitement de référence au-delà d’une marge tolérée.
Ces approches reposent sur une logique statistique spécifique, où l’hypothèse nulle et l’hypothèse alternative sont inversées par rapport à celles d’un test de supériorité. Elles sortent du cadre de cet article, mais il est utile d’en connaître l’existence pour comprendre que « ne pas trouver de différence » dans un test classique ne prouve pas l’équivalence entre deux traitements.
Dans la pratique, la majorité des tests statistiques usuels (tests dits de supériorité) peuvent être regroupés en quatre grandes familles :
Les tests de comparaison de moyennes → pour des variables numériques continues (poids, score de douleur, durée, etc.)
Les tests de comparaison de pourcentages
→ pour des variables catégorielles, les plus souvent binaires (succès/échec, malade/non malade, etc.)
Les tests d’association entre deux variables → pour savoir si deux variables (quantitatives ou qualitatives) sont liées
Les tests de vérification des conditions d’application → pour vérifier, avant d’utiliser un test, si les hypothèses nécessaires sont respectées
Les deux premières questions à se poser sont donc :
“quelle est la nature de ma variable réponse ?” Quantitative ou qualitative (catégorielle))
“qu’est-ce que je veux faire ? Comparer , ou évaluer un lien avec une autre variable ?
Si votre variable réponse est numérique (par exemple : la perte de poids en kilos après trois mois de régime), on parle de comparaison de moyennes.
Remarque :
En première intention, on cherche généralement à comparer les moyennes, car elles permettent de résumer la tendance centrale des données lorsque celles-ci suivent une distribution à peu près symétrique. Cependant, les tests de comparaison de moyennes (comme le test de Student ou l’ANOVA) sont des tests paramétriqued, qui requièrent des conditions d’application — notamment la normalité des distributions et l’homogénéité des variances.
Lorsque ces conditions ne sont pas respectées, on se tourne vers des tests non paramétriques. On parle alors généralement de comparaisons de médianes ou de comparaisons de distributions.. Les plus courants sont le test de Wilcoxon (ou test de Mann–Whitney) et, pour plus de deux groupes, le test de Kruskal–Wallis.
Deux questions permettent de préciser le test à employer :
Combien de groupes (ou d’échantillons) compare-t-on ?
S’il y a plus d’un groupe, les données sont-elles indépendantes ou appariées ? Autrement dit, les mesures proviennent-elles de sujets différents (données indépendantes) ou des mêmes sujets, mesurés à plusieurs reprises (données appariées) ?
Dans cette situation, vous pouvez comparer la moyenne observée à une valeur de référence (une norme, une valeur attendue, ou issue de la littérature).
Exemple : le taux moyen d’une enzyme mesuré chez 30 patients est-il différent de la valeur de référence de 15 UI/L donnée par le fabricant ?
→ Test de Student pour un échantillon (one sample T test) : nécessite au moins 15 observations (certains disent 30, d’autres 50), que les observations soient distribuées selon une loi Gaussienne (hypothèse de normalité des données), et l’absence d’outliers.
→ Test de Wilcoxon pour un échantillon (one sample Wilcoxon test), si l’hypothèse de normalité est rejetée, ou si l’échantillon contient moins de 15 observations
Évaluation des conditions :
Normalité : test de Shapiro-Wilk (p > 0,05 → normalité acceptable) ou QQ-plot
Absence d’outliers : boxplot ou QQ-plot
Les mesures proviennent de sujets différents.
Exemple : on mesure le score moyen de douleur (sur une échelle de 0 à 10) chez deux groupes de patients : le groupe traité et le groupe placebo
→ Test de Student pour échantillons indépendants : nécessite au moins 15 observations dans chaque groupe (certains disent 30, d’autres 50), que les observations de chaque groupe soient distribuées (au moins grossièrement) selon une loi Gaussienne (hypothèse de normalité des données), que les variabilités (variances) des observations dans les deux groupes soient grossièrement identiques (hypothèse d’égalité des variances), et l’absence d’outliers
→ Test de Welch si seule l’hypothèse d’égalité des variances est rejetée
→ Test de Wilcoxon (non paramétrique) si l’hypothèse de normalité est rejetée ou en présence d’outliers, ou si l’échantillon est petit (< 15 par groupe).
Évaluation des conditions :
Normalité : test de Shapiro–Wilk (p > 0,05 → normalité acceptable) ou QQ-plot
Absence d’outliers : boxplot ou QQ-plot
Égalité des variances : test F de Fisher, test de Levene (p > 0,05 → variances homogènes)
Vous trouverez plus d’information dans cet article https://delladata.fr/tutoriel-comparaison-de-deux-moyennes-avec-le-logiciel-r/
Les mesures proviennent des mêmes sujets
Exemple : le score d’anxiété mesuré avant et après une séance de relaxation a-t-il diminué significativement ?
→ Test de Student apparié : nécessite au moins 15 sujets, que les différences entre les deux mesures appariées suivent une distribution gaussienne, et absence d’outliers
→ Test de Wilcoxon apparié (non paramétrique) si les conditions ne sont pas respectées
Évaluation des conditions :
Normalité : test de Shapiro-Wilk (p > 0,05 → normalité acceptable) ou QQ-plot
Absence d’outliers : boxplot ou QQ-plot
Vous trouverez plus d’informations dans cet article : https://delladata.fr/le-test-de-student-apparie/
Les mesures proviennent différents sujets.
Exemple : On souhaite comparer le score moyen d’anxiété (sur une échelle de 0 à 20) entre trois groupes de patients soignés avec des approches thérapeutiques différentes : Thérapie cognitive et comportementale (TCC), Méditation de pleine conscience, Aucune prise en charge spécifique.
L’objectif est de déterminer si au moins un des groupes diffère significativement des autres en termes de niveau moyen d’anxiété.
→ ANOVA (analyse de la variance) à un facteur paramétrique : les résidus doivent satisfaire l’hypothèse de normalité et d’homogénéité des variances, aucun outlier ne doit être détecté
→ ANOVA non paramétrique (test de Kruskal-Wallis) si au moins une des hypothèses n’est pas satisfaite
Lorsque plus de deux groupes sont comparés, l’hypothèse d’égalité des variances peut s’évaluer à l’aide du test de Levene ou du test de Bartlett. Pour que l’hypothèse soit acceptable, la pvalue doit être > 0.05. Dans le cas de l’ANOVA, les hypothèses de normalité et d’égalité des variances ne sont pas réalisées sur les observations, mais sur les résidus (différences entre une valeur et la moyenne de son groupe).
Si le test d’ANOVA est significatif, des comparaisons post hoc (par exemple avec le test de Tukey) permettront d’identifier précisément quels groupes diffèrent entre eux.
Vous trouverez plus d’informations dans ces articles :
Les mesures sont faites sur les mêmes sujets.
Exemple On mesure le score moyen de douleur (sur une échelle de 0 à 10) chez les mêmes patients à trois moments du suivi : avant le traitement (J0), après une semaine (J7), et après un mois (J30).
L’objectif est de savoir si la douleur évolue significativement dans le temps au sein du même groupe de patients.
→ ANOVA pour mesures répétées : suppose que les données suivent une distribution normale à chaque temps de mesure et que les variances des différences entre les temps sont égales (c’est la condition de sphéricité) et absence d’outliers
→ Test de Friedman (ANOVA non paramétrique sur mesures répétées) si au moins une des conditions n’est pas satisfaite
Si le test est significatif, des comparaisons post hoc (par exemple entre J0–J7, J7–J30, et J0–J30) permettront d’identifier à quels moments la diminution de la douleur est la plus marquée. Il s’agit de comparaisons multiples deux à deux et le risque d’erreur lié à la multiplicité des tests doit être corrigé, par exemple à l’aide de l’approche de Holm
Évaluation des conditions :
Sphéricité : test de Mauchly. Pour qu’elle soit acceptable, la pvalue doit être > 0.05. Si la sphéricité n’est pas respectée, on applique une correction (de Greenhouse–Geisser ou de Huynh–Feldt) ou, à défaut, on se replie sur l’alternative non paramétrique : le test de Friedman.
Normalité : test de Shapiro–Wilk (p > 0,05 → normalité acceptable) ou QQ-plot
Absence d’outliers : boxplot ou QQ-plot
Vous trouverez plus d’informations dans ces articles :
Si la variable d’intérêt est binaire (par exemple, « amélioration des symptômes : oui/non »), on compare alors des proportions.
Là encore, vous devez vous poser les deux mêmes questions :
Exemple : Vous souhaitez savoir si une proportion observée diffère d’une norme ? Par exemple : 80 % des patients se sont améliorés, est-ce supérieur à la norme de 75 % ?
→ Test binomial (pas de conditions d’application)
Exemple : 50 patients ont reçu le somnifère A, 50 autres le somnifère B. 60 % dorment mieux avec A contre 50 % avec B. Vous souhaitez évaluer si la différence est significative ?
→ Test du Chi² : nécessite que les effectifs théoriques des 4 modalités (ceux qui dorment mieux avec A, ceux qui ne dorment pas mieux avec A, ceux qui dorment mieux avec B, ceux qui ne dorment pas mieux avec B) soient > 5
→ Test exact de Fisher si au moins un effectif théorique est <5.
Évaluation des conditions :
Les effectifs théoriques sont calculés par les logiciels et sont basés sur des lois de probabilités. Pour en savoir davantage : https://delladata.fr/comparaison-de-deux-pourcentages-avec-le-logiciel-r/
Exemple: 50 patients ont testé deux somnifères différents, A et B, dans un ordre aléatoire. Pour chacun, on note s’il a mieux dormi (oui/non) avec chaque traitement. 18 patients (36 %) dorment mieux avec A, mais pas avec B, tandis que 9 patients (18 %) dorment mieux avec B, mais pas avec A. Vous souhaitez évaluer si le somnifère A procure de meilleures nuits que le somnifère B.
→ Test de McNemar (nécessite au moins 10 paires discordantes (ceux qui dorment mieux avec A, mais pas avec B et inversement)
Vosu trouverez davantage d’informations dans cet article :
https://delladata.fr/comparaisons-de-deux-proportions-appariees-le-test-de-mac-nemar/
→ Test de McNemar avec corresction de continuité si le nombre de paires discordantes est <10.
Remarque Le test de McNemar ne compare pas directement les pourcentages globaux de réussite avec A et avec B. En réalité, il s’appuie sur les proportions de désaccord entre les deux traitements — c’est-à-dire les cas où un patient réussit avec l’un mais pas avec l’autre.
Cependant, en évaluant si ces désaccords sont équilibrés ou non, le test permet indirectement de savoir si le taux de réussite global diffère significativement entre A et B.
Exemple : Trois traitements (A, B et C) sont comparés sur 150 patients (50 par traitement). Les pourcentages d’amélioration observés sont de 60 % pour A, 70 % pour B et 85 % pour C. Vous souhaitez savoir si ces différences de pourcentages sont significatives, autrement dit si l’efficacité des traitements diffère réellement entre eux.
→ Test du Chi² d’homogénéité : utilisable si 80 % des effectifs théoriques sont ≥ 5 et aucun < 1.
→ Test exact de Fisher si les conditions précédentes ne sont pas remplies
Remarque
Si le test global du Chi² est significatif, cela signifie qu’au moins un groupe diffère des autres. Des comparaisons multiples deux à deux peuvent alors être réalisées (Chi² ou Fisher entre paires de groupes), en corrigeant le risque d’erreur lié à la multiplicité des tests — par exemple à l’aide d’une correction de Bonferroni ou de Holm.
Évaluation des conditions :
Les effectifs théoriques sont calculés par les logiciels et sont basés sur des lois de probabilités. Pour en savoir davantage : https://delladata.fr/comparaison-de-deux-pourcentages-avec-le-logiciel-r/
–> Régression logistique simple : c’est l’équivalent d’une ANOVA, mais pour une variable réponse de type binaire. Cela requiert un peu plus de connaissances.
Exemple On évalue l’efficacité d’un traitement sur 30 patients, en notant pour chacun s’il présente une amélioration (oui/non) à trois temps différents : J0, J7 et J30. Vous souhaitez savoir si la proportion de patients améliorés évolue significativement au cours du temps.
→ Test Q de Cochran : Il teste l’hypothèse selon laquelle les proportions de succès sont identiques dans toutes les conditions.
Si le test global est significatif, cela signifie qu’au moins une proportion diffère des autres. Des comparaisons post hoc deux à deux ( avec des tests de McNemar appariés entre chaque paire de temps ou de conditions) peuvent ensuite être réalisées, en appliquant une correction pour comparaisons multiples (comme la correction de Bonferroni ou de Holm).
–> la régression logistique mixte (GLMM). C’est une apporche encore un peu plus complexe et qui nécessite plus de connaissances.
Si vous souhaitez évaluer le lien entre deux variables, vous devez vous intérroger sur la nature des ces deux variables?
Exemples :
→ le coefficient de corrélation de Pearson ou de Spearman, avec un test d’égalité à zéro du coefficient de corrélation ; → régression linéaire simple, dont on teste l’égalité à 0 de la pente.
Évaluation des conditions :
Le test d’égalité à 0 du test du coefficient de Pearson nécessite que la relation entre les deux variables soit (au moins grossièrement) linéaire et, en théorie, que les mesures des deux variables suivent une distribution Gaussienne. Il s’agit d’un test de la famille des tests de Student.
En cas de rejet d’au moins une des conditions le test d’égalité à O du coefficient de corrélation de Spearman doit être employé (approche non paramétrique).
Le test de l’égalité à 0 de la pente de la régression linéaire nécessite que la relation entre les deux variables soit linéaire, l’hypothèse de normalité des résidus, et l’hypothèse de l’homogénéité des résidus (hypothèse d’homoscédsticité), et l’absence d’outliers.
L’hypothèse d’homogénéité des résidus peut être évaluée graphiquement à l’aide d’un standardized residuals vs fitted plot et/ou à l’aide du test de Breush-Pagan.
Le test d’égalité à 0 de la pente est également un test de la famille des tests de Student.
Vous trouverez davantage d’information dans cet article : https://delladata.fr/la-regression-lineaire-simple-avec-le-logiciel-r/
Exemple : la couleur des yeux est-elle liée à la couleur des cheveux ?
→ Test du Chi² d’indépendance Ce test permet de savoir si la distribution des modalités d’une variable dépend des modalités de l’autre, ou bien si elle est globalement identique pour toutes les modalités.
Par exemple, est-ce que la répartition de la couleur des yeux (%bleu, %vert, %marron) est différente chez les sujets qui ont les cheveux blonds, roux, chatains, noirs ?
Ce test nécessite que 80% des effectifs soient >5 et que tous soient > 1. En cas de rejet, une correction de continuité peut être employée
Exemple : la perte de poids moyenne diffère-t-elle selon le régime suivi (régime A, régime B ou régime C) ?
→ ANOVA (paramétrique) à un facteur
→ Test de Kruskal-Wallis (ANOVA non paramétrique à un facteur) :
Voir les conditions d’application dans la section « Tests de comparaison de moyennes »
Avant d’utiliser un test paramétrique (comme le test de Student ou l’ANOVA), certaines conditions doivent être vérifiées :
→ Test de Shapiro–Wilk (le plus employé),
→ Test de Kolmogorov–Smirnov
→ Anderson–Darling
→ Test de Jarque–Bera
La normalité est acceptable si pvalue > 0.05
Vous trouverez plus d’informations, par exemple, dans cet article : https://delladata.fr/afficher-groupes-homogenes-anova/
→ Test F pour deux groupes ; l’égalité est acceptable si pvalue > 0.05
→ Tests de Bartlett ou de Levene pour plusieurs groupes ; l’égalité est acceptable si pvalue > 0.05
Vous trouverez plus d’informations, par exemple, dans cet article : https://delladata.fr/afficher-groupes-homogenes-anova/
→ Test de Mauchly ; la sphéricité est acceptable si pvalue > 0.05
Vous trouverez plus d’informations dans cet article : https://delladata.fr/anova-sur-mesures-repetees/
→ Test de Breush Pagan ; l’homoscédasticité est acceptable si pvalue > 0.05
Vous trouverez plus d’informations dans cet article : https://delladata.fr/la-regression-lineaire-simple-avec-le-logiciel-r/
J’espère que cet article et la carte qui l’accompagne vous aidera à mieux comprendre quel test statistique utiliser selon vos données et votre question.
Si vous avez des remarques, ou des interrogations, dites-le-moi en commentaires, j’y répondrai avec plaisir. Et n’hésitez pas à partager cette carte mentale et cet article autour de vous : ils pourront être utiles à d’autres analystes, étudiants ou chercheurs.
Vous pouvez retrouver mes tutoriels vidéo sur la chaine youtube du blog
Vous pouvez soutenir mon travail en faisant un don libre sur le Tipeee du blog

Enregistrez vous pour recevoir gratuitement mes fiches « aide mémoire » (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.
5 réponses
Bonjour,
merci pour ce récapitulatif parfaitement clair.
Concernant les effectifs pour les comparaisons de moyenne, vous écrivez qu’il est nécessaire d’avoir un échantillon de 15 observations minimum. Où peut-on trouver de la littérature à ce sujet ?
j’ai deux moyennes de 6 observations à effectuer. Pour moi Shapiro peut encore s’appliquer et je n’ai pas trouvé de minimum pour appliquer le test t.
Merci pour votre réponse.
PS: changement d’email à prendre en compte
Bonjour Bertrand,
je n’ai pas de références sous la main, et pas la disponibilité tout de suite pour chercher. Faire un test de normalité sur 6 données me semble un peu juste. Du coup, ce que je ferais c’est une ANOVA et je ferais le test de normalité sur les 12 résidus (j’espère ne pas vous perdre), et j’espère que cela vous aide.
Merci pour votre réponse, c’est très clair. Je vais faire un peu de biblio dès que j’ai le temps ;-).
De toute façon je complète très souvent par un QQplot.
Oh la la, merciiiii Claire. Je n’ai pas encore lu cet article mais je sais déjà que je vais l’adorer !
Nathalie
👍