Dans le cadre d’une investigation clinique ou d’une expérimentation en laboratoire ( ou même de terrain) lorsque l’objectif principal est de mettre en évidence une différence significative, le calcul de la taille de l’échantillon est basé sur un test statistique, et sur sa capacité à détecter une différence (sa puissance).
Mais il existe de nombreuses autres situations dans lesquelles l’objectif principal n’est pas de démontrer une différence, mais seulement d’estimer un paramètre avec une certaine précision. Par exemple, estimer la douleur ressentie (sur une échelle analogique visuelle de 0 à 10) après une nouvelle technique opératoire, avec une précision de 0,5 points. Ou encore estimer le pourcentage de patients satisfaits par une prothèse auditive, avec une précision de 3%.
Ces situations sont très courantes dans les investigations cliniques menées sur les dispositifs médicaux, notamment dans les études de faisabilité ou les études de suivi clinique après commercialisation (SCAC) ou PMCF en anglais (Post Market Clinical Follow up). Lorsque l’objectif principal est d’estimer un paramètre, le calcul de la taille de l’échantillon ne doit pas être basé sur un test statistique (par ce qu’il n’y en a pas) mais doit être basé sur la précision que l’on souhaite atteindre lors de l’estimation du paramètre d’intérêt.
Par ce que cette approche est généralement mal connue, et qu’elle n’est pas réservée à l’évaluation des dispositifs médicaux, ni même au domaine médical, je vous propose de l’explorer ensemble dans cet article.
Avant de vous parler de cette approche basée sur la précision, je vous propose un petit rappel de l’approche basée sur la puissance d’un test statistique.
Dans cette situation, les formules à employer nécessitent de définir un certain nombre d’informations dont, le test employé, le risque alpha et la puissance désirés, ainsi que la différence minimale que l’on souhaite mettre en évidence.
Lorsque j’ai besoin de réaliser un calcul de la taille d’un échantillon pour mettre en évidence une différence, j’utilise généralement le logiciel G*Power. (vous trouverez plus d’information dans mon article “Calcul du nombre de sujets nécessaires“).
Dans l’exemple ci-dessous, j’ai imaginé qu’un test T de Student serait employé pour comparer la moyenne de la douleur lombaire ressentie sur une échelle analogique visuelle, entre un groupe contrôle et un groupe qui utiliserait un dispositif médical, en faisant les hypothèses que :
la moyenne dans le groupe contrôle serait de 8 points
celle du groupe utilisant le dispositif médical évalué serait de 6 points
que l’écart type des scores de douleur dans chacun des groupe serait de 3.2 points
que le test de Student serait bilatéral
que le risque alpha serait fixé à 5%
que la puissance souhaitée est de 80%
Au final, le logiciel indique qu’il faudrait inclure 42 sujets dans chaque groupe pour avoir une probabilité de 80% de mettre en évidence une différence de 2 points entre les deux groupes, avec un test t bilatéral, un risque alpha fixé à 5% et des écarts type du score de douleur de 3.2 points.
La formule employée est :
\[ n=\frac{2 \times (Z_{\alpha/2} + Z_{\beta})^2 \times \sigma^2}{\Delta^2}\]
Où :
La seconde approche du calcul de la taille d’un échantillon, qui elle est basée sur la précision souhaitée de l’estimation d’un paramètre, repose, en pratique, sur la largeur de l’intervalle de confiance (très généralement à 95%) de ce paramètre.
Pour illustrer cette approche, prenons l’exemple de l’estimation de la moyenne de la douleur lombaire ressentie après une nouvelle technique opératoire. Pour rappel, la formule, (par approximation normale) à 95% d’une moyenne est:
\[ IC_{95\%} = \left[ m – Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} ; m + Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} \right]\]
où :
Celui-ci peut encore s’écrire
\[ IC_{95\%} = \left[ m – E ; m + E \right]\]
Où E est la marge d’erreur souhaitée.
Avec ces deux formules, nous obtenons l’égalité suivante :
\[Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} =E\]
Et en substituant les termes, nous obtenons :
\[n = \left( \frac{Z_{1-\alpha/2} \times \sigma}{E} \right)^2\]
Supposons que nous souhaitons estimer la moyenne de la douleur lombaire ressentie (sur une échelle de 0 à 10) avec une précision de ± 0.5 point, et un niveau de confiance de 95%. Si l’écart-type estimé de la douleur dans la population est de 3.2 points, alors nous obtenons :
\[n = \left( \frac{1.96 \times 3.2}{0.5} \right)^2 \approx 157\]
Ainsi, pour obtenir une estimation précise de la moyenne de la douleur lombaire avec une marge d’erreur de ± 0.5 point, nous aurions besoin d’un échantillon de 157 sujets.
Il existe des outils en ligne qui permettent de faire ces calculs comme celui-ci. Les résultats obtenu est très proche de celui calculé précédemment.
Pour illustrer cette approche, supposons que nous souhaitons estimer la proportion de patients satisfaits par le port d’une prothèse auditive, avec une précision de ± 0.03 (3%), et avec un niveau de confiance de 95%.
Il existe plusieurs formules du calcul de l’intervalle de confiance à 95% d’une proportion. Celle présentée ici est celle par approximation normale, on l’appelle également formule de Wald. Elle ne doit pas être employée lorsque la proportion est proche de 0 ou 1.
\[IC_{95\%} = \left[ p – Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} ; p + Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} \right]\] où :
Comme précédemment, on peut également le simplifier en l’écrivant :
\[IC_{95\%} = \left[ p – E ; p + E \right]\]
Où E est la marge d’erreur souhaitée.
Avec ces deux formules, nous obtenons l’égalité suivante :
\[E = Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}}\]
Et en substituant les termes, nous obtenons :
\[n = \frac{Z_{1-\alpha/2}^2 \times p(1-p)}{E^2}\]
Le calcul nécessite, ici, de faire une hypothèse sur le niveau de la proportion. Si nous estimons que 75% des patients seront satisfaits (p = 0.75), alors nous obtenons :
\[n = \frac{1.96^2 \times 0.75 \times (1-0.75)}{0.03^2} \approx 800\].
Ainsi, pour obtenir une estimation précise de la proportion de patients satisfaits (avec une proportion cible égale à 0.75) avec une marge d’erreur de ± 0.03, nous aurions besoin d’un échantillon de 800 sujets.
Comme précédemment, ce type de calcul peut être réalisé avec des outils en ligne, comme ici.
Dans cet article, nous avons exploré les deux principales approches pour calculer la taille d’un échantillon. La première approche, basée sur la puissance, se concentre sur la capacité d’un test statistique à détecter une différence significative.
Pour réaliser ce type de calculs, je vous recommande le logiciel GPower
La seconde approche repose sur la précision souhaitée de l’estimation d’un paramètre, en se basant sur la largeur de l’intervalle de confiance.
Elle n’est pas particulièrement difficile, mais moins connue.
Il existe une multitude de calculateur en ligne, selon vos besoins, comme celui ci : <https://statulator.com/SampleSize/ss1P.html>
Avez-vous déjà été confronté à la situation de devoir calculer la taille d’un échantillon pour obtenir une précision donnée ? Si oui, dans quel contexte ? Esr-ce que vous avez rencontré des difficultés ?
N’hésitez pas à partager vos expériences et vos réflexions à ce sujet en laissant un commentaire ci-dessous
Retrouver le planning et les programmes de mes formations ici 👇👇👇
Retrouver mes propositions de services ici 👇👇👇
C’est possible en faisant un don sur la page Tipeee du blog
Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.
12 Responses
Merci Claire!!! ça tombe pile-poil dans ce que nous faisons en ce moment.
9a ne nous empêchera pas de te demander de vérifier ce que je propose 🙂
Bonne journée
Nathalie
Merci beaucoup Claire
Merci pour votre sens de partage .
Je viens de découvrir le logiciel G power et je suis convaincu que ça vaut la peine de savoir l’utiliser.
Merci beaucoup.
Bien merci cher Della
Merci, justement je me posais la question récemment de la taille de l’échantillon pour une estimation “fiable à x%” d’une moyenne par exemple
en R, existe-t-il des fonctions / packages qui proposent la même chose que ce que tu présentes avec ces logiciels ?
E.
Bonjour Eric,
Ça existe très certainement, mais je n’en connais pas. J’ai cherché (un peu) mais pas (encore) trouvé.
j’ai 2 compléments après recherche :
1) package presize (cf. CRAN)
Description : Bland (2009) recommended to
base study sizes on the width of the confidence interval rather the power of
a statistical test. The goal of ‘presize’ is to provide functions for such
precision based sample size calculations. For a given sample size, the
functions will return the precision (width of the confidence interval), and
vice versa.
2) fonction maison
a) connaître l’écart type de la population pour utiliser cette méthode
b) suppose une distribution normale de la population
echantillon_taille <- function(sigma, E, confiance) {
Z <- qnorm((1 + confiance) / 2)
n <- (Z * sigma / E) ^ 2
return(round(n))
}
# Utilisation de la fonction
n <- echantillon_taille(sigma = 15, E = 5, confiance = 0.95)
print(n)
Dans cet exemple, echantillon_taille est une fonction qui prend en entrée l’écart type de la population (sigma), la marge d’erreur souhaitée (E), et le niveau de confiance (confiance), et retourne la taille de l’échantillon nécessaire pour estimer la moyenne de la population avec le niveau de confiance donné
source (par ex. ) livre “Sampling: Design and Analysis” de Sharon L. Lohr.
Super. Comme d’hab
Bonjour Claire,
Merci beaucoup pour cet article très clair comme tous les autres…
Avez vous des méthodes / sources pour traiter des cas “avant/après” ? Exemple : nb d’animaux nécessaires pour tester l’effet d’un complément sur un même élevage (pas de possibilité de faire un lot témoin)?
Bonjour Manon,
C’est possible avec le logiciel G*Power : https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower
Sur la page il y a un mode d’emploi à télécharger avec un exemple.
Vous trouverez aussi de la doc ici : https://aaroncaldwell.us/SuperpowerBook/repeated-measures-anova.html
J’espère que cela vous aide.
Bonne continuation.
Bonsoir tout le monde, et précisément Claire,
Je suis nouveau, je viens de finir un Master en biostatistique et j’avoue que votre blug va beaucoup m’aider à consolider tout ce que j’ai appris..