Calcul de la taille d’un échantillon basé sur une précision

Table des matières

Introduction

Dans le cadre d’une investigation clinique ou d’une expérimentation en laboratoire ( ou même de terrain) lorsque l’objectif principal est de mettre en évidence une différence significative, le calcul de la taille de l’échantillon est basé sur un test statistique, et sur sa capacité à détecter une différence (sa puissance).

Mais il existe de nombreuses autres situations dans lesquelles l’objectif principal n’est pas de démontrer une différence, mais seulement d’estimer un paramètre avec une certaine précision. Par exemple, estimer la douleur ressentie (sur une échelle analogique visuelle de 0 à 10) après une nouvelle technique opératoire, avec une précision de 0,5 points. Ou encore estimer le pourcentage de patients satisfaits par une prothèse auditive, avec une précision de 3%.

Ces situations sont très courantes dans les investigations cliniques menées sur les dispositifs médicaux, notamment dans les études de faisabilité ou les études de suivi clinique après commercialisation (SCAC) ou PMCF en anglais (Post Market Clinical Follow up). Lorsque l’objectif principal est d’estimer un paramètre, le calcul de la taille de l’échantillon ne doit pas être basé sur un test statistique (par ce qu’il n’y en a pas) mais doit être basé sur la précision que l’on souhaite atteindre lors de l’estimation du paramètre d’intérêt.

Par ce que cette approche est généralement mal connue, et qu’elle n’est pas réservée à l’évaluation des dispositifs médicaux, ni même au domaine médical, je vous propose de l’explorer ensemble dans cet article.

Rappel: Calcul de la taille d'un échantillon basée sur la puissance d’un test statistique

Avant de vous parler de cette approche basée sur la précision, je vous propose un petit rappel de l’approche basée sur la puissance d’un test statistique.

Dans cette situation, les formules à employer nécessitent de définir un certain nombre d’informations dont, le test employé, le risque alpha et la puissance désirés, ainsi que la différence minimale que l’on souhaite mettre en évidence.

Lorsque j’ai besoin de réaliser un calcul de la taille d’un échantillon pour mettre en évidence une différence, j’utilise généralement le logiciel G*Power. (vous trouverez plus d’information dans mon article “Calcul du nombre de sujets nécessaires“).

Dans l’exemple ci-dessous, j’ai imaginé qu’un test T de Student serait employé pour comparer la moyenne de la douleur lombaire ressentie sur une échelle analogique visuelle, entre un groupe contrôle et un groupe qui utiliserait un dispositif médical, en faisant les hypothèses que :

  • la moyenne dans le groupe contrôle serait de 8 points

  • celle du groupe utilisant le dispositif médical évalué serait de 6 points

  • que l’écart type des scores de douleur dans chacun des groupe serait de 3.2 points

  • que le test de Student serait bilatéral

  • que le risque alpha serait fixé à 5%

  • que la puissance souhaitée est de 80%

Calcul de la taille d'un échantillon, basé sur un test statistique

Au final, le logiciel indique qu’il faudrait inclure 42 sujets dans chaque groupe pour avoir une probabilité de 80% de mettre en évidence une différence de 2 points entre les deux groupes, avec un test t bilatéral, un risque alpha fixé à 5% et des écarts type du score de douleur de 3.2 points.

La formule employée est :

\[ n=\frac{2 \times (Z_{\alpha/2} + Z_{\beta})^2 \times \sigma^2}{\Delta^2}\]

Où : 

  •  Z_𝜶/2 est le score Z pour le niveau de confiance
  • Z_𝛽  est le score Z pour la puissance,
  • 𝜎 est l’écart-type
  • Δ est la différence minimale d’intérêt

Calcul de la taille d'un échantillon basée sur la précision souhaitée d'une moyenne

La seconde approche du calcul de la taille d’un échantillon, qui elle est basée sur la précision souhaitée de l’estimation d’un paramètre, repose, en pratique, sur la largeur de l’intervalle de confiance (très généralement à 95%) de ce paramètre.

Pour illustrer cette approche, prenons l’exemple de l’estimation de la moyenne de la douleur lombaire ressentie après une nouvelle technique opératoire. Pour rappel, la formule,  (par approximation normale) à 95% d’une moyenne est:

\[ IC_{95\%} = \left[ m – Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} ; m + Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} \right]\]

où :

  • n est la taille d’échantillon,
  • Z est le score Z correspondant au niveau de confiance choisi (pour un niveau de confiance de 95%, Z=Z_1-𝛼/2} ≈1.96,
  • 𝜎 est l’écart-type de la population.

 

Celui-ci peut encore s’écrire

\[ IC_{95\%} = \left[ m – E ; m + E \right]\]

E est la marge d’erreur souhaitée.

 

Avec ces deux formules, nous obtenons l’égalité suivante :

\[Z_{1-\alpha/2} \times \frac{\sigma}{\sqrt{n}} =E\]

Et en substituant les termes, nous obtenons :

\[n = \left( \frac{Z_{1-\alpha/2} \times \sigma}{E} \right)^2\]

 

Supposons que nous souhaitons estimer la moyenne de la douleur lombaire ressentie (sur une échelle de 0 à 10) avec une précision de ± 0.5 point, et un niveau de confiance de 95%. Si l’écart-type estimé de la douleur dans la population est de 3.2 points, alors nous obtenons : 

\[n = \left( \frac{1.96 \times 3.2}{0.5} \right)^2 \approx 157\]

 

Ainsi, pour obtenir une estimation précise de la moyenne de la douleur lombaire avec une marge d’erreur de ± 0.5 point, nous aurions besoin d’un échantillon de 157 sujets.

 

Il existe des outils en ligne qui permettent de faire ces calculs comme celui-ci. Les résultats obtenu est très proche de celui calculé précédemment.

Calcul de la taille d'un échantillon, basé sur la précision d'une moyenne à estimer

Calcul de la taille d'un échantillon basée sur la précision souhaitée d'une proportion

Pour illustrer cette approche, supposons que nous souhaitons estimer la proportion de patients satisfaits par le port d’une prothèse auditive, avec une précision de ± 0.03 (3%), et avec un niveau de confiance de 95%.

Il existe plusieurs formules du calcul de l’intervalle de confiance à 95% d’une proportion. Celle présentée ici est celle par approximation normale, on l’appelle également formule de Wald. Elle ne doit pas être employée lorsque la proportion est proche de 0 ou 1.

\[IC_{95\%} = \left[ p – Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} ; p + Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} \right]\] où :

  • n est la taille d’échantillon,
  • Z est le score Z correspondant au niveau de confiance choisi (pour un niveau de confiance de 95%, Z≈1.96),
  • p est la proportion estimée de la population.

Comme précédemment, on peut également le simplifier en l’écrivant :

\[IC_{95\%} = \left[ p – E ; p + E \right]\]

E est la marge d’erreur souhaitée.

Avec ces deux formules, nous obtenons l’égalité suivante :

\[E = Z_{1-\alpha/2} \times \sqrt{\frac{p(1-p)}{n}}\]

Et en substituant les termes, nous obtenons :

\[n = \frac{Z_{1-\alpha/2}^2 \times p(1-p)}{E^2}\]

Le calcul nécessite, ici, de faire une hypothèse sur le niveau de la proportion. Si nous estimons que 75% des patients seront satisfaits (p = 0.75), alors nous obtenons :

\[n = \frac{1.96^2 \times 0.75 \times (1-0.75)}{0.03^2} \approx 800\].

Ainsi, pour obtenir une estimation précise de la proportion de patients satisfaits (avec une proportion cible égale à 0.75) avec une marge d’erreur de ± 0.03, nous aurions besoin d’un échantillon de 800 sujets.

Comme précédemment, ce type de calcul peut être réalisé avec des outils en ligne, comme ici

Calcul de la taille d'un échantillon, basé sur la précision d'une proportion à estimer

Conclusion

Dans cet article, nous avons exploré les deux principales approches pour calculer la taille d’un échantillon. La première approche, basée sur la puissance, se concentre sur la capacité d’un test statistique à détecter une différence significative.

Pour réaliser ce type de calculs, je vous recommande le logiciel GPower

La seconde approche repose sur la précision souhaitée de l’estimation d’un paramètre, en se basant sur la largeur de l’intervalle de confiance.

Elle n’est pas particulièrement difficile, mais moins connue.

Il existe une multitude de calculateur en ligne, selon vos besoins, comme celui ci : <https://statulator.com/SampleSize/ss1P.html>

Avez-vous déjà été confronté à la situation de devoir calculer la taille d’un échantillon pour obtenir une précision donnée ? Si oui, dans quel contexte ? Esr-ce que vous avez rencontré des difficultés ?

N’hésitez pas à partager vos expériences et vos réflexions à ce sujet en laissant un commentaire ci-dessous  👇👇👇

Poursuivez votre lecture

12 Responses

  1. Merci Claire!!! ça tombe pile-poil dans ce que nous faisons en ce moment.
    9a ne nous empêchera pas de te demander de vérifier ce que je propose 🙂
    Bonne journée
    Nathalie

  2. Merci pour votre sens de partage .
    Je viens de découvrir le logiciel G power et je suis convaincu que ça vaut la peine de savoir l’utiliser.

  3. Merci, justement je me posais la question récemment de la taille de l’échantillon pour une estimation “fiable à x%” d’une moyenne par exemple
    en R, existe-t-il des fonctions / packages qui proposent la même chose que ce que tu présentes avec ces logiciels ?
    E.

    1. Bonjour Eric,

      Ça existe très certainement, mais je n’en connais pas. J’ai cherché (un peu) mais pas (encore) trouvé.

      1. j’ai 2 compléments après recherche :
        1) package presize (cf. CRAN)

        Description : Bland (2009) recommended to
        base study sizes on the width of the confidence interval rather the power of
        a statistical test. The goal of ‘presize’ is to provide functions for such
        precision based sample size calculations. For a given sample size, the
        functions will return the precision (width of the confidence interval), and
        vice versa.

        2) fonction maison
        a) connaître l’écart type de la population pour utiliser cette méthode
        b) suppose une distribution normale de la population

        echantillon_taille <- function(sigma, E, confiance) {
        Z <- qnorm((1 + confiance) / 2)
        n <- (Z * sigma / E) ^ 2
        return(round(n))
        }

        # Utilisation de la fonction
        n <- echantillon_taille(sigma = 15, E = 5, confiance = 0.95)
        print(n)

        Dans cet exemple, echantillon_taille est une fonction qui prend en entrée l’écart type de la population (sigma), la marge d’erreur souhaitée (E), et le niveau de confiance (confiance), et retourne la taille de l’échantillon nécessaire pour estimer la moyenne de la population avec le niveau de confiance donné

        source (par ex. ) livre “Sampling: Design and Analysis” de Sharon L. Lohr.

  4. Bonjour Claire,

    Merci beaucoup pour cet article très clair comme tous les autres…
    Avez vous des méthodes / sources pour traiter des cas “avant/après” ? Exemple : nb d’animaux nécessaires pour tester l’effet d’un complément sur un même élevage (pas de possibilité de faire un lot témoin)?

  5. Bonsoir tout le monde, et précisément Claire,
    Je suis nouveau, je viens de finir un Master en biostatistique et j’avoue que votre blug va beaucoup m’aider à consolider tout ce que j’ai appris..

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous souhaitez vous former à R, ou aux statistiques ?

Retrouver le planning et les programmes de  mes formations ici  👇👇👇 

Vous avez besoin d'un assitance pour analyser vos données ?

Retrouver mes propositions de services ici  👇👇👇 

Vous souhaitez soutenir mon travail ?​

C’est possible en faisant un don  sur la page Tipeee du blog  👇👇👇

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.