Petite introduction à l'épidémiologie

L’épidémiologie est une discipline, qui à mon sens, est difficile à définir simplement parce que son champs d’application est plutôt vaste, et que ces délimitations avec les biostatistiques et la recherche clinique ne sont pas toujours nettes. La définition anglo-saxonne proposée par wikipedia me semble à la fois synthétique et relativement précise : 

Epidemiology is the study and analysis of the distribution (who, when, and where), patterns and determinants of health and disease conditions in defined populations”,

C’est à dire : 

L’épidémiologie est l’étude et l’analyse de la répartition (qui, quand et où), des caractéristiques et des déterminants de la santé et des maladies, dans des populations définies

Un peu comme je l’avais fait pour les analyses statistiques, je vous propose ici un petit article d’introduction à l’épidémiologie.

Je présenterai, dans un premier temps, les trois branches principales de l’épidémiologie, puis je présenterai les enquêtes épidémiologiques 

analytiques (ou étiologiques), en montrant quelles fonctions utiliser sous R pour estimer leurs principaux paramètres.

Les 3 branches de l'épidémiologie

L’épidémiologie peut, grossièrement, être divisée en trois branches :

1. l’épidémiologie descriptive, qui vise à faire “l’état des lieux”, à un moment donné, d’un phénomène de santé (une maladie par exemple) notamment en termes de fréquence – que l’on appelle prévalence. Cette description peut être réalisée en fonction de certaines caractéristiques de la population (hommes / femmes), en fonction du temps (descriptions annuelles) ou encore géographiques (par département). Un exemple pourrait être l’étude de la prévalence des infections respiratoires en Ephad, dans les différents départements français.

2. l’épidémiologie analytique (ou étiologique) : qui vise à étudier les liens entre une exposition à un (ou plusieurs) facteurs de risque potentiels, et la survenue d’une maladie. Par exemple, l’étude du lien entre une exposition à l’amiante et la survenue d’un mésothéliome. L’épidémiologie étiologique est elle-même divisées en trois groupes d’études, selon la façon dont sont inclus (ou sélectionnés) les sujets :

  • les enquêtes de cohortes : dans lesquelles les sujets sont sélectionnés en fonction de leur exposition, ou non-exposition, au facteur de risque étudié.
  • les enquêtes cas-témoins : dans lesquelles les sujets sont sélectionnés en fonction de leur atteinte, ou non-atteinte, par la pathologie étudiée.
  • les enquêtes transversales : dans lesquelles les sujets ne sont sélectionnés ni sur leur statut vis-à-vis de la maladie, ni sur leur statut vis-à-vis de l’exposition au facteur de risque.

Remarque : Le terme “enquêtes épidémiologiques” est souvent employé à la place du terme “études épidémiologiques” car les données étudiées doivent être recherchées (dans des registres par exemple) ou encore être obtenues à partir de questionnaires.

3. L’épidémiologie évaluative, qui vise à évaluer les actions de prévention, ou de traitement (par exemple l’évaluation du programme de dépistage du cancer du sein).

Au final, l’épidémiologie tient une place centrale en santé publique. En effet, les enquêtes épidémiologiques permettent d’identifier les problèmes de santé et de caractériser leur importance. Cela permet ensuite aux dirigeants politiques de prendre des décisions, notamment dans la mise place des actions préventives et/ou curatives au niveau de la communauté. Enfin l’efficacité de ces actions est, à son tour, évaluée par des enquêtes épidémiologiques, dans le but d’être améliorées.

La prévalence et l'incidence

De nombreux indicateurs sont utilisés en épidémiologie. Parmi ces indicateurs, la prévalence et l’incidence tiennent une place particulièrement importante, notamment parce qu’ils permettent ensuite de calculer d’autres indicateurs plus spécifiques, comme le risque relatif ou l’odds ratio.

La prévalence

Elle est définie comme ceci :\[ \text{Prévalence =} \frac{\text{nombre de cas observé à un instant t}}{\text{population à risque à cet instant t} } \]Cet indicateur est compris entre 0 et 1, ou peut être exprimé sous la forme d’un pourcentage.

L'incidence (ou taux d'incidence):

Cet indicateur mesure la vitesse d’apparition de nouveaux cas (d’une maladie, ou d’une infection par exemple)

\[\text{Incidence cumulee} = \frac{\text{nombre de nouveaux cas pendant une periode } \Delta_{t}}{\text{population a risque pendant la periode }\Delta_{t}}\]

 

La période de temps est généralement journalière, mensuelle, ou annuelle : cela dépend de la dynamique de la maladie étudiée.

 

Cet indicateur est compris entre 0 et 1, ou peut être exprimé sous la forme d’un pourcentage.

 

L’incidence correspond au risque moyen de contracter la maladie ou l’infection étudiée.

Les enquêtes étiologiques

Comme exposé précédemment, les enquêtes étiologiques ont pour but d’étudier le lien entre un facteur de risque (par exemple le tabagisme) et la survenue d’une maladie (le cancer du sein par exemple).

Traitement des données

A chaque sujet inclus dans une enquête étiologique est donc associé son statut vis-à-vis de l’exposition au facteur de risque étudié, et son statut vis-à-vis de la maladie étudiée, comme ceci par exemple :

Pour analyser les données recueillies lors d’enquêtes étiologiques, celles-ci sont généralement représentées sous la forme d’une table de contingence, comme ceci :

Très souvent le code suivant est adopté dans les tables de contingences:

  • les malades sont nommés M+,
  • les non malades sont nommés M-,
  • les sujets exposés sont nommés E+,
  • les sujets non exposés sont nommés E-.

 

Comme ceci :

Les enquêtes de cohortes

Principe

Une cohorte est un ensemble de sujets suivis individuellement dans le temps, autrement dit de façon longitudinale.

Lors d’une enquête étiologique de type “cohortes”, les sujets sont sélectionnés en fonction de leur exposition au facteur de risque potentiel étudié. Par exemple, pour étudier le lien entre une exposition professionnelle aux amines aromatiques et la survenue d’un cancer de la vessie, une cohorte de travailleurs exposés peut être constituée à partir des archives d’une ou plusieurs entreprises de travailleurs étant, ou ayant été, en contact avec des amines aromatiques. 

De la même façon, une cohorte de travailleurs n’étant pas, ou n’ayant pas été, en contact avec l’amiante est également constituée. Cette cohorte de sujets non exposés doit être la plus semblable possible à la cohorte des sujets exposée (sauf en ce qui concerne l’exposition aux amines aromatiques évidemment). Ces deux cohortes sont suivies de façon identique dans le temps et la survenue de la maladie est recensé

Calcul du risque relatif

Pour fixer les idées, imaginons qu’une enquête de cohorte incluant 496 sujets exposés et 850 sujets non exposés a abouti à la table de contingence suivante :

A la fin de la période de suivi, le lien entre l’exposition au facteur de risque potentiel et la survenue de la maladie est évaluée. Pour cela, dans un premier temps, les incidences de la maladie dans les deux cohortes sont calculées, comme ceci :

\[IE^+=\frac{a}{a+b} =\frac{109}{109+387}=0.22\]

Autrement dit,le risque de développer la maladie, pour les sujets exposés, est de 22%.

 

\[IE^-=\frac{c}{c+d} = \frac{115}{115+735}=0.135\]

Le risque de développer la maladie, pour les sujets non exposés, est de 13%.

 

Dans un second temps, le risque relatif (RR) est calculé:

\[RR = \frac{IE^+}{IE^-} = 0.22/0.135 = 1.6\]

Ce risque relatif permet de mesurer quelle est l’augmentation du risque de développer la maladie pour les sujets exposés, par rapport aux sujets non exposés.

Règles d'interprétation du risque relatif

Les règles d’interprétation du risque relatif sont les suivantes :

  • si le RR est significativement < 1 alors le facteur de risque potentiel est en réalité un facteur protecteur.
  • si le RR n’est pas significativement différent de 1, alors le facteur de risque potentiel n’est pas un facteur de risque, il n’y a pas de lien entre l’exposition et la maladie.
  • si le RR est significativement > 1 alors le facteur de risque potentiel est bien un facteur de risque. Et seulement dans ce cas, on confluera que le risque de survenue de la maladie est 1.6 fois plus important en cas d’exposition, qu’en cas de non-exposition

Exemple avec R

Deux méthodes peuvent être employées pour évaluer si le risque relatif est significativement différent de 1. La première méthode, consiste à calculer l’intervalle de confiance à 95% du risque relatif :

  • si l’intervalle de confiance à 95% contient la valeur 1, alors le risque relatif n’est pas significativement différent de 1. Il n’y a donc pas de lien entre l’exposition et la maladie.
  • si la borne supérieure de l’intervalle de confiance à 95% est inférieure à 1, alors cela signifie que le facteur étudié est un facteur protecteur vis-à-vis de la maladie.
  •  si la borne inférieure de l’intervalle de confiance à 95% est supérieure à 1, alors cela signifie que le facteur étudié est un facteur de risque vis-à-vis de la maladie.

La seconde méthode consiste à réaliser un test statistique pour évaluer la dépendance entre l’exposition et la maladie. Dans ce cas, le test du Chi2, ou le test exact de Fisher peuvent être employés

Exemple avec R

Le package epiR propose de nombreuses fonctions dédiées aux études épidémiologiques. Sa fonction epi.2by2() permet, par exemple, de calculer des paramètres à partir d’une table de contingence de type 2 X 2, notamment le risque relatif.

# construction de la table de contingence
mymat <- matrix(c(109,387,115,735), byrow = TRUE,nc=2)
colnames(mymat) <- c("M+", "M-")
rownames(mymat) <- c("E+", "E-")

mymat

## M+ M-
## E+ 109 387
## E- 115 735
library(epiR)

epi.2by2(dat = mymat, method = "cohort.count",
conf.level = 0.95, units = 100, outcome = "as.columns")
Point estimates and 95% CIs:
-------------------------------------------------------------------
Inc risk ratio                               1.62 (1.28, 2.06)
Odds ratio                                   1.80 (1.35, 2.40)
Attrib risk *                                8.45 (4.14, 12.76)
Attrib risk in population *                  3.11 (0.07, 6.15)
Attrib fraction in exposed (%)               38.43 (21.93, 51.45)
Attrib fraction in population (%)            18.70 (8.68, 27.63)
-------------------------------------------------------------------
 Test that odds ratio = 1: chi2(1) = 16.108 Pr>chi2 = < 0.001
 Wald confidence limits
 CI: confidence interval
 * Outcomes per 100 population units 

La ligne ‘Inc risk ratio’ (’qui signifie incidence risk ratio) correspond au risque relatif. Celui-ci est estimé, comme précédemment à 1.62. Son intervalle de confiance à 95% est estimé par les bornes [1.28 ; 2.06]. Cet intervalle ne contenant pas 1, on peut conclure que le facteur étudié est réellement un facteur de risque. Cela est confirmé dans la dernière ligne de la sortie, puisque la p-value du test du Chi2 est <0.001.

Remarque : Dans l’utilisation de la fonction epi.2by2(), l’argument method = "cohort.count", permet d’indiquer qu’il s’agit des résultats d’une enquête de cohorte, c’est ce qui permet au risque relatif d’être calculé. L’argument outcome = "as.columns", permet d’indiquer que la maladie (la réponse) est en colonne de la table de contingence fournit dans l’argument dat = mymat.

Les enquêtes cas témoins

Principe

Dans les enquêtes étiologiques de type “cas-témoins”, les sujets sont sélectionnés en fonction de leur statut vis-à-vis de la maladie ou de l’infection étudiée, c’est à dire s’ils sont malades (cas) ou non malades (témoin). Là encore les témoins sont choisis de façon à être le plus similaires possible des cas. Les cas et les témoins sont ensuite interrogés afin d’établir s’ils ont été exposés, dans le passé, au facteur de risque potentiel étudié.

Calcul de l'odds ratio

Pour fixer les idées, imaginons qu’une enquête de type cas témoins incluant 224 cas et 1122 témoins a abouti à la table de contingence suivante :

Dans les enquêtes cas témoins, le nombre de cas, autrement dit, de sujets malades (M+), est “choisi”, ou en tout cas “contrôlé” par les responsables de l’étude. Dans notre exemple, à la place d’inclure 224, il aurait sans doute été possible (dans d’autres conditions sans doute) d’inclure uniquement la moitié de ces cas.

Dans cette situation où le nombre de malades est contrôlé, le calcul de l’incidence de la maladie, qui fait intervenir le nombre de malades et de non-malades, n’a pas de sens.

Le paramètre épidémiologique calculé dans les enquêtes étiologiques cas-témoins, est l’odds ratio (OR) ou rapport de cote en français (RC) :

\[\]OR = \frac{a/c}{b/d} = \frac{96/104}{109/666}\ = \frac{0.923}{0.164}\ =  5.63\[\]

L’odds ratio correspond à la cote d’exposition des cas (malades) sur la cote d’exposition des témoins (non-malades).

Remarque : Lorsque que la maladie est rare, on considère généralement que la prévalence doit être <10%, l’odds ratio peut être assimilé à un risque relatif.

Règles d'interprétation de l'odds ratio

Les règles d’interprétation de l’odds ratio sont similaires à celles du risque relatif :

  • si l’OR est significativement < 1 alors le facteur de risque potentiel est en réalité un facteur protecteur.
  • si l’OR n’est pas significativement différent de 1, alors le facteur de risque potentiel n’est pas un facteur de risque, il n’y a pas de lien entre la maladie et l’exposition.
  • si l’OR est significativement > 1 alors le facteur de risque potentiel est bien un facteur de risque. Et si la prévalence de la maladie est rare, on interprétera l’odds ratio comme un risque relatif, et on conclura qu’un sujet exposé à un risque 5.75 fois plus élevé de contracter la maladie, par rapport à un sujet non exposé.

Evaluation de la significativité de l'odds ratio

L’évaluation de la significativité de l’odds ratio est similaire à celle du risque relatif. Elle consiste à calculer l’intervalle de confiance et/ ou à réaliser un test de dépendance entre l’exposition et la maladie par l’intermédiaire d’un test du Chi2, ou d’un test exact de Fisher.

# construction de la table de contingence
mymat <- matrix(c(96,109,104,666), byrow = TRUE,nc=2)
colnames(mymat) <- c("M+", "M-")
rownames(mymat) <- c("E+", "E-")
mymat
##     M+  M-
## E+  96 109
## E- 104 666
epi.2by2(dat = mymat, method = "case.control",
conf.level = 0.95, units = 100, outcome = "as.columns")


             Outcome +    Outcome -      Total        Prevalence *        Odds
Exposed +           96          109        205                46.8       0.881
Exposed -          104          666        770                13.5       0.156
Total              200          775        975                20.5       0.258

Point estimates and 95% CIs:
-------------------------------------------------------------------
Odds ratio (W)                               5.64 (4.00, 7.95)
Attrib prevalence *                          33.32 (26.08, 40.57)
Attrib prevalence in population *            7.01 (3.51, 10.51)
Attrib fraction (est) in exposed  (%)        82.23 (74.60, 87.60)
Attrib fraction (est) in population (%)      39.49 (30.66, 47.19)
-------------------------------------------------------------------
 Test that odds ratio = 1: chi2(1) = 110.255 Pr>chi2 = < 0.001
 Wald confidence limits
 CI: confidence interval
 * Outcomes per 100 population units 

En utilisant l’argument `method = “case.control”` d’autres paramètres sont calculés par la fonction `epi.2by2()`, dont notamment l’odds ratio. Celui-ci est estimé, comme nous l’avons vu précédemment à 5.64. Son intervalle de confiance à 95% est estimé à [4 ; 7.95]. Cet intervalle
ne contenant pas 1, on peut conclure que le facteur étudié est réellement un facteur de risque. Cela est confirmé dans la dernière ligne de la sortie, puisque la p-value du test du Chi2 est < 0.001.

Si la prévalence de la maladie est <10%, on peut ajouter que le risque de contracter la maladie est 5.64 fois plus élevé pour un sujet exposé, qu’un sujet non exposé.

Les enquêtes transversales

Les enquêtes transversales ressemblent à des enquêtes descriptives, puisque les sujets ne sont sélectionnés ni sur leur statut vis-à-vis de la maladie, ni sur leurs statut vis-à-vis de l’exposition. Le recueil de ces deux informations (la maladie et l’exposition) se déroule dans le même temps. De ce fait, il n’y a pas de notion de temporalité entre l’exposition et la maladie: il n’est pas possible de savoir si l’exposition est intervenue avant ou après l’apparition de la maladie. Autrement dit, il n’est pas possible de savoir si l’exposition est la cause ou la conséquence de la maladie.

Les enquêtes transversales apportent donc un niveau de preuve plus faible que les deux autres types d’enquêtes étiologiques. Les enquêtes transversales servent donc surtout d’études préliminaires dans l’évaluation d’une liaison entre un facteur de risque éventuel et une maladie.

Les paramètres mesurés dans les enquêtes transversales sont généralement les prévalences des maladies chez les sujets exposés et non exposés :\[PrE^+=\frac{a}{a+b}\]\[PrE^-=\frac{c}{c+d}\]Dans un second temps, un rapport de prévalence peut être calculé :\[RP = \frac{PrE^+}{PrE^-}\]Mathématiquement, cela revient à calculer des taux d’incidence et un risque relatif. Néanmoins, dans le cas des études transversales, ces quantités ne peuvent pas s’interpréter comme tels.

Conclusion

De mon point de vue, l’épidémiologie est une discipline vraiment passionnante. Notamment parce qu’elle peut concerner des domaines de la santé extrêmement variés (la nutrition, la cancérologie, l’infectiologie, etc…), parce qu’elle peut s’intéresser à des populations très différentes (les nouveaux nés, les travailleurs, les personnes incarcérées, etc…), ou encore à des maladies rares pour lesquelles on essaye de faire avancer la connaissance en recherchant des facteurs de risques.

Et vous, est-ce que l’épidémiologie vous passionne ? Si oui (ou non d’ailleurs), expliquez-moi pourquoi en commentaire. N’hésitez pas non plus à me dire si vous aimeriez que j’écrive d’autres articles en rapport avec cette discipline.

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

Crédits photos :parAndreas Breitling de Pixabay

13 réponses

  1. Personnellement, ce sont les multiples manières d’aboutir à des résultats biaisés avec les enquêtes épidémiologiques qui me passionnent !
    Merci de vos articles très intéressants

    1. Bonjour Alexis,
      JE vous comprends ! Et vous avez écris un livre très intéressant sur le sujet ” Enquêtes médicales et évaluation des médicaments : De l’erreur involontaire à l’art de la fraude”, aux éditions desiris (https://www.adverbum.fr/DesirisMR.html). Je l’ai commencé, mais pas fini ! Merci pour la piqûre de rappel ! Je vais essayer de le lire ce week end. Bon week à vous !

  2. Merci beaucoup pour cette article passionnant.

    Personnellement, je suis très intéressée par l’épidémiologie, ça fait partie de mon travail de doctorat et j’aimerais bien approfondir mes connaissances.

    On aimerait bien lire plus d’article de ce genre dans votre blog surtout sur l’épidémiologie descriptive, Les prévalences, comment comparer des prévalences, le test de Chi-deux, la régression linéaire et les prévisions…

    Bonne continuation
    Cordialement
    Dounia

  3. Toujours cette qualité pédagogique étonnante pour expliquer simplement des concepts parfois abstraits, et donner au lecteur “l’impression” d’être intelligent. Fan de la première heure du blog, je le recommande régulièrement à mon entourage! Merci Claire.

    1. Merci Bruno ! Mon premier objectif c’était que les étudiants (ou leur encadrant 😉 ne se sentent plus complètement perdu en stats. Mais si en plus je donne l’impression d’être intelligent, alors …ça me donne moi même l’impression d’être intelligente. Et ça , un vendredi, veille de week end, c’est pas mal du tout !

  4. Bonjour,
    En tant que médecin d’entreprise, j’ai mis en place une campagne de vaccination contre la grippe saisonnière auprès des salariés de la compagnie. j’aimerai faire un bilan de la démarche. A quelle type d’analyse épidémiologique correspondrait ma recherche? je souhaite en effet évaluer :
    1/ la couverture vaccinale (par service, par catégorie professionnelle si cela présente un intérêt)
    2/ l’efficacité de la mesure (plus complexe à analyse je pense. quels critères retenir pour l’absentéisme….)
    Surtout je m’interroge sur la notion d’échantillon ou de population qu’il me faut retenir pour travailler sur les données:
    Doit-on considérer que l’ensemble du personnel a qui j’ai proposé la vaccination correspond à un échantillon (des entreprises du même type), mais dans ce cas l’échantillon n’est pas aléatoire car mon entreprise peut différer des autres du même type par bien des points. Ou bien doit-on considérer que l’ensemble des salariés correspond à la population totale? dans ce dernier cas la couverture vaccinale ne correspondrait plus à une variable aléatoire, mais à un pourcentage exact. comment doit-on alors estimer les pourcentages selon le service, selon la catégorie professionnelle? Les test de comparaisons de pourcentage ne sont j’imagine plus les mêmes que ceux appliqués pour des échantillons.

    Merci de m’éclairer sur ce sujet.
    Cordialement
    Raphaël

    1. Bonsoir,
      Ce sont d’excellentes questions…auxquelles je n’ai pas de réponses très sûres…
      Je pense que l’ensemble du personnel correspond à la population.Je n’ai pas notion de tests différents. Et pour le 2), je ne sais pas.
      Bonne continuation

  5. Il s’agit d’un très bon article touchant quelques notions sur l’épidémiologie qui est une discipline très intéressante pour étudier l’évolution d’une pandémie comme le Sars-cov2 en se basant sur trois notions de base en épidémiologie à savoir la prévalence, l’incidence et le taux de transmission de la maladie.
    Merci Claire d’évoquer ce sujet, j’espère que vous traitiez ces notions avec R dans les prochains articles notamment SIR, SIRS etc
    Bonne continuation

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.