Introduction aux plans expérimentaux en cross over

Les plans expérimentaux en cross over sont des plans d’expérience utilisés principalement dans l’industrie pharmaceutique et dans la nutrition animale, dans lesquels le sujet est son propre témoin.

Table des matières

Présentation du plan expérimental en cross over

Si deux traitements A et B sont testés, les sujets étant leur propre témoin, ils recevront successivement les deux traitements, mais selon deux séquences différentes. Le principe est de constituer deux groupes de sujets par randomisation (tirage aléatoire). Les sujets du premier groupe recevront le traitement A au cours de la première période de l’essai, puis le traitement B au cours de la seconde période. Leur séquence est donc “AB”. Les sujets de l’autre groupe, à l’inverse, recevront le traitement B en première période, puis le traitement A en seconde période ; leur séquence est donc “BA”. De manière générale, le plan expérimental en cross over contient autant de périodes que de traitements.

cross over avec R

En pratique, les deux périodes sont séparées dans le temps par une période dite de sevrage, ou washout en anglais. Ce plan est dit en cross over parce que l’attribution des traitements se fait de façon croisée au cours du temps :

design cross over

Le plan expérimental en cross over peut s’envisager en partie comme un plan factoriel (ici 2 X 2), dans lequel les facteurs étudiés sont le traitement, et la période. Les données pourraient se représenter sous cette forme.

cross over avec R

Avantage du plan expérimental en cross over

Ce type de plan, dans lequel le sujet est son propre témoin, présente deux avantages :

  • diminuer le nombre de patients nécessaires, puisqu’un patient compte pour deux unités expérimentales (une fois dans la période 1, une fois dans la période 2)
  • diminiuer la variance résiduelle, car la variabilité de la réponse d’un même sujet à deux traitements différents (on parle de variabilité intra-sujet) est plus faible que la variabilité entre sujet (on parle de variabilité inter-sujet).

Ces deux éléments concourent à augmenter la puissance des analyses statistiques.

Principe de l'analyse statistique d'un plan expérimental en cross over

L’analyse statistique des données issues d’un plan d’expérience en cross over est, comme pour un plan factoriel classique, basée sur la décomposition de la variance. Cette décomposition de la variance est néanmoins plus complexe, du fait de la répétition des observations chez un même sujet. Ceci implique qu’une part de la variation leur est alors également imputable. Ainsi, la variation totale des observations d’un plan expérimental en cross over a quatre origines distinctes :

  • une part imputable au traitement,
  • une part imputable à la période,
  • une part imputable à l’interaction du traitement et de la période. Cet effet correspond à l’effet de la séquence (ou ordre) des traitements,
  • une part imputable aux sujets.

La répétition des observations chez un même sujet, entraîne également une non-indépendance de données (et par la même occasion une non-indépendance des résidus du modèle). En pratique, cela se traduit par la nécessité d’utiliser ce qu’on appelle un modèle de régression à effets mixtes. Il s’agit d’un modèle de régression qui contient à la fois des effets que l’on dit “fixes” et qui sont gérés par l’expérimentateur (le traitement, la période, la séquence), et des effets que l’on dit “aléatoires” (ici le sujet). L’inclusion d’un effet aléatoire “sujet” permet d’indiquer au modèle que les observations réalisées sur un même sujet sont corrélées (elles ne sont pas indépendantes). Cela permet d’estimer correctement la variance résiduelle. Cela est très important, car c’est cette variance résiduelle qui figure au dénominateur des statistiques des tests, employés pour évaluer les effets propres définis précédemment.

Pour plus de détails sur les tests employés dans les analyses de variance, vous pouvez consulter cet article.

Le format des données

Pour analyser les données issues d’un plan expérimental en cross-over, celles-ci doivent être au format “tidy” et contenir les variables suivantes :

  • numéro d’identification du sujet (doit être codé en facteur)
  • la séquence des traitements (AB ou BA) à laquelle est rattachée le sujet
  • le traitement : A ou B relatif à l’observation
  • la période (P1 ou P2) relative au traitement (si vous utilisez les codes 1 et 2, attention à bien considérer la variable comme une variable catégorielle)
  • la réponse observée.

Voici un exemple :

 ## # A tibble: 24 x 5
    ##    id    seqTrt trt   periode reponse
    ##             
    ##  1 1     AB     A     1          32.5
    ##  2 1     AB     B     2          37.3
    ##  3 2     BA     B     1          31.7
    ##  4 2     BA     A     2          27.8
    ##  5 3     BA     B     1          34.2
    ##  6 3     BA     A     2          29.8
    ##  7 4     AB     A     1          28.5
    ##  8 4     AB     B     2          30.3
    ##  9 5     BA     B     1          31.2
    ## 10 5     BA     A     2          27.1
    ## # ... with 14 more rows 

Visualisation

library(ggplot2)
ggplot(mydata2, aes(x=trt, y=reponse, colour=periode, fill=periode))+
        geom_point(position=position_jitterdodge(dodge.width=0.7), size=2)+
        geom_boxplot(alpha=0.25,outlier.size=0)+
        scale_colour_manual(values=c(c("#1E90FF", "#D02090", "#FFFFFF")))+
        scale_fill_manual(values=c("#1E90FF", "#D02090", "#FFFFFF"))+
        theme_classic() 
cross over avec R

On peut également visualiser les trajectoires individuelles :

cross over avec R

Modélisation

Pour ajuster un modèle mixte, on utilise la fonction lme() du package lme4. Pour obtenir les p-values relatives à chaque effet, il est nécessaire de charger le package lmerTest.

library(lme4) 
library(lmerTest) 

Ajustement

Le modèle classiquement ajusté est le modèle complet, c’est-à-dire contenant les effets fixes traitement, période et séquence (qui correspond à l’interaction traitement * période).

mod1 <- lmer(reponse ~ trt + periode + seqTrt + (1|id), data=mydata2, REML=FALSE ) 

L’effet aléatoire “sujet” est inclus en utilisant la syntaxe “(1|id)”. L’argument REML=FALSE permet d’utiliser l’algorithme ML pour “Maximum Likelihood”, qui doit être utilisé pour évaluer les effets fixes d’un modèle mixte. Vous trouverez plus d’informations sur l’utilisation des algorithmes REML et ML dans le livre de Zuur, Ieno et al.

Et dans celui de Pinheiro et Bates :

Evaluation des hypothèse de normalité et d'homogénéité

qqnorm(residuals(mod1)) 
qqline(residuals(mod1)) 
hypothèse de normalité avec R

La normalité des données n’est pas optimale, mais elle reste globalement acceptable.

plot(mod1) 
hypothèse d'homogénéité avec R

Résultats et interprétation

La fonction anova() permet d’obtenir la table de variance.

 anova(mod1)  
    ## Type III Analysis of Variance Table with Satterthwaite's method
    ##          Sum Sq Mean Sq NumDF DenDF F value    Pr(>F)    
    ## trt     102.756 102.756     1    12 98.6976 3.844e-07 ***
    ## periode   0.024   0.024     1    12  0.0235    0.8807    
    ## seqTrt    0.234   0.234     1    12  0.2251    0.6437    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Si l’expérimentation clinique en cross over a été correctement réalisée, on s’attend à une absence d’effet de l’ordre des traitements. Dans le cas inverse, je ne pense pas que l’effet propre du traitement puisse s’interpréter.

Si l’effet période est significatif, alors on pourra seulement comparer les réponses observées pour les traitements A et B au cours de la première période, puisque les patients ont été répartis aléatoirement dans les deux groupes de séquence. On perd néanmoins la moitié des effectifs, ce qui entraîne une perte de puissance statistique.

Dans notre exemple, les effets de la période et de la séquence ne sont pas significatifs, l’effet du traitement peut donc s’interpréter. Les résultats montrent qu’il existe un effet significatif du traitement, et à l’aide du graph réalisé plus haut, on peut conclure que la moyenne des réponses au traitement B est significativement supérieure à celle du traitement A.

Si plus de deux traitements sont testées, des comparaisons multiples peuvent être réalisés afin de comparer les traitements deux à deux. Pour plus d’information sur cette procédure, vous pouvez consulter cet article.

Les variances résiduelle et relative à la variable “sujet” peuvent être obtenues avec la fonction summary(), au niveau de la partie “Random Effect”.

summary(mod1)    
    ## Linear mixed model fit by maximum likelihood . t-tests use
    ##   Satterthwaite's method [lmerModLmerTest]
    ## Formula: reponse ~ trt + periode + seqTrt + (1 | id)
    ##    Data: mydata2
    ## 
    ##      AIC      BIC   logLik deviance df.resid 
    ##    106.9    113.9    -47.4     94.9       18 
    ## 
    ## Scaled residuals: 
    ##     Min      1Q  Median      3Q     Max 
    ## -1.4646 -0.3171 -0.1048  0.6940  1.3385 
    ## 
    ## Random effects:
    ##  Groups   Name        Variance Std.Dev.
    ##  id       (Intercept) 3.945    1.986   
    ##  Residual             1.041    1.020   
    ## Number of obs: 24, groups:  id, 12
    ## 
    ## Fixed effects:
    ##             Estimate Std. Error       df t value Pr(>|t|)    
    ## (Intercept) 29.89519    0.91164 14.75997  32.793 3.34e-15 ***
    ## trtB         4.13835    0.41656 12.00000   9.935 3.84e-07 ***
    ## periode2     0.06388    0.41656 12.00000   0.153    0.881    
    ## seqTrtBA    -0.57890    1.22011 12.00000  -0.474    0.644    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Correlation of Fixed Effects:
    ##          (Intr) trtB   perid2
    ## trtB     -0.228              
    ## periode2 -0.228  0.000       
    ## seqTrtBA -0.669  0.000  0.000 

Conclusion

Pour écrire cet article, je me suis, entre autres, appuyée sur cette publication, ce postce document, et le chapitre “le sujet pris comme son propre témoin” du livre Méthodes statistiques appliquées à la recherche clinique, de A. Laplanche, C. Com-Nougué, et R. Flamant.

A noter qu’il existe un package R (crossOver) dédié aux plans d’expérience en cross over. Néanmoins, je n’ai pas pu le tester car je ne suis pas parvenu à l’installer.

J’espère que cet article vous aura permis de vous initier au plans expérimentaux en cross over et à l’analyse statistique des données qui en sont issues. N’hésitez pas à me faire part de vos remarques en commentaire.

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

Crédit photo : Berzin

 

Note : Je touche une petite commission (entre 3 et 6%) si vous passez par les liens Amazon de cet article pour acheter les livres mentionnés. cela m’aide à entretenir ce blog, merci si vous le faites ! 😉

Retrouvez ici d'autres articles en lien avec celui que vous venez de lire

6 réponses

  1. SVP, si vous avez une idée sur les plans éxpérimentaux en agronomie (répétition) je veux savoir coment les traiter avec “R”…un grand merci Clair

  2. Bonjour,

    Excellent article comme d’habitude, je vous en remercie 

    Je travaille pour la première fois sur les modèles crossover, du coup j’utilise les modèles linéaires mixte

    • ID du sujet
    • la séquence des traitements (AB ou BA)
    • le traitement : A ou B
    • la période (P1 ou P2)
    • la réponse variable quantivive .

    Je dois faire la même chose, en gardant ID, la séquence, le traitement, la période mais la variable réponse change
    1er cas la réponse : évaluation de la douleur, une échelle numérique de 0 à 10
    2ème cas la réponse : 2 modalités (oui/non)
    3ème cas la réponse :5 modalités (croute, hématome, rougeur, inflammation, chaleur)

    Est-ce que on est dans les modèles GLMM pour les 3 cas ?
    Si c’est oui,
    est ce qu’une échelle numérique de 0 à 10 considérer comme un comptage ou variable quantitative continues
    2ème cas : est ce que GLMM régression logistique ?
    3ème cas : 5 modalités je n’ai jamais croisé ce cas, du coup aucune idée sur le modèle

    Merci d’avance

  3. Bonjour,

    Je vous remercie pour cet article très claire.
    Quelle méthode je peux utiliser dans le cas de l’analyse de survie , svp ?
    Je suis toujours dans un cadre de cross-over.

    Merci pour votre réponse,
    Bien cordialement
    Nicoleta

  4. Bonjour,
    Merci pour cette article.

    J’ai une remarque concernant la fonction R pour le modele mixte que vous avez utilisé. Lmer est specifique pour modeliser l’effet centre, et il faut recourir à la fonction lme() de la librairie nlme pour étudier les mesures repetés chez les sujets. Les résidus ne présentent plus la matrice identité multipliée par une constante comme c’est le cas avec la fonction lmer().

    Dans la fonction Lmer, REML vs ML, quelques traveaux ont demontrés que REML marche mieux.

    Bien cordialment

    Fawzi
    .

    1. Bonjour Fawzi,

      d’après mes connaissances, la fonction lme() du package nlme et la fonction lmer() du package lme4 produisent des résultats simimaires et la fonction lmer permet bien d’étudier les mesures répétées chez un même sujet. Qu’est-ce que vous voulez dire par “modéliser l’effet centre” ?
      Concernant REML vs ML, certains auteurs, comme Zuur recommandent de passer en ML pour évaluer les effets fixes et simplifier le modèle, puis de repasser en REML pour les résultats finaux.
      Si vous avez d’autres ressources, je suis preneuse !
      Bien à vous.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.