Régression à la moyenne

set.seed(1) # matrice de variance covariance #cov(x,y) =r(x,y)*sd(x)*sd(y) = 0.7*8*8 =44.8 sigma<-rbind(c(64,44.8), c(44.8,64)) mu<-c(90, 90) n=100 library(MASS) df<-as.data.frame(mvrnorm(n=n, mu=mu, Sigma=sigma)) library(tidyverse) names(df) <- c("T0", "T1") df <- df %>% mutate(id=1:n()) head(df) ## T0 T1 id ## 1 87.30164 83.45737 1 ## 2 91.22399 91.48498 2 ## 3 86.65910 81.01432 3 ## 4 101.27658 102.25584 4 ## 5 94.45849 90.40217 5 ## 6 78.47278 89.42426 6

t.test(df$T0,df$T1, paired=TRUE) ## ## Paired t-test ## ## data: df$T0 and df$T1 ## t = 0.39471, df = 99, p-value = 0.6939 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0.9434954 1.4120715 ## sample estimates: ## mean of the differences ## 0.2342881

df_long <- df %>% mutate(id=1:n()) %>% pivot_longer(-id, names_to="Time", values_to="Value") # boxplot ggplot(df_long , aes(x=Time, y=Value, fill=Time, colour=Time))+ geom_boxplot(alpha=0.5, notch = TRUE, outlier.alpha=0)+ geom_jitter(width=0.05)+ geom_line(aes(group=id), colour="gray50")+ theme_classic()+ theme(legend.position = "none")

t.test(T0_sup95$T0,T0_sup95$T1, paired=TRUE) ## ## Paired t-test ## ## data: T0_sup95$T0 and T0_sup95$T1 ## t = 3.9279, df = 22, p-value = 0.000719 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## 1.650126 5.341729 ## sample estimates: ## mean of the differences ## 3.495928

T0_sup95_long <- T0_sup95 %>% pivot_longer(-id, names_to="Time", values_to="Value") ggplot(T0_sup95_long , aes(x=Time, y=Value, fill=Time, colour=Time))+ geom_boxplot(alpha=0.5, notch = TRUE, outlier.alpha=0)+ geom_jitter(width=0.05)+ geom_line(aes(group=id), colour="gray50")+ theme_classic()+ theme(legend.position = "none")

df <- df %>% mutate(grp = ifelse(T0<95 & T1<95,"normotensive", ifelse(T0>=95 & T1 >=95, "hypertensive", ifelse(T0<95 & T1>=95, "Changing1", "Changing2")))) ggplot(df, aes(x=T0, y=T1,colour=grp))+ geom_point()+ scale_x_continuous(limits=c(70,110), breaks=c(70, 80, 90, 95, 100, 110))+ scale_y_continuous(limits=c(70,110), breaks=c(70, 80, 90, 95, 100, 110))+ geom_vline(xintercept=95, colour="black")+ geom_hline(yintercept = 95, colour="black")+ scale_colour_manual(values=c("blue", "orange", "magenta", "green3"))+ theme_classic()+ theme(legend.position = "none")

8 réponses

SamGG dit :
1 décembre 2021 à 14 h 15 min
Merci Claire pour cet excellent article et son illustration en biomédecine.
Très bon sujet, effectivement négligé.
En anglais j’aime bien l’exemple de Veritasium dans
« How We’re Fooled By Statistics » https://www.youtube.com/watch?v=1tSqSMOyNFE
Répondre
Leopold MBOUS NGUIMBUS dit :
4 décembre 2021 à 19 h 29 min
Merci beaucoup Claire cet article était vraiment très intéressant. Je vais continuer d’approfondir mes lectures sur le sujet.
Répondre
Leopold MBOUS NGUIMBUS dit :
4 décembre 2021 à 19 h 31 min
Merci beaucoup, Claire cet article était très intéressant. Je vais continuer d’approfondir mes connaissances sur le sujet.
Répondre
PAUL ARMAND KWATE NJEWA dit :
8 mars 2022 à 10 h 53 min
Merci Claire pour cet article, ta méthode de la rendre digeste.
Répondre
Sandra Noe dit :
5 avril 2022 à 10 h 57 min
Excellent article. La notion de régression à la moyenne rendue tangible et compréhensible par tous. Merci Claire !
Répondre
1. Claire Della Vedova dit :
  6 avril 2022 à 5 h 39 min
  Merci Sandra !
  Répondre
Lecerf dit :
21 mars 2023 à 17 h 16 min
la régression à la moyenne est due à la corrélation imparfaite entre les 2 mesures !
Répondre
Patrice dit :
11 mai 2023 à 15 h 36 min
Merci Claire pour ce sujet passionnant que devrait bien intégrer les chercheurs mais aussi les cliniciens. On peut observer de probable régression à la moyenne dans des suivis individuels. En rééducation, sur des cas neurologiques lourds par exemple, les premières évaluations motrices peuvent être très mauvaises en raison tout simplement de l’état psychologique de la personne, de la prise de conscience du diagnostic, de l’inconnu du devenir, de la découverte des plateaux de rééducation et de leurs personnels. Cela se traduit par une évolution typique d’une amélioration progressive des premières semaines suivi d’un plateau de performance qui précède une nouvelle dégradation. Les conditions de mesure vont jouer un rôle important dans cette courbe évolutive, les mauvaises conditions du début laissent place à un espace et des interactions sociales rassurantes, d’où un retour vers la vraie valeur de la performance, et qui va continuer à croitre par l’aspect encourageant. Elle va néanmoins rencontrer un plateau qui va au final décourager la personne et la faire régresser. Dans ce type de courbe, il est probable que la performance réelle n’ait pas bougée et que les thérapeutes aient attribué les progrès à leur action qui n’a eu, en réalité, aucune influence. En mettant en plus dans l’équation l’histoire naturelle de la maladie, l’effet Hawthorne et l’effet placebo, il est très difficile d’apporter la preuve que le thérapeute à été efficient. Le bon coté, c’est que lorsque l’évolution est positive, même si le thérapeute n’y est pour rien, il en récolte les bénéfices (et se prend parfois pour ce qu’il n’est pas). Tout ces process sont opérationnels dans l’utilisation de traitements dont on a les preuves de l’effet et c’est un plus pour le patient, par contre ils constituent la plupart du temps le seul fondement actif des traitements alternatifs dans les médecines douces. Les courbes d’amélioration, de plateau et de dégradation sont extrêmement communes dans ces interventions. Cela pose aussi la question de la fiabilité des mesures, des erreurs standards et des changements minimum détectables, on aura peut être une page sur le sujet ? Merci encore pour ce formidable blog.
Répondre

Régression à la moyenne

Contexte du phénomène de régression à la moyenne

Table des matières

Définition de la régression à la moyenne

A quoi est dû la régression à la moyenne ?

Conséquences de la régression à la moyenne

Illustration de la régression à la moyenne

Comparaison des valeurs à T0 et T1 sur l'ensemble des sujets

Comparaison des valeurs à T0 et T1 des sujets ayant une pression >95 mmHg

Comment limiter l’effet de régression à la moyenne ?

Pour aller plus loin

Conclusion

Poursuivez votre lecture

8 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)