"Le Paradoxe de Simpson : Quand les apparences sont trompeuses

# Charger le package dplyr library(tidyverse) # Créer les données program <- c(rep("Programme 1", 100), rep("Programme 2", 100)) examen_entree <- c(rep("Eleve", 80), rep("Faible", 20), rep("Eleve", 20), rep("Faible", 80)) reussite = c(rep(1, 60), rep(0, 40), rep(1, 16), rep(0, 4), rep(1, 34), rep(0, 46)) mydata <- data.frame(program,examen_entree,reussite) # Calculer les taux de réussite globaux mydata %>% group_by(program) %>% summarise(taux_reussite = mean(reussite) * 100) ## # A tibble: 2 × 2 ## program taux_reussite ## <chr> <dbl> ## 1 Programme 1 60 ## 2 Programme 2 50

# Calculer les taux de réussite par sous-groupe mydata %>% group_by(examen_entree, program) %>% summarize(taux_reussite = mean(reussite) * 100) ## # A tibble: 4 × 3 ## # Groups: examen_entree [2] ## examen_entree program taux_reussite ## <chr> <chr> <dbl> ## 1 Eleve Programme 1 75 ## 2 Eleve Programme 2 80 ## 3 Faible Programme 1 0 ## 4 Faible Programme 2 42.5

library(ggplot2) library(ggpubr) g1 <- ggplot(iris, aes(y=Petal.Width, x=Sepal.Width))+ geom_point()+ geom_smooth(method="lm", colour="magenta")+ ggtitle("Toute espèce confondue")+ stat_regline_equation() g1

ggplot(iris, aes(y=Petal.Width, x=Sepal.Width, color=Species))+ geom_point()+ geom_smooth(method="lm")+ ggtitle("Par espèce")+ stat_regline_equation()

mydata %>% group_by(examen_entree) %>% summarize(taux_reussite = mean(reussite) * 100) ## # A tibble: 2 × 2 ## examen_entree taux_reussite ## <chr> <dbl> ## 1 Eleve 76 ## 2 Faible 34

mydata %>% group_by(examen_entree, program) %>% count() ## # A tibble: 4 × 3 ## # Groups: examen_entree, program [4] ## examen_entree program n ## <chr> <chr> <int> ## 1 Eleve Programme 1 80 ## 2 Eleve Programme 2 20 ## 3 Faible Programme 1 20 ## 4 Faible Programme 2 80

iris.aov1 <- aov(Petal.Width~Species, data=iris) library(parameters) parameters(iris.aov1, effectsize_type = "eta", type=2) ## Parameter | Sum_Squares | df | Mean_Square | F | p | Eta2 ## -------------------------------------------------------------------- ## Species | 80.41 | 2 | 40.21 | 960.01 | < .001 | 0.93 ## Residuals | 6.16 | 147 | 0.04 | | | ## ## Anova Table (Type 2 tests) iris.aov2 <- aov(Sepal.Width~Species, data=iris) library(parameters) parameters(iris.aov2, effectsize_type = "eta", type=2) ## Parameter | Sum_Squares | df | Mean_Square | F | p | Eta2 ## ------------------------------------------------------------------- ## Species | 11.34 | 2 | 5.67 | 49.16 | < .001 | 0.40 ## Residuals | 16.96 | 147 | 0.12 | | | ## ## Anova Table (Type 2 tests)

library(GGally) ggplot(mydata,aes(as.factor(program), fill=as.factor(reussiteF), by=as.factor(program)))+ geom_bar(position="fill", colour="black")+ scale_fill_manual(values=c("#EB2F2CCC", "#34EB68D3"))+ geom_text(aes(by=as.factor(program)), stat = "prop", position = position_fill(.5))+ facet_wrap(~examen_entree)+ labs(fill="Reussite")

ggplot(iris, aes(y=Petal.Width, x=Sepal.Width, color=Species))+ geom_point()+ geom_smooth(method="lm")+ ggtitle("Par espèce")+ facet_wrap(~Species)

# modélisation de 3 droites différente grâce au terme d'interaction lm1 <- lm(Petal.Width~Sepal.Width + Species + Sepal.Width:Species , data=iris) library(parameters) parameters(lm1) ## Parameter | Coefficient | SE | 95% CI | t(144) | p ## ----------------------------------------------------------------------------------------- ## (Intercept) | 0.02 | 0.22 | [-0.42, 0.46] | 0.11 | 0.914 ## Sepal Width | 0.06 | 0.06 | [-0.06, 0.19] | 1.00 | 0.317 ## Species [versicolor] | 0.14 | 0.31 | [-0.47, 0.76] | 0.46 | 0.647 ## Species [virginica] | 0.64 | 0.32 | [ 0.01, 1.27] | 2.02 | 0.046 ## Sepal Width × Species [versicolor] | 0.35 | 0.10 | [ 0.15, 0.55] | 3.50 | < .001 ## Sepal Width × Species [virginica] | 0.39 | 0.10 | [ 0.20, 0.59] | 3.95 | < .001 ggplot(iris, aes(y=Petal.Width, x=Sepal.Width, color=Species))+ geom_point()+ geom_smooth(method="lm")+ ggtitle("Par espèce")

# avec une pente identique lm2 <- lm(Petal.Width~Sepal.Width+Species, data=iris) parameters(lm2) ## Parameter | Coefficient | SE | 95% CI | t(146) | p ## ---------------------------------------------------------------------------- ## (Intercept) | -0.73 | 0.15 | [-1.03, -0.42] | -4.74 | < .001 ## Sepal Width | 0.28 | 0.04 | [ 0.20, 0.37] | 6.44 | < .001 ## Species [versicolor] | 1.27 | 0.05 | [ 1.17, 1.36] | 27.31 | < .001 ## Species [virginica] | 1.91 | 0.04 | [ 1.83, 1.99] | 46.13 | < .001 library(moderndive) # pour geom_parallel_slopes() ggplot(iris, aes(y=Petal.Width, x=Sepal.Width, color=Species))+ geom_point()+ geom_parallel_slopes()

library(performance) compare_performance(lm1, lm2) ## # Comparison of Model Performance Indices ## ## Name | Model | AIC (weights) | AICc (weights) | BIC (weights) | R2 | R2 (adj.) | RMSE | Sigma ## ------------------------------------------------------------------------------------------------- ## lm1 | lm | -96.2 (>.999) | -95.4 (0.999) | -75.1 (0.991) | 0.951 | 0.950 | 0.168 | 0.171 ## lm2 | lm | -80.8 (<.001) | -80.4 (<.001) | -65.8 (0.009) | 0.945 | 0.943 | 0.179 | 0.181

library(emmeans) emtrends(lm1, pairwise ~ Species, var = "Sepal.Width")$emtrends ## Species Sepal.Width.trend SE df lower.CL upper.CL ## setosa 0.0647 0.0645 144 -0.0627 0.192 ## versicolor 0.4184 0.0779 144 0.2645 0.572 ## virginica 0.4579 0.0758 144 0.3082 0.608 ## ## Confidence level used: 0.95

# modèle sans le groupe : 1 seul droite lm3 <- lm(Petal.Width~Sepal.Width, data=iris) parameters(lm3) ## Parameter | Coefficient | SE | 95% CI | t(148) | p ## ------------------------------------------------------------------- ## (Intercept) | 3.16 | 0.41 | [ 2.34, 3.97] | 7.64 | < .001 ## Sepal Width | -0.64 | 0.13 | [-0.90, -0.38] | -4.79 | < .001 ggplot(iris, aes(y=Petal.Width, x=Sepal.Width))+ geom_point()+ geom_smooth(method="lm")+ ggtitle("Par espèce")

compare_performance(lm1, lm2, lm3) ## # Comparison of Model Performance Indices ## ## Name | Model | AIC (weights) | AICc (weights) | BIC (weights) | R2 | R2 (adj.) | RMSE | Sigma ## ------------------------------------------------------------------------------------------------- ## lm1 | lm | -96.2 (>.999) | -95.4 (0.999) | -75.1 (0.991) | 0.951 | 0.950 | 0.168 | 0.171 ## lm2 | lm | -80.8 (<.001) | -80.4 (<.001) | -65.8 (0.009) | 0.945 | 0.943 | 0.179 | 0.181 ## lm3 | lm | 327.6 (<.001) | 327.8 (<.001) | 336.7 (<.001) | 0.134 | 0.128 | 0.707 | 0.712

9 réponses

Anne Pachot dit :
22 mars 2023 à 8 h 31 min
Merci, très instructif !
Répondre
Alexis NIYOGUSENGA dit :
22 mars 2023 à 14 h 02 min
Je suis interessse par ce Blog de Statistique avec R
Répondre
Albert dit :
22 mars 2023 à 17 h 54 min
Merci Claire de toute vos efforts Pour nous mettre à jour. Vraiment,je suis fier de vous
Répondre
Gilles dit :
22 mars 2023 à 18 h 10 min
Bien connu dans les plans d’expériences, la traduction des facteurs de confusion par les fonctions attachées à ggplot est réellement un plus !
Merci pour cela !
Répondre
Bernard Fortin dit :
22 mars 2023 à 23 h 49 min
En économétrie, on appelle cela le biais de variables omises. Il se manifeste lorsqu’une variable omise (qui fait donc partie du terme d’erreur et qui affecte la variable dépendante) est corrélée avec l’une ou l’autre des variables explicatives de la régression. Ainsi les aptitudes personnelles peuvent à la fois influencer le niveau de scolarité et le revenu de l’individu, ce qui fait qu’on a tendance à surestimer l’impact du niveau de scolarité sur le revenu de travail de l’individu.
Problème: comment bien contrôler pour les aptitudes personnelles ? On n’a pas toujours une variable de la sorte dans notre base de données…Idée: choisir une variable (un instrument) qui affecte le niveau de scolarité mais pas le niveau de revenu de travail (e.g. frais de scolarité,…).
Répondre
1. Claire Della Vedova dit :
  24 mars 2023 à 6 h 03 min
  Bonjour Bernard,
  Merci pour cet exemple complémentaire, dans un tout autre domaine. Je suis certaine que cela aidera des lectrices et lecteurs à encore mieux appréhender ce phénomène.
  Bien à vous.
  Répondre
Hendrik Pehlke dit :
23 mars 2023 à 9 h 06 min
Merci beaucoup pour cet article. Comme toujours, tes articles sont très intéressants et utiles. Je vais analyser mes données de manière beaucoup plus approfondie à l’avenir.
Répondre
Christophe dit :
27 mars 2023 à 18 h 13 min
Bonjour Claire,
Merci beaucoup pour votre article ! C’est très instructif.
Répondre
Paul dit :
29 mars 2023 à 11 h 10 min
Bonjour Claire,
Merci pour cet article.
Je vais l’appliquer systématiquement beaucoup plus maintenant lors des analyses.
Répondre

"Le Paradoxe de Simpson : quand les apparences sont trompeuses !

Table des matières

Introduction

Deux exemples du paradoxe de Simpson

Le paradoxe de Simpson en situation de comparaison de deux pourcentages

Paradoxe de Simpson en situation de régression linéaire

Mais qu’est ce qu’il se passe dans le paradoxe de Simpson?

Qu’est ce que nous montre le paradoxe de Simpson ?

Comment éviter de se faire pièger

Collaborer avec un expert métier

Visualiser les relations d’intérêt par sous groupe

Prendre en compte le facteur de confusion dans l’analyse

Conclusion

9 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez soutenir mon travail ?

Aide mémoire off'R ;)

"Le Paradoxe de Simpson : quand les apparences sont trompeuses !

Table des matières

Introduction

Deux exemples du paradoxe de Simpson

Le paradoxe de Simpson en situation de comparaison de deux pourcentages

Paradoxe de Simpson en situation de régression linéaire

Mais qu’est ce qu’il se passe dans le paradoxe de Simpson?

Qu’est ce que nous montre le paradoxe de Simpson ?

Comment éviter de se faire pièger

Collaborer avec un expert métier

Visualiser les relations d’intérêt par sous groupe

Prendre en compte le facteur de confusion dans l’analyse

Conclusion

9 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez soutenir mon travail ?​

Aide mémoire off'R ;)

Vous souhaitez soutenir mon travail ?