La régression logistique par l'exemple

## age gender chest_pain resting_blood_pressure serum_cholestoral ## 1 63 male 1 145 233 ## 2 67 male 4 160 286 ## 3 67 male 4 120 229 ## 4 37 male 3 130 250 ## 5 41 female 2 130 204 ## 6 56 male 2 120 236 ## fasting_blood_sugar resting_electro max_heart_rate exer_angina oldpeak slope ## 1 1 2 150 0 2.3 3 ## 2 0 2 108 1 1.5 2 ## 3 0 2 129 1 2.6 2 ## 4 0 0 187 0 3.5 3 ## 5 0 2 172 0 1.4 1 ## 6 0 0 178 0 0.8 1 ## num_vessels_flour thal heart_disease_severity exter_angina has_heart_disease ## 1 0 6 0 0 no ## 2 3 3 2 1 yes ## 3 2 7 1 1 yes ## 4 0 3 0 0 no ## 5 0 3 0 0 no ## 6 0 3 0 0 no

## ## Call: ## glm(formula = has_heart_disease ~ max_heart_rate + gender, family = binomial, ## data = HD) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -2.1779 -0.8724 -0.4687 0.9334 2.1654 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 5.601857 1.012870 5.531 3.19e-08 *** ## max_heart_rate -0.045089 0.006757 -6.673 2.50e-11 *** ## gendermale 1.406210 0.300763 4.675 2.93e-06 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 417.98 on 302 degrees of freedom ## Residual deviance: 336.67 on 300 degrees of freedom ## AIC: 342.67 ## ## Number of Fisher Scoring iterations: 4

## ## Call: ## glm(formula = has_heart_disease ~ max_heart_rate + gender, family = quasibinomial, ## data = HD) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -2.1779 -0.8724 -0.4687 0.9334 2.1654 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 5.601857 1.013476 5.527 7.07e-08 *** ## max_heart_rate -0.045089 0.006761 -6.669 1.24e-10 *** ## gendermale 1.406210 0.300943 4.673 4.50e-06 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## (Dispersion parameter for quasibinomial family taken to be 1.001198) ## ## Null deviance: 417.98 on 302 degrees of freedom ## Residual deviance: 336.67 on 300 degrees of freedom ## AIC: NA ## ## Number of Fisher Scoring iterations: 4

summary(mod1) ## ## Call: ## glm(formula = has_heart_disease ~ max_heart_rate + gender, family = binomial, ## data = HD) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -2.1779 -0.8724 -0.4687 0.9334 2.1654 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 5.601857 1.012870 5.531 3.19e-08 *** ## max_heart_rate -0.045089 0.006757 -6.673 2.50e-11 *** ## gendermale 1.406210 0.300763 4.675 2.93e-06 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 417.98 on 302 degrees of freedom ## Residual deviance: 336.67 on 300 degrees of freedom ## AIC: 342.67 ## ## Number of Fisher Scoring iterations: 4

library(car) Anova(mod1) ## Analysis of Deviance Table (Type II tests) ## ## Response: has_heart_disease ## LR Chisq Df Pr(>Chisq) ## max_heart_rate 57.260 1 3.819e-14 *** ## gender 24.229 1 8.554e-07 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

library(finalfit) dependent = "has_heart_disease" explanatory = c("gender","max_heart_rate") res_glm_multi <- HD%>% glmmulti(dependent, explanatory) %>% fit2df(estimate_suffix="(multivarié)") res_glm_multi kable(res_glm_multi,row.names=FALSE, align=c("l", "l", "r", "r", "r", "r"))

15 réponses

DABIRE dit :
20 avril 2020 à 8 h 40 min
Super, j’aimerais vraiment avoir plus d’articles pour apprendre le logiciel R. Svp avez vous des documents pour moi qui vont me permettre d’approfondir mes connaissances sur R
Répondre
Philippe MICHEL dit :
20 avril 2020 à 9 h 30 min
Merci pour cet article comme toujours très intéressant & pratique.
Petit problème technique dans le chapitre 3.2.2, les exemples ne s’affichent pas.
Répondre
Ndjeng dit :
20 avril 2020 à 12 h 26 min
Wahooo tres bon. Merci bcp 🙏
Répondre
YAO dit :
20 avril 2020 à 18 h 48 min
Formidable article.
Merci infiniment Claire.
Répondre
ada dit :
21 avril 2020 à 15 h 34 min
Bonjour, merci pour ce tutoriel
J’ai une petite question: Je recoit cette erreur, je ne sais pas son origine, veuillez m’aclaircir ce point , merci
> conflict_prefer(« filter », « dplyr »)
[conflicted] Removing existing preference
[conflicted] Will prefer dplyr::filter over any other package
Répondre
1. Claire Della Vedova dit :
  1 mai 2020 à 22 h 27 min
  Ce n’est pas un message d’erreur, juste un message d’information.
  Répondre
Floribert Muzembe dit :
21 avril 2020 à 21 h 02 min
Bonjour chère Claire,
Merci pour cet article. Comme pour tous vos articles, il est magnifique. Que du bonheur! La régression logistique est très utilisée en épidémiologie et là, pour la significativité d’association entre la variable réponse (souvent une maladie ou un décès) et les prédicteurs (facteurs de risque) , nous préférons souvent l’intervalle de confiance de l’OR au p (p-value). Pareil pour le risque relatif (RR).
Répondre
MALANDA dit :
9 mai 2020 à 23 h 42 min
Bonsoir Claire,
Merci pour la qualité de l’article. J’ai beaucoup apprécié les conditions de validité du modèle. Comme les autres articles, tu présentes les notions simplement et cela donne envie d’apprendre. Continue à m’envoyer les articles.
Répondre
Nsabimana dit :
19 juin 2020 à 8 h 54 min
je voudrais avoir des notions suffisantes sur le logiciel R
Répondre
1. Claire Della Vedova dit :
  21 juin 2020 à 22 h 07 min
  Bonjour,
  avez vous consulter la page débutants ? : https://statistique-et-logiciel-r.com/debutants-commencez-ici/
  Bonne continuation
  Répondre
Rachid dit :
10 septembre 2020 à 14 h 25 min
Super merci…
Comment tracer la courbe ROC du modèle logit estimé ? Merci
Répondre
1. Claire Della Vedova dit :
  15 septembre 2020 à 22 h 46 min
  Bonjour Rachid;
  ça fera peut être l’objet d’un prochain article…
  Bonne continuation
  Répondre
Theo dit :
14 février 2021 à 7 h 21 min
Bonjour,
Est il possible, avec la commande or_plot, de faire apparaitre les résultats des odd ratios en univarié (et non en multivarié comme réalisé par défaut)?
Merci
Répondre
1. Claire Della Vedova dit :
  15 février 2021 à 21 h 36 min
  Bonjour Theo,
  A priori non. Je n’ai pas trouvé d’argument susceptible de répondre à ce besoin dans la page d’aide de la fonction or_plot().
  Bonne continuation.
  Répondre
Jeanne dit :
17 octobre 2022 à 10 h 07 min
Bonjour,
Tout d’abord un grand merci pour votre site et votre pédagogie hors norme pour rendre les statistiques accessibles au plus grand nombre ! 🙂
J’effectue une régression logistique et la condition d’application d’absence de surdispersion n’est pas vérifiée. J’utilise donc la structure « quasibinomiale » comme conseillé … Vous dites que cela engendre une diminution de la statistique des tests et donc une augmentation de la p-value. Moi c’est le contraire qui est observé et cela pour deux analyses distinctes … Cela traduit un souci ?
Je vous remercie d’avance pour votre réponse et vous remercie à nouveau pour vos articles !
Jeanne
Répondre

La régression logistique par l'exemple

Prérequis

Les données pour la régression logistique

Visualisations

Préambule à la régression logistique

Plots

Réalisation de la régression logistique

Ajustement du modèle de régression logistique

Vérification des conditions d'application de la régression logistique

Nombre de cas suffisants

Absence de surdispersion

Dans le cas des GLM, la variance résiduelle est estimée à partir d’une loi théorique, ici la loi binomiale (c’est la structure d’erreur du GLM).

Interprétation des résultats de la régression logistique

Mise en forme et visualisation des résultats

Les résultats peuvent facilement être mis en forme à l’aide du package `finalfit`:

Conclusion

15 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)

La régression logistique par l'exemple

Prérequis

Les données pour la régression logistique

Visualisations

Préambule à la régression logistique

Plots

Réalisation de la régression logistique

Ajustement du modèle de régression logistique

Vérification des conditions d'application de la régression logistique

Nombre de cas suffisants

Absence de surdispersion

Dans le cas des GLM, la variance résiduelle est estimée à partir d’une loi théorique, ici la loi binomiale (c’est la structure d’erreur du GLM).

Interprétation des résultats de la régression logistique

Mise en forme et visualisation des résultats

Les résultats peuvent facilement être mis en forme à l’aide du package finalfit:

Conclusion

15 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)

Les résultats peuvent facilement être mis en forme à l’aide du package `finalfit`: