Introduction à la régression linéaire multiple

data(mtcars) library(ggplot2) ggplot(mtcars, aes(x=wt, y=mpg))+ geom_point(size=3)+ theme (axis.title= element_text(size=rel(2)), axis.text.x = element_text(size=rel(1.5)), axis.text.y = element_text(size=rel(1.5)))

reg_lin <- lm(mpg~wt, data=mtcars) summary(reg_lin) ## ## Call: ## lm(formula = mpg ~ wt, data = mtcars) ## ## Residuals: ## Min 1Q Median 3Q Max ## -4.5432 -2.3647 -0.1252 1.4096 6.8727 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 37.2851 1.8776 19.858 < 2e-16 *** ## wt -5.3445 0.5591 -9.559 1.29e-10 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.046 on 30 degrees of freedom ## Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446 ## F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10

mod_BBMenthe<- lm(RespCap~BBMenthe, data=mydata) summary(mod_BBMenthe) ## ## Call: ## lm(formula = RespCap ~ BBMenthe, data = mydata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -33.261 -10.757 0.434 10.079 30.040 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 93.9935 4.6487 20.22 <2e-16 *** ## BBMenthe -1.8621 0.1598 -11.65 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 14.71 on 98 degrees of freedom ## Multiple R-squared: 0.5808, Adjusted R-squared: 0.5765 ## F-statistic: 135.8 on 1 and 98 DF, p-value: < 2.2e-16

# normalité shapiro.test(residuals(mod_BBMenthe)) ## ## Shapiro-Wilk normality test ## ## data: residuals(mod_BBMenthe) ## W = 0.98874, p-value = 0.5642 # homoscédasticité library(car) ncvTest(mod_BBMenthe) ## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 1.281743, Df = 1, p = 0.25758

## RespCap BBMenthe Tabac ## 1 70.38067 18.08675 0.0000000 ## 2 76.31717 13.22714 0.5050505 ## 3 81.07273 20.77057 1.0101010 ## 4 66.20595 18.76900 1.5151515 ## 5 78.92753 21.09741 2.0202020 ## 6 76.51336 19.30346 2.5252525

mod_Tabac<- lm(RespCap~Tabac, data=mydata) summary(mod_Tabac) ## ## Call: ## lm(formula = RespCap ~ Tabac, data = mydata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -22.6041 -6.4520 0.7494 7.4656 17.1455 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 78.34797 1.69556 46.21 <2e-16 *** ## Tabac -1.42950 0.05859 -24.40 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 8.541 on 98 degrees of freedom ## Multiple R-squared: 0.8587, Adjusted R-squared: 0.8572 ## F-statistic: 595.3 on 1 and 98 DF, p-value: < 2.2e-16

shapiro.test(residuals(mod_Tabac)) ## ## Shapiro-Wilk normality test ## ## data: residuals(mod_Tabac) ## W = 0.9809, p-value = 0.156 ncvTest(mod_Tabac) ## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 0.1053112, Df = 1, p = 0.74555

mod_All<- lm(RespCap~Tabac+BBMenthe, data=mydata) summary(mod_All) ## ## Call: ## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -22.3812 -6.4986 0.1079 6.7749 16.5759 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 80.03997 2.88698 27.724 <2e-16 *** ## Tabac -1.37178 0.09894 -13.865 <2e-16 *** ## BBMenthe -0.11362 0.15670 -0.725 0.47 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 8.562 on 97 degrees of freedom ## Multiple R-squared: 0.8594, Adjusted R-squared: 0.8565 ## F-statistic: 296.5 on 2 and 97 DF, p-value: < 2.2e-16

summary(mod_All) ## ## Call: ## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -22.3812 -6.4986 0.1079 6.7749 16.5759 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 80.03997 2.88698 27.724 <2e-16 *** ## Tabac -1.37178 0.09894 -13.865 <2e-16 *** ## BBMenthe -0.11362 0.15670 -0.725 0.47 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 8.562 on 97 degrees of freedom ## Multiple R-squared: 0.8594, Adjusted R-squared: 0.8565 ## F-statistic: 296.5 on 2 and 97 DF, p-value: < 2.2e-16

28 réponses

menthalo dit :
15 juillet 2021 à 9 h 06 min
Bonjour, article très intéressant et (comme toujours) très bien structuré. Est-ce possible d’avoir le code qui a permis de faire les graphiques suivants :
– celui juste avant le titre « Equation » (avec les barres verticales en pointillés)
– celui juste avant le titre « La régression linéaire multiple » (avec le triangle vert)
Merci
Répondre
1. Claire Della Vedova dit :
  16 juillet 2021 à 7 h 46 min
  Bonjour,
  pour le premier graph :
  library(tidyverse) mydata <- mtcars %>% dplyr::select(mpg, wt)
  mod <- lm(mpg~wt, data=mtcars) mydata$fitted <- fitted(mod) ggplot(mydata, aes(x=wt, y=mpg))+ geom_point(size=3)+ geom_smooth(method="lm", color="blue", se=FALSE,size=2)+ geom_segment(aes(x=wt, xend=wt, y=mpg, yend=fitted), color="grey40", linetype="dashed", size=1)+ theme_bw()
  Pour le second graph, non je ne peux pas, car c'est une image, je ne me souviens plus comment je l'ai créé c'était il y a très longtemps..
  Répondre
  1. AYAN dit :
    16 juillet 2021 à 13 h 03 min
    Bonjour,
    S’il vous plaît !
    J’ai vraiment besoin de ça
    Répondre
Kimmoun dit :
15 juillet 2021 à 9 h 10 min
Absolument génial!
Répondre
Mostafa Alaywan dit :
15 juillet 2021 à 9 h 33 min
Bonjour, merci beaucoup à cet effort, en fait certain auteurs supposent la linéarité de la variable dépendante et certains supposent la linéarité des résidus, est des autres auteurs supposent que la linéarité des résidus provient de la linéarité de la variable dépendante … !!! Merci
Répondre
1. Claire Della Vedova dit :
  16 juillet 2021 à 7 h 32 min
  Bonjour,
  effectivement, la linéarité peut être vérifiée sur les données brutes ou sur les résidus. Je préfère sur les données brutes. J’en reparlerai sans doute dans un prochain article.
  Bonne continuation.
  Répondre
Sébastien HARSCOAT dit :
15 juillet 2021 à 9 h 35 min
Excellent article avec une vraie simplicité et une très bonne didactique !!!
Un immense merci pour cette transmission de connaissance !
Répondre
KANGA BERNARDIN ESSE dit :
15 juillet 2021 à 9 h 44 min
Bonjour Claire , Merci pour le cours sur la régression linéaire multiple malheureusement le lien que vous m’avez envoyé dans mon mail pour le téléchargement concerne la fiche sur CHEAT SHEETS DES FONCTIONS INDISPENSABLES et non la régression linéaire multiple. Je souhaiterais que vous m’envoyiez le lien concernant la régression linéaire multiple afin de pouvoir le télécharger.
Merci et bonne journée.
Répondre
1. Claire Della Vedova dit :
  16 juillet 2021 à 7 h 25 min
  Bonjour,
  les articles ne sont pas téléchargeables, mais seulement consultables.
  Bien cordialement.
  Répondre
BAAMAL Lahoussaine dit :
15 juillet 2021 à 10 h 40 min
Merci beaucoup. C’est très pertinent comme d’habitude.
Juste une petite remarque : le graphique représentant la relation Tabac et consommation de bonbons n’est pas fait avec les couleurs dégradées selon le niveau de tabagisme comme indiqué dans le texte.
Répondre
1. Claire Della Vedova dit :
  16 juillet 2021 à 7 h 29 min
  Bonjour,
  merci pour la remarque, je viens de corriger le texte.
  Répondre
DIAKITE dit :
15 juillet 2021 à 11 h 35 min
Bonjour.
Vraiment cet article est très important et je suis très ravi de faire votre connaissance. Je vous souhaite un bon courage surtout et si toute fois on peut faire une formation en ligne et à combien merci.
Répondre
1. Claire Della Vedova dit :
  16 juillet 2021 à 7 h 24 min
  Bonjour,
  je suis en train de travailler sur la réalisation de formations pour les professionnels et les particuliers.
  Je communiquerai sur les programmes et les tarifs, quand elles seront disponibles.
  Restez en contact.
  Bien cordialement
  Répondre
MOUSSAA SAKANAA dit :
15 juillet 2021 à 11 h 51 min
Merci grandement.tres instructif ce module
Répondre
Alain Collet dit :
15 juillet 2021 à 16 h 52 min
Très bon
Répondre
Ulrich GBEMENOU dit :
15 juillet 2021 à 22 h 45 min
Merci beaucoup pour les efforts consentir, ça nous sera d’une très grande utilité.
Cordialement
Répondre
Elysée Kabongo dit :
16 juillet 2021 à 12 h 13 min
Bonjour,
J’ai beaucoup aimé votre article et suis ravie de faire votre connaissance.
Merci
Répondre
Floribert Muzembe dit :
16 juillet 2021 à 16 h 34 min
Bonjour chère Claire et merci pour cet article. J’apprécie beaucoup vos capacités pédagogiques qui font toute la différence.
Répondre
Steven SEKA dit :
16 juillet 2021 à 18 h 52 min
Bonjour Claire,
Merci pour ce chapitre
Répondre
Barthol dit :
17 juillet 2021 à 8 h 13 min
C’est très bien fait cela aidera énormément de personnes à comprendre la régression et les calculs liés à cela sur R
Répondre
KASUWA MICHEL dit :
18 juillet 2021 à 13 h 35 min
merci pour votre aide à travers des explications très claires dans ce nouvel article. cependant, votre précédent article étant déjà clair au sujet de la régression linéaire simple et régression linéaire multiple, mon problème ce que j’utilise la version 4.0.2 de R. poouvez vous m’indiquer les packages auxquels recourir pour réaliser la régression ( simple et multiple sur cette version)? autre chose, il arrive que certains packages ne se trouvent pas sur ma liste de packages. je fais comment pour les télécharger?
Répondre
1. Claire Della Vedova dit :
  22 août 2021 à 15 h 25 min
  Bonjour Michel
  La fonction à employer pour réaliser des régressions linéaires simples ou multiples est la fonction `lm` qui appartient au package `stats`. Ce package est chargé automatiquement à chaque ouverture de session. Vous n’avez donc rien à faire pour utiliser cette fonction `lm`, elle est disponible.
  Pour installer des packages, vous pouvez utiliser ces lignes de commandes, ici avec le package nommé drc
  install.packages(« drc »)
  library(drc)
  Bonne continuation
  Répondre
MBOUS NGUIMBUS dit :
23 août 2021 à 3 h 07 min
Merci merci beaucoup Claire, j’ai beaucoup travaillé sur les modèles de régression avec notamment l’ouvrage de Pierre-André Cornillon
Eric Matzner-Løber. Cet article m’a encore permis de fixer mes anciennes connaissances.
Répondre
Rbd Caroline dit :
28 janvier 2022 à 15 h 15 min
Bonjour Claire, merci beaucoup pour votre article, une vraie mine d’or comme tous les précédents.
J’aurais néanmoins une question : pouvez-vous me dire comment rapporter les résultats de ce type de test dans un rapport écrit ? Je recherche depuis un moment mais je ne trouve rien de tout ça.
Bonne continuation
Répondre
1. Claire Della Vedova dit :
  28 janvier 2022 à 15 h 34 min
  Bonjour Caroline,
  Allez voir cet article : https://delladata.fr/reporting-automatique-analyses-statistiques/, cela vous donnera de bonnes pistes.
  Répondre
Eric G dit :
28 février 2023 à 17 h 06 min
Bonjour,
merci de cet article très intéressant.
Peut-on tout de même réaliser une analyse de régression multiple si la normalité et homoscédasticité des résidus ne sont pas respectées ?
J’ai testé différentes transformation de mon jeu de donnée, mais cela n’aboutit jamais aux respects de ces 2 règles.
Merci d’avance de votre aide.
Répondre
1. Claire Della Vedova dit :
  2 mars 2023 à 10 h 37 min
  Bonjour Eric,
  Si les conditions ne sont vraiment pas satisfaites (écart très important), de mon point de vue, vous ne pourrez pas tellement avoir confiance dans les résultats (p-values).
  Dans ce cas-là, voici deux pistes à explorer :
  – Utiliser une régression robuste : Les régressions robustes sont des modèles qui sont moins sensibles aux valeurs aberrantes et aux violations de l’homogénéité des résidus (voir la fonction « rlm » du package « MASS »)
  – Utiliser une méthode de ré-échantillonnage
  J’espère que cela vous aide un peu.
  Bonne continuation
  Répondre
NESF dit :
26 juillet 2023 à 10 h 20 min
Comment déterminer l’équation de la régression linéaire multiple à partir du résultat de R
Répondre

Introduction à la régression linéaire multiple

Table des matières

Rappel au sujet de la régression linéaire simple

Introduction

Principe

Equation

Exemple de sortie

Evaluation de la significativité de la relation

Conditions d'application

La régression linéaire multiple

Exemple introductif

Relation entre capacité respiratoire et bonbons à la menthe

Exploration du rôle du tabac

Relation entre le tabac et les bonbons à la menthe

Relation entre le tabac et les capacités respiratoires

Nouvelle exploration de la relation Capacité respiratoire - Bonbons à la menthe

Comment démêler ce réseau de relations ?

Notion d’ajustement

Eléments théoriques

Equation

Estimation

Ajustement et interprétaion

Conditions d’application

Conclusion

Poursuivez votre lecture

28 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)