Tutoriel : la régression linéaire multiple avec R

library(tidyverse) # remplace les valeurs 0 et 1 mtcars2 <- mtcars2 %>% mutate(vs =ifelse(vs==0, "V-shaped","straight"), am = ifelse(am==0, "automatic","manual")) # passage en facteur mtcars2 <- mtcars2 %>% mutate_if(is.character, as.factor) str(mtcars2) ## 'data.frame': 32 obs. of 10 variables: ## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ... ## $ hp : num 110 110 93 110 175 105 245 62 95 123 ... ## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... ## $ wt : num 2.62 2.88 2.32 3.21 3.44 ... ## $ qsec: num 16.5 17 18.6 19.4 17 ... ## $ vs : Factor w/ 2 levels "straight","V-shaped": 2 2 1 1 2 1 2 1 1 1 ... ## $ am : Factor w/ 2 levels "automatic","manual": 2 2 2 1 1 1 1 1 1 1 ... ## $ gear: num 4 4 4 3 3 3 3 4 4 4 ... ## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...

summary(mod.rlm1) ## ## Call: ## lm(formula = mpg ~ ., data = mtcars2) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.7863 -1.4055 -0.2635 1.2029 4.4753 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 12.71088 18.83577 0.675 0.5068 ## cyl 0.09627 0.99715 0.097 0.9240 ## hp -0.01295 0.01834 -0.706 0.4876 ## drat 0.92864 1.60794 0.578 0.5694 ## wt -2.62694 1.19800 -2.193 0.0392 * ## qsec 0.66523 0.69335 0.959 0.3478 ## vsV-shaped -0.16035 2.07277 -0.077 0.9390 ## ammanual 2.47882 2.03513 1.218 0.2361 ## gear 0.74300 1.47360 0.504 0.6191 ## carb -0.61686 0.60566 -1.018 0.3195 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.623 on 22 degrees of freedom ## Multiple R-squared: 0.8655, Adjusted R-squared: 0.8105 ## F-statistic: 15.73 on 9 and 22 DF, p-value: 1.183e-07

library(performance) check_collinearity(mod.rlm1) ## # Check for Multicollinearity ## ## Low Correlation ## ## Term VIF Increased SE Tolerance ## drat 3.33 1.82 0.30 ## vs 4.92 2.22 0.20 ## am 4.65 2.16 0.22 ## carb 4.31 2.08 0.23 ## ## Moderate Correlation ## ## Term VIF Increased SE Tolerance ## hp 7.12 2.67 0.14 ## wt 6.19 2.49 0.16 ## qsec 6.91 2.63 0.14 ## gear 5.32 2.31 0.19 ## ## High Correlation ## ## Term VIF Increased SE Tolerance ## cyl 14.28 3.78 0.07

mod.rlm2 <- update(mod.rlm1, .~.-cyl) check_collinearity(mod.rlm2) ## # Check for Multicollinearity ## ## Low Correlation ## ## Term VIF Increased SE Tolerance ## drat 3.11 1.76 0.32 ## vs 4.27 2.07 0.23 ## am 4.29 2.07 0.23 ## gear 4.69 2.17 0.21 ## carb 4.29 2.07 0.23 ## ## Moderate Correlation ## ## Term VIF Increased SE Tolerance ## hp 6.02 2.45 0.17 ## wt 6.05 2.46 0.17 ## qsec 5.92 2.43 0.17

mod.rlm3 <- update(mod.rlm2, .~.-hp) check_collinearity(mod.rlm3) ## # Check for Multicollinearity ## ## Low Correlation ## ## Term VIF Increased SE Tolerance ## drat 3.04 1.74 0.33 ## qsec 4.14 2.03 0.24 ## vs 4.19 2.05 0.24 ## am 4.26 2.06 0.23 ## gear 4.69 2.17 0.21 ## carb 3.83 1.96 0.26 ## ## Moderate Correlation ## ## Term VIF Increased SE Tolerance ## wt 5.10 2.26 0.20

summary(mod.rlm3) ## ## Call: ## lm(formula = mpg ~ drat + wt + qsec + vs + am + gear + carb, ## data = mtcars2) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.9187 -1.1587 -0.1858 1.3021 4.3141 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 8.3579 11.7109 0.714 0.48230 ## drat 1.0565 1.4897 0.709 0.48504 ## wt -2.9502 1.0543 -2.798 0.00997 ** ## qsec 0.8955 0.5198 1.723 0.09782 . ## vsV-shaped 0.1033 1.8548 0.056 0.95605 ## ammanual 2.5377 1.8883 1.344 0.19155 ## gear 0.6730 1.3400 0.502 0.62006 ## carb -0.7573 0.5530 -1.370 0.18350 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.542 on 24 degrees of freedom ## Multiple R-squared: 0.8623, Adjusted R-squared: 0.8221 ## F-statistic: 21.46 on 7 and 24 DF, p-value: 6.989e-09

car::Anova(mod.rlm3) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## drat 3.251 1 0.5030 0.485035 ## wt 50.601 1 7.8294 0.009973 ** ## qsec 19.178 1 2.9674 0.097821 . ## vs 0.020 1 0.0031 0.956051 ## am 11.672 1 1.8060 0.191553 ## gear 1.630 1 0.2523 0.620059 ## carb 12.123 1 1.8758 0.183496 ## Residuals 155.111 24 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod.rlm4 <- update(mod.rlm3, .~.-vs) Anova(mod.rlm4) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## drat 3.233 1 0.5210 0.477115 ## wt 55.254 1 8.9044 0.006274 ** ## qsec 34.151 1 5.5036 0.027211 * ## am 12.012 1 1.9357 0.176392 ## gear 1.621 1 0.2612 0.613804 ## carb 12.108 1 1.9513 0.174727 ## Residuals 155.131 25 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod.rlm5 <- update(mod.rlm4, .~.-gear) Anova(mod.rlm5) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## drat 4.498 1 0.7461 0.395620 ## wt 71.232 1 11.8151 0.001988 ** ## qsec 38.839 1 6.4421 0.017477 * ## am 20.097 1 3.3335 0.079391 . ## carb 11.134 1 1.8468 0.185826 ## Residuals 156.752 26 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod.rlm6 <- update(mod.rlm5, .~.-drat) Anova(mod.rlm6) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## wt 104.754 1 17.5401 0.0002686 *** ## qsec 54.371 1 9.1040 0.0055070 ** ## am 33.281 1 5.5726 0.0257208 * ## carb 8.036 1 1.3456 0.2562120 ## Residuals 161.250 27 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod.rlm7 <- update(mod.rlm6, .~.-carb) Anova(mod.rlm7) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## wt 183.347 1 30.3258 6.953e-06 *** ## qsec 109.034 1 18.0343 0.0002162 *** ## am 26.178 1 4.3298 0.0467155 * ## Residuals 169.286 28 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

summary(mod.rlm7) ## ## Call: ## lm(formula = mpg ~ wt + qsec + am, data = mtcars2) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.4811 -1.5555 -0.7257 1.4110 4.6610 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 9.6178 6.9596 1.382 0.177915 ## wt -3.9165 0.7112 -5.507 6.95e-06 *** ## qsec 1.2259 0.2887 4.247 0.000216 *** ## ammanual 2.9358 1.4109 2.081 0.046716 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.459 on 28 degrees of freedom ## Multiple R-squared: 0.8497, Adjusted R-squared: 0.8336 ## F-statistic: 52.75 on 3 and 28 DF, p-value: 1.21e-11

library(finalfit) explanatory = c("drat", "qsec", "vs", "am", "gear","carb","wt") dependent = 'mpg' # estimation des pentes, IC et pvalues des modèles de régression univarié (une seule variable explicative) mtcars2 %>% lmuni(dependent, explanatory) %>% fit2df() ## explanatory Coefficient ## 1 drat 7.68 (4.60 to 10.76, p<0.001) ## 2 qsec 1.41 (0.27 to 2.55, p=0.017) ## 3 vsV-shaped -7.94 (-11.27 to -4.61, p<0.001) ## 4 ammanual 7.24 (3.64 to 10.85, p<0.001) ## 5 gear 3.92 (1.25 to 6.59, p=0.005) ## 6 carb -2.06 (-3.22 to -0.89, p=0.001) ## 7 wt -5.34 (-6.49 to -4.20, p<0.001) # estimation des pentes partielle, IC et pvalues dans le modèle de régression multiple complet (toutes les variables explicatives) mtcars2 %>% lmmulti(dependent, explanatory) %>% fit2df() ## explanatory Coefficient ## 1 drat 1.06 (-2.02 to 4.13, p=0.485) ## 2 qsec 0.90 (-0.18 to 1.97, p=0.098) ## 3 vsV-shaped 0.10 (-3.72 to 3.93, p=0.956) ## 4 ammanual 2.54 (-1.36 to 6.43, p=0.192) ## 5 gear 0.67 (-2.09 to 3.44, p=0.620) ## 6 carb -0.76 (-1.90 to 0.38, p=0.183) ## 7 wt -2.95 (-5.13 to -0.77, p=0.010) # estimation des pentes partielles, IC et pvalues dans le modèle de régression parcimonieux (uniquement les variables explicatives sélectionnées) explanatory_final = c("qsec", "am", "wt") dependent = 'mpg' mtcars2 %>% lmmulti(dependent, explanatory_final) %>% fit2df() ## explanatory Coefficient ## 1 qsec 1.23 (0.63 to 1.82, p<0.001) ## 2 ammanual 2.94 (0.05 to 5.83, p=0.047) ## 3 wt -3.92 (-5.37 to -2.46, p<0.001)

25 réponses

Pierre-Etienne dit :
16 août 2021 à 10 h 21 min
Article de très grande qualité ! Meci beaucoup pour ce très joli et très informatif article !
Répondre
COULIBALY dit :
18 août 2021 à 18 h 42 min
J’aimerais accéder continuellement à ce article très enrichissant.
Merci
Répondre
GUY FRANCK Ale dit :
22 août 2021 à 2 h 15 min
super travail. Félicitations
Répondre
MBOUS NGUIMBUS dit :
23 août 2021 à 4 h 31 min
Merci beaucoup Claire, j’ai beaucoup appris avec cet article !!!
Répondre
DIALLO Boubacar dit :
25 août 2021 à 8 h 11 min
Merci beaucoup pour ce travail formidable ca m’a permis de découvrir de nouvelles fonctions très important.
Bravo
Répondre
Hidirou dit :
27 août 2021 à 8 h 50 min
Waooh très riche… merci beaucoup pour cet article…
Répondre
WENDINSO dit :
27 août 2021 à 11 h 12 min
Super comme pédagogie. Merci
Répondre
Jean claude dit :
27 août 2021 à 17 h 31 min
Vraiment merci pour cet article.
Très riche en substance !
Répondre
Amadou SOW dit :
28 août 2021 à 10 h 35 min
Article très intéressant. Les explications sont très claires instructives
Répondre
François PIQUARD dit :
31 août 2021 à 10 h 31 min
Merci c’est vraiment bien fait
Répondre
fagot dit :
1 octobre 2021 à 13 h 17 min
Super formation. Très intéressant. Merci beaucoup.
Répondre
1. Claire Della Vedova dit :
  3 octobre 2021 à 8 h 13 min
  Merci !
  Répondre
Jeanne dit :
9 juin 2022 à 15 h 16 min
Merci beaucoup pour ce travail ! C’est très clair et pédagogique, merci de prendre du temps pour le faire ! 🙂
Répondre
Julie Lejeune dit :
1 juillet 2022 à 11 h 31 min
Bonjour Claire,
quelle la règle sur le nombre de variables max à intégrer dans un modèle quand nous avons peu d’observation (n=50)?
# modèle de régression linéaire mixte
# modèle logistique
# modèle de survie
Merci pour votre aide.
Julie
Répondre
moundir dit :
26 septembre 2022 à 16 h 17 min
merci pour le partage mais la fonction check_model ne marche pas! je reçois seulement dans ma consolece message : « »Error: The RStudio ‘Plots’ window is too small to show this set of plots.
Please make the window larger. » (j’ai bien sur elargie la fenetre plot mais toujours sans succes
merci pour la réponse
Répondre
1. Claire Della Vedova dit :
  28 septembre 2022 à 9 h 15 min
  Bonjour Moundir,
  Le message vous indique que la fenêtre graphique n’est pas assez grande, il suffit de l’agrandir (surtout en hauteur il me semble).
  Bonne continuation.
  Répondre
Justin Ratsaramody dit :
1 décembre 2022 à 9 h 19 min
Bonjour Claire.
Merci pour cet article très complet et très instructif. J’ai cependant un problème avec la fonction check_model(). On me demande à chaque fois si je dois installer le package {see} (il est déjà installé) et j’ai une erreur du type : « Error in `colnames<-`(`*tmp*`, value = `*vtmp*`) :
tentative de modification de 'colnames' sur un objet ayant moins de deux dimensions". Comment y rémédier ? Merci d'avance.
Répondre
1. Claire Della Vedova dit :
  3 décembre 2022 à 12 h 00 min
  Bonjour Justin,
  je n’ai pas de piste, navrée.
  Bonne continuation
  Répondre
2. JC Clement dit :
  1 mai 2023 à 23 h 04 min
  Bonsoir,
  Je sais que je réponds à un post de plus de 6 mois mais sait-on jamais si cela peut servir.
  J’ai eu la même à peu près après l’installation de « Performance » :
  check_model(mod.rlm3)
  # Package `see` required for model diagnostic plots.
  # Would you like to install it? [y/n] y
  # Error in names(x) <- value: 'names' attribute [4] must be the same length as the vector [3]
  En insistant une nouvelle fois :
  check_model(mod.rlm3)
  # Package `patchwork` required for this function to work.
  # Would you like to install it? [y/n] y
  Et là la fonction check_model() fonctionne. Peut être un bug dans le package. Peut être qu'aller chercher Patchwork manuellement pourrait aider… Bonne chance.
  Répondre
BILE Armand dit :
29 mai 2023 à 16 h 34 min
Merci pour cet article.
Répondre
ADANDONON Joel dit :
19 novembre 2023 à 17 h 24 min
Bonsoir madame Claire,
Vous avez développé un cours assez intéressant.
Néanmoins pour le modèle à retenir, il y a un pakage qui permet de procéder par élimination des variables de façon dégressive ou progressive ou mixte et en fin on a un modèle parcimonieux au lieu qu’on procède cette élimination manuellement.
Joël ADANDONON
Biostatisticien Econometre.
Répondre
1. Claire Della Vedova dit :
  22 novembre 2023 à 7 h 54 min
  Bonjour Joël,
  Merci pour votre message.
  Pouvez-vous, s’il vous plait, nous indiquer quel package vous employez pour réaliser la sélection de variables.
  Dans le domaine médical, nous avons tendance à ne pas réaliser de sélection automatique, mais cela reste bien évidemment intéressant.
  Répondre
Monji Nejjar dit :
11 février 2024 à 11 h 31 min
Bonjour,
Ma question concerne les tests statistiques (non abordés par votre sujet)
1/ pour etudier l’hypothèse de non colinéarité, le logiciel R fournit il le test des régression auxiliaires?
2/ et au niveau de l’hypothèse de linéarité, il y a le test de Rainbow. Mais malgré mes recherches, je n’ai pas trouvé une presentation détaillé de ce test. Est ce que vous avez plus d’informations à ce propos?
Et merci pour tout ce que vous faites
Répondre
1. Claire Della Vedova dit :
  12 février 2024 à 8 h 22 min
  Bonjour,
  Je suis navrée de ne pas pouvoir vous aider davantage, mais je ne connais aucun des 2 points mentionnés.
  Je pense que les régressions auxiliaires sont liées aux VIF, mais je ne sais pas davantage.
  Répondre
Jordan dit :
30 juillet 2024 à 10 h 47 min
Bonjour Claire,
Merci beaucoup pour vos nombreux postes. Après lecture de celui-ci je me suis posé la question suivante :
Pourquoi étudiez vous les corrélations linéaires deux à deux en tenant compte des variables qualitatives ? Quel outil est employé pour éprouver la relation (linéaire) entre une variable quantitative et une variable qualitative ? En effet, il est courant de voir dans de nombreux travaux (non scientifique) l’utilisation d’une matrice des corrélations qui n’exclut pas les variables qualitatives et emploi des méthodes telles que Pearson (relation linéaire) ou Spearman (relation monotone). Je m’interroge toujours sur la pertinence de ces méthodes… Peut-être ai-je loupé quelque chose…
Je me suis dit que vous auriez certainement un élément de réponse sur le sujet. D’avance, merci pour votre réponse. Belle journée 😉
Répondre

Tutoriel : la régression linéaire multiple avec R

Etude des corrélations linéaires entre les variables explicatives deux à deux

Evaluation de la linéarité entre la réponse et les variables explicatives numériques

Ajustement du modèle complet.

Evaluation des multicollinéarités par les VIF

Evaluation des hypothèses de normalité et d’homoscédasticité des résidus

Interprétation des résultats du modèle complet

La table de régression

La table d'analyse de variance

Sélection et interprétation du modèle parcimonieux

Recherche des outliers

Interprétation du modèle parcimonieux

Présentation des résultats

Conclusion

25 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)