C'est de la data et mon expeRtise afin d'en tirer le maximum

Introduction à la régression linéaire multiple

Relation entre les capacités respiratoire et la consommation de bonbons à la menthe avec visualisation du niveau de tabagisme

La régression linéaire simple est une approche statistique qui permet d’évaluer la liaison linéaire entre deux variables quantitatives (numériques). Plus précisément elle permet de quantifier la relation et d’évaluer sa significativité.

La régression linéaire multiple est une généralisation de la régression linéaire simple, dans le sens où cette approche permet d’évaluer les relations linéaires entre une variable réponse et plusieurs variables explicatives (de type numérique ou catégoriel).

Table des matières

Rappel au sujet de la régression linéaire simple

Introduction

La régression linéaire simple est une procédure asymétrique, au moins conceptuellement, dans laquelle :

  • une des variables est considérée comme la réponse ou comme la variable à expliquer. On l’appelle aussi variable dépendante, et on la représente sur l’axe des ordonnées y.
  • l’autre variable est la variable explicative ou prédictive ou encore ‘explanatory variable’ en anglais. On l’appelle aussi variable indépendante, et on la représente sur l’axe des abscisses x.


La régression linéaire simple permet alors d’évaluer l’existence d’un lien linéaire entre deux variables, et de le quantifier. Ainsi, on ne se contente pas d’évaluer si lorsque la première variable augmente la seconde augmente aussi, mais si cette seconde variable augmente de façon linéaire. La linéarité est une hypothèse forte !

La régression linéaire simple permet également de quantifier de quelle quantité varie la variable réponse lorsque la variable prédictive augmente d’une unité : c’est la pente de la droite de régression.

Une régression linéaire simple peut, par exemple, être employée pour évaluer s’il existe une relation linéaire entre la distance parcourue avec un gallon d’essence et le poids des voitures :

data(mtcars)
library(ggplot2)
ggplot(mtcars, aes(x=wt, y=mpg))+
    geom_point(size=3)+
    theme (axis.title= element_text(size=rel(2)),
           axis.text.x = element_text(size=rel(1.5)),
           axis.text.y = element_text(size=rel(1.5))) 

Et si une telle relation est mise en évidence (cela semble être le cas ici), alors il sera possible de quantifier de combien de milles la distance varie, lorsque le poids varie d’une unité (ici 1000 livres).

Principe

Le principe de la régression linéaire simple est de trouver la droite (c’est-à-dire déterminer son équation) qui passe au plus près de l’ensemble des points formés par les couples (xi ; yi).

Détermination de la meilleure droite

Pour trouver cette droite qui passe au plus près de l’ensemble des points, on mesure la distance au carré entre chaque point et chaque droite potentielle. La droite qui passe au plus près de l’ensemble des points est celle qui minimise la somme de ces distances au carré. C’est ce qu’on appelle la méthode des moindres carrées (ou MCO pour moindres carrés ordinaires ou encore OLS pour Ordinary Least Squares). Ces distances entre chaque point observé et la droite déterminée par les moindres carrés sont appelées les résidus du modèle de régression.

Méthode des moindres carrés

Equation

Le modèle de régression ou la droite peut s’écrire sous la forme de l’équation :

\[ y_i = a + bx_i+\epsilon_i\]

Avec :

  • a l’ordonnée à l’origine (intercept en anglais)
  • b la pente (slope en anglais)
  • epsilon: les résidus

 

Lorsqu’on détermine la droite qui passe au plus près de tous les points (on dit qu’on ajuste une droite aux données observées), on estime aussi les paramètres a et b. Ces estimations peuvent également être obtenues à partir de formules dérivées de la méthode du maximum de vraisemblance : 

\[ b= \frac{\sum_{i=1}^n (y_i-\bar{y}) (x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2 }\]

L’ordonnée à l’origine est la valeur, selon la droite déterminée, de la variable y lorsque la variable x prend pour valeur 0. Son estimation n’a aucun intérêt pour évaluer s’il existe une relation linéaire entre deux variables. L’ordonnée à l’origine est déterminé par la méthode, mais on ne s’en sert pas, en tout cas pas directement pour évaluer le lien entre deux variables.

La pente, quant à elle, correspond à la variation de y, lorsque x varie d’une unité. Si, par exemple, la variable en y est exprimée en kg et que la variable en x est exprimée en cm, alors la pente correspond à la variation en kg de la variable y lorsque la variable x varie d’un cm.
Le signe de la pente (<0 ou >0) nous renseigne sur la direction de la droite, décroissante lorsque b est <0, et croissante lorsque b est >0.
La valeur de la pente renseigne sur la vitesse d’évolution de la variable y en fonction de la variable x, mais ne présume pas de la significativité de la relation. Il est tout à fait possible de voir une pente de valeur 10 non significative, et une pente de valeur 2 significative.

Exemple de sortie

reg_lin <- lm(mpg~wt, data=mtcars)
summary(reg_lin)
## 
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10 

L’ordonnée à l’origine et la pente sont dans la partie Coefficients, dans la colonne Estimate.

Evaluation de la significativité de la relation

La valeur de la pente ne permet pas, à elle seule, d’évaluer la significativité de la relation linéaire.

La significativité dépend aussi de la variabilité de la pente, qui est mesurée par son erreur standard (généralement notée se(b)).

L’erreur standard de la pente peut être calculée en employant la formule suivante :

\[se_b=\sqrt{\frac{s^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

Avec la variance résiduelle :

\[s^2 = \frac{\sum_{i=1}^{n}(y_i-a+bx_i)^2}{n-2}\]

Pour évaluer la significativité de la relation linéaire, on rapporte la valeur absolue de la pente à son erreur standard. Ce rapport est la statistique T du test :

\[T_{n-2}= \frac{\hat{b}}{ \widehat{se_b}}\]

Les hypothèses du test sont alors :

\[H_0 : b=0\]
\[H_1 : b\neq 0\]

Les variantes unilatérales sont aussi possibles.

De manière un peu grossière on peut dire que si ce ratio est supérieur à 2, alors la pente est significativement différente de 0, et donc que la liaison entre les deux variables est significative.

De façon plus précise, la statistique T, suit une loi de Student à n-2 degrés de liberté. La pente est considérée significativement différente de 0, si sa valeur absolue est supérieure à une valeur seuil qui correspond au quantile 1-alpha/2 (c’est-à-dire 0.975 dans la très grande majorité des cas) à n-2 degrés de libertés. n est le nombre de points sur lesquels on a ajusté la droite. La valeur de ce quantile est proche de 2 lorsque n=30, elle est égale à 2.25 lorsque n=10.

Lorsque la régression met en évidence un lien linéaire significatif entre les variables X et Y, ce résultat est parfois interprété, à tort, en termes d’influence ou de causalité de la variable X sur la variable Y.

Une méthode statistique ne peut, à elle seule, établir un lien de causalité entre deux variables. La causalité entre deux variables est un lien complexe à mettre en évidence, qui demande, entre autres, un plan expérimental spécifique, la répétabilité des résultats dans le temps, ainsi que sur divers échantillons.

Conditions d'application

La régression linéaire ne peut pas être employée dans toutes les situations. Pour être utilisée cette méthode nécessite que les données satisfassent trois critères :

  • la relation entre les deux variables doit être globalement linéaire, au moins grossièrement. C’est pour cette raison, qu’il faut toujours représenter graphiquement les données avec un scatter plot avant de choisir la méthode d’analyse

.

  • les réponses doivent être indépendantes. C’est le plan d’échantillonnage qui renseigne sur cette condition. Si les données proviennent d’individus ou d’unités expérimentales différentes, elles sont généralement indépendantes. En revanche, si la variable indépendante est temporelle, les données ne sont sans doute pas indépendantes. Par exemple, si les réponses correspondent à des taux de glycémie mesurés quotidiennement sur un même patient, alors les réponses ne sont pas indépendantes. Si les réponses ne sont pas indépendantes, ou si les erreurs ne sont pas homogènes, alors l’estimation de l’erreur résiduelle (s) et donc ensuite celle de l’erreur standard de la pente sera biaisée. Par conséquence la statistique T aussi, et donc en bout de chaine la conclusion du test de significativité de la pente pourra être erronée.
  • les résidus doivent suivre une loi normale (hypothèse de normalité) et être homogènes (hypothèse d’homoscédasticité). Ces conditions doivent être testées. Des méthodes visuelles ou des tests statistiques peuvent être employés. Pour la normalité, il est possible de réaliser un QQplot ou d’utiliser le test de Shapiro Wilk. Un défaut de normalité est mis en évidence lorsque la pvalue du test est < 0.05,  et sur le QQplot lorsque les points s’écartent systématiquement de la droite, comme ci-dessous:
défaut de normalité par qqplot

Pour l’homoscédasticité, on utilise un “standardized residuals vs fitted plot” ou bien le test de Breusch-Pagan. Le plot des résidus standardisés vs. les fitted values met en évidence un défaut d’homoscédasticité lorsque la dispersion des résidus augmente avec l’augmentation des valeurs prédites (fitted values). On obtient alors un pattern des résidus, en entonnoir, comme ci-dessous :

Défaut d'homoscédaticité

De même, l’hypothèse homoscédasticité est rejetée lorsque la p-value du test de Breush Pagan est < 0.05.

La régression linéaire multiple

La régression linéaire multiple (RLM) est une généralisation de la régression linéaire simple, dans le sens où cette approche permet de mettre en relation une variable réponse (variable dépendante), de type numérique continu, avec plusieurs variables explicatives (ou indépendantes), de type numérique continu, ou catégorielle par l’intermédiaire d’une fonction linéaire dans ses paramètres (addition de paramètres).

La RLM peut être utilisée à des fins de prédiction, mais aussi pour construire un modèle de régression parcimonieux. Il s’agit d’un modèle de régression simple et informatif dans lequel les coefficients obtenus seront interprétés. C’est dans cette optique que nous l’aborderons ici.

Exemple introductif

Cet exemple est largement inspiré d’une des vidéos de Brian Caffo 

Relation entre capacité respiratoire et bonbons à la menthe

Imaginons que nous soyons en possession d’un jeu de données comportant des informations sur la capacité respiratoire et la consommation de bonbons à la menthe de 100 sujets :

head(mydf)
##    RespCap BBMenthe
## 1 70.38067 18.08675
## 2 76.31717 13.22714
## 3 81.07273 20.77057
## 4 66.20595 18.76900
## 5 78.92753 21.09741
## 6 76.51336 19.30346 

Si nous explorons graphiquement la relation entre la capacité respiratoire et la consommation de bonbons à la menthe, nous pouvons voir qu’il semble exister un lien linéaire décroissant :

ggplot(mydata, aes(x=BBMenthe,y=RespCap))+
  geom_point(size=4)+
    scale_y_continuous(limits=c(0,120)) 
Relation entre capacité respiratoire et consommation de bonbons à la menthe

Si nous réalisons une régression linéaire simple entre ces deux variables, nous pouvons mettre en évidence la présence d’un lien linéaire significatif :

mod_BBMenthe<- lm(RespCap~BBMenthe, data=mydata)
summary(mod_BBMenthe)
## 
## Call:
## lm(formula = RespCap ~ BBMenthe, data = mydata)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.261 -10.757   0.434  10.079  30.040 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  93.9935     4.6487   20.22   <2e-16 ***
## BBMenthe     -1.8621     0.1598  -11.65   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.71 on 98 degrees of freedom
## Multiple R-squared:  0.5808, Adjusted R-squared:  0.5765 
## F-statistic: 135.8 on 1 and 98 DF,  p-value: < 2.2e-16 
ggplot(mydata, aes(x=BBMenthe,y=RespCap))+
  geom_point(size=4)+
    geom_smooth(method="lm")+
    scale_y_continuous(limits=c(0,120)) 
Relation linéaire entre les capacités respiratoires et la consommation de bonbons à la menthe

La capacité respiratoire diminue de 1.86 unités lorsque la consommation de bonbons à le menthe augmente d’une unité !

Si nous vérifions les conditions d’application de la régression linéaire, nous pouvons voir que celle-ci sont satisfaites

par(mfrow=c(2,2))
plot(mod_BBMenthe) 
Diagnostique de régression
# normalité
shapiro.test(residuals(mod_BBMenthe))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod_BBMenthe)
## W = 0.98874, p-value = 0.5642

# homoscédasticité
library(car)
ncvTest(mod_BBMenthe)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 1.281743, Df = 1, p = 0.25758 

Néanmoins, à la réflexion, un effet des bonbons à la menthe sur les capacités respiratoires ne semble pas avoir beaucoup de sens biologique

En cherchant davantage de données sur ces patients, nous trouvons une variable concernant le tabagisme :

##    RespCap BBMenthe     Tabac
## 1 70.38067 18.08675 0.0000000
## 2 76.31717 13.22714 0.5050505
## 3 81.07273 20.77057 1.0101010
## 4 66.20595 18.76900 1.5151515
## 5 78.92753 21.09741 2.0202020
## 6 76.51336 19.30346 2.5252525 

On se demande alors, si la relation linéaire négative que nous avons mis en évidence entre la capacité respiratoire et la consommation de bonbons à la menthe, ne serait pas en réalité une relation indirecte qui serait expliquée par le tabagisme.

Exploration du rôle du tabac

Pour explorer cette piste, nous pouvons visualiser la relation entre la consommation de bonbons à la menthe et le niveau de tabagisme :

Relation entre le tabac et les bonbons à la menthe

Nous pouvons alors représenter la relation entre tabagisme et consommation de bonbons à la menthe :

ggplot(mydata, aes(x=Tabac,y=BBMenthe, fill=Tabac))+
  geom_point(size=4, shape=21)+
  scale_fill_gradient2(low="green", mid="yellow",high="red", midpoint=25) 

Il existe effectivement une relation évidente entre le tabagisme et la consommation de bonbons à la menthe : plus la consommation de tabac est importante, plus la consommation de bonbons à la menthe l’est aussi.

Relation entre le tabac et les capacités respiratoires
ggplot(mydata, aes(x=Tabac,y=RespCap))+
  geom_point(size=4)+
    scale_y_continuous(limits=c(0,120)) 
Relation entre les capacités respiratoires et la consommation de tabac

Là encore, il existe une relation évidente entre la capacité respiratoire et la consommation de tabac : plus la consommation de tabac est importante, plus la capacité respiratoire diminue.

Nous allons réaliser une régression linéaire simple pour caractériser et évaluer cette relation :

mod_Tabac<- lm(RespCap~Tabac, data=mydata)
summary(mod_Tabac)
## 
## Call:
## lm(formula = RespCap ~ Tabac, data = mydata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.6041  -6.4520   0.7494   7.4656  17.1455 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 78.34797    1.69556   46.21   <2e-16 ***
## Tabac       -1.42950    0.05859  -24.40   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.541 on 98 degrees of freedom
## Multiple R-squared:  0.8587, Adjusted R-squared:  0.8572 
## F-statistic: 595.3 on 1 and 98 DF,  p-value: < 2.2e-16 

La régression met en évidence un lien linéaire significatif décroissant entre la capacité respiratoire et le tabagisme. La capacité respiratoire diminue de 1.4 unités lorsque le tabagisme augmente d’une unité.

ggplot(mydata, aes(x=Tabac,y=RespCap))+
  geom_point(size=4)+
    geom_smooth(method="lm")+
    scale_y_continuous(limits=c(0,120)) 
Régression linéaire entre les capacités respiratoires et la consommatio de tabac

Nous pouvons également vérifier les conditions d’applications, elles sont remplies.

par(mfrow=c(2,2))
plot(mod_Tabac) 
Normalité et hétéroscedaticité
shapiro.test(residuals(mod_Tabac))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod_Tabac)
## W = 0.9809, p-value = 0.156
ncvTest(mod_Tabac)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 0.1053112, Df = 1, p = 0.74555 
Nouvelle exploration de la relation Capacité respiratoire - Bonbons à la menthe

Nous pouvons alors représenter à nouveau la relation entre la capacité respiratoire et la consommation de bonbons à la menthe mais cette fois en ajoutant l’information sur la consommation de tabac par une couleur.

 

en visualisant à nouveau le niveau de tabagisme par une couleur dégradée :

ggplot(mydata, aes(x=BBMenthe,y=RespCap, fill=Tabac))+
  geom_point(size=4, shape=21)+
  scale_fill_gradient2(low="green", mid="yellow",high="red", midpoint=25) 
Relation entre les capacités respiratoire et la consommation de bonbons à la menthe avec visualisation du niveau de tabagisme

Ceci nous permet de visualiser que “derrière” la consommation de bonbons à la menthe il y a le tabagisme !

Remarque : lorsqu’une variable est liée à la fois à la réponse (ici la capacité respiratoire), et à une variable explicative (ici la consommation de bonbons à la menthe), elle est appelée “facteur de confusion” de la relation entre la variable réponse et la variable explicative.

Comment démêler ce réseau de relations ?

C’est tout l’intérêt de la régression linéaire multiple ! En effet, dans la régression linéaire multiple, la relation estimée entre la variable réponse et une variable prédictive est une relation ajustée, c’est-à-dire débarrassée des effets linéaires des autres variables (à la fois sur la variable réponse et sur la variable prédictive).

Notion d’ajustement

Employons un modèle de régression linéaire multiple en incluant à la fois la consommation de bonbons à la menthe et le tabagisme :

mod_All<- lm(RespCap~Tabac+BBMenthe, data=mydata)
summary(mod_All)
## 
## Call:
## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3812  -6.4986   0.1079   6.7749  16.5759 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 80.03997    2.88698  27.724   <2e-16 ***
## Tabac       -1.37178    0.09894 -13.865   <2e-16 ***
## BBMenthe    -0.11362    0.15670  -0.725     0.47    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.562 on 97 degrees of freedom
## Multiple R-squared:  0.8594, Adjusted R-squared:  0.8565 
## F-statistic: 296.5 on 2 and 97 DF,  p-value: < 2.2e-16 

Nous pouvons voir qu’à présent, la relation entre la capacité respiratoire et la consommation de bonbon à la menthe est plus faible en terme de pente (-0.11 contre -1.8 lorsque seule la consommation de bonbons à la menthe était considérée), et surtout, elle n’est plus significative !

De l’autre côté, la relation entre le tabagisme et la capacité respiratoire n’a pas beaucoup bougé (-1.37 contre -1.43)

L’effet de la consommation des bonbons à la menthe sur la capacité respiratoire a été ajusté en fonction de l’effet du tabagisme. Il s’agit de l’effet restant, une fois que l’effet du tabagisme a été pris en compte.

Autrement dit, le test de b = 0 correspond à tester l’hypothèse : est ce que la capacité respiratoire est associé à la consommation de bonbons à la menthe, a niveau de tabagisme constant.

Eléments théoriques

Equation

Les modèles de régressions linéaires multiples sont ainsi définis par l’équation

\[ y_i = \beta_0 + \beta_1x_{i1}+…+\beta_px_{ip} +\epsilon_i\]

Avec :

  • y_i les réponses (variable dépendante) observées,
  • i l’indice des observations,
  • x_ij les valeurs observées des j (=1 à p) variables indépendantes,
  • beta_p les paramètres inconnus du modèle, et qui vont être estimés, parfois appelés “pentes partielles“,
  • epsilon_i les résidus

Estimation

L’estimation des paramètres par la méthode des moindres carrés repose sur le même principe que celui de la régression linéaire simple, mais appliqué à p dimensions. Il s’agit simplement d’une généralisation.

Ainsi, il ne s’agit plus de chercher la droite qui passe au mieux des couples des points (yi ; xi) mais le plan à p dimensions qui passe au mieux des points de coordonnées (yi, xi1, …xip).

Ajustement et interprétaion

La méthode des moindres carrés aboutit à une estimation ajustée des coefficients.

Ce terme “ajustée”, signifie “après prise en considération des effets linéaires des autres co-variables sur la réponse,  mais aussi sur la variable prédictive”.

Dit autrement, le coefficient β1 correspond à la pente de la relation entre y et x1 lorsque les effets linéaires des autres covariables ont été enlevés, à la fois au niveau de la réponse mais aussi au niveau de x1.

Dit encore autrement, il s’agit de la pente de la relation entre la part du prédicteur qui est indépendante des autres prédicteurs et la réponse, elle aussi indépendante des autres prédicteurs.

Les coefficients estimés par régression linéaire multiple sont parfois nommés pentes partielles.

Le test de b = 0 équivaut à tester l’hypothèse : est ce que la réponse est associée à la variable prédictive étudiée, toutes choses étant égales par ailleurs, c’est-à-dire à niveau constant des autres variables prédictives.

summary(mod_All)
## 
## Call:
## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3812  -6.4986   0.1079   6.7749  16.5759 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 80.03997    2.88698  27.724   <2e-16 ***
## Tabac       -1.37178    0.09894 -13.865   <2e-16 ***
## BBMenthe    -0.11362    0.15670  -0.725     0.47    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.562 on 97 degrees of freedom
## Multiple R-squared:  0.8594, Adjusted R-squared:  0.8565 
## F-statistic: 296.5 on 2 and 97 DF,  p-value: < 2.2e-16 

Conditions d’application

Quatre conditions doivent être respectées :

  • Linéarité des relations entre la réponse et les variables prédictives (utilisation d’une transformation si besoin)
  • Normalité des résidus
  • Homoscédasticité des résidus
  • Absence de multicollinéarité (forte corrélation linéaire) entre les variables prédictives.
    La collinéarité peut être évaluée en étudiant la corrélation de Pearson entre chaque couple de variables indépendantes.

 

Dans notre exemple, le coefficients de corrélation de Pearson, entre le tabac et les bonbons à la menthe est de 0.80:

cor(mydata$Tabac, mydata$BBMenthe)
## [1] 0.8047417 

Le seuil de 0.85 est souvent employé, on se situe donc dessous.

La multicolinéarité peut également être évaluée par le calcul des VIF (Variance Inflation Factor), après l’ajustement du modèle.

Le VIF mesure de combien la variance d’un coefficient de régression estimé augmente, par rapport à une situation dans laquelle les prédicteurs sont strictement indépendants. Une valeur élevée de VIF est un signe de multi-colinéarité (le seuil est généralement admis à 3, 5 ou 10 selon les domaines).

Standardiser les données (centrage réduction) permet généralement de diminuer les risques de multicollinéarité

Conclusion

Dans un prochain article, je vous montrerai, comment réaliser une régression linéaire multiple avec R.

D’ici là, le sujet de la régression linéaire multiple vous intéresse particulièrement, je vous conseille le livre de Brian Caffo :Regression Models for Data Science in R.  Brian Caffo a également une chaine youtube avec plusieurs vidéos sur la régression linéaire .

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏

Poursuivez votre lecture

20 réponses

  1. Bonjour, article très intéressant et (comme toujours) très bien structuré. Est-ce possible d’avoir le code qui a permis de faire les graphiques suivants :
    – celui juste avant le titre “Equation” (avec les barres verticales en pointillés)
    – celui juste avant le titre “La régression linéaire multiple” (avec le triangle vert)
    Merci

    1. Bonjour,
      pour le premier graph :
      library(tidyverse)
      mydata <- mtcars %>%
      dplyr::select(mpg, wt)

      mod <- lm(mpg~wt, data=mtcars) mydata$fitted <- fitted(mod) ggplot(mydata, aes(x=wt, y=mpg))+ geom_point(size=3)+ geom_smooth(method="lm", color="blue", se=FALSE,size=2)+ geom_segment(aes(x=wt, xend=wt, y=mpg, yend=fitted), color="grey40", linetype="dashed", size=1)+ theme_bw()

      Pour le second graph, non je ne peux pas, car c'est une image, je ne me souviens plus comment je l'ai créé c'était il y a très longtemps..

  2. Bonjour, merci beaucoup à cet effort, en fait certain auteurs supposent la linéarité de la variable dépendante et certains supposent la linéarité des résidus, est des autres auteurs supposent que la linéarité des résidus provient de la linéarité de la variable dépendante … !!! Merci

    1. Bonjour,

      effectivement, la linéarité peut être vérifiée sur les données brutes ou sur les résidus. Je préfère sur les données brutes. J’en reparlerai sans doute dans un prochain article.
      Bonne continuation.

  3. Excellent article avec une vraie simplicité et une très bonne didactique !!!
    Un immense merci pour cette transmission de connaissance !

  4. Bonjour Claire , Merci pour le cours sur la régression linéaire multiple malheureusement le lien que vous m’avez envoyé dans mon mail pour le téléchargement concerne la fiche sur CHEAT SHEETS DES FONCTIONS INDISPENSABLES et non la régression linéaire multiple. Je souhaiterais que vous m’envoyiez le lien concernant la régression linéaire multiple afin de pouvoir le télécharger.
    Merci et bonne journée.

  5. Merci beaucoup. C’est très pertinent comme d’habitude.
    Juste une petite remarque : le graphique représentant la relation Tabac et consommation de bonbons n’est pas fait avec les couleurs dégradées selon le niveau de tabagisme comme indiqué dans le texte.

  6. Bonjour.
    Vraiment cet article est très important et je suis très ravi de faire votre connaissance. Je vous souhaite un bon courage surtout et si toute fois on peut faire une formation en ligne et à combien merci.

    1. Bonjour,
      je suis en train de travailler sur la réalisation de formations pour les professionnels et les particuliers.
      Je communiquerai sur les programmes et les tarifs, quand elles seront disponibles.
      Restez en contact.
      Bien cordialement

  7. Bonjour chère Claire et merci pour cet article. J’apprécie beaucoup vos capacités pédagogiques qui font toute la différence.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.