La régression linéaire simple est une approche statistique qui permet d’évaluer la liaison linéaire entre deux variables quantitatives (numériques). Plus précisément elle permet de quantifier la relation et d’évaluer sa significativité.
La régression linéaire multiple est une généralisation de la régression linéaire simple, dans le sens où cette approche permet d’évaluer les relations linéaires entre une variable réponse et plusieurs variables explicatives (de type numérique ou catégoriel).
La régression linéaire simple est une procédure asymétrique, au moins conceptuellement, dans laquelle :
La régression linéaire simple permet alors d’évaluer l’existence d’un lien linéaire entre deux variables, et de le quantifier. Ainsi, on ne se contente pas d’évaluer si lorsque la première variable augmente la seconde augmente aussi, mais si cette seconde variable augmente de façon linéaire. La linéarité est une hypothèse forte !
La régression linéaire simple permet également de quantifier de quelle quantité varie la variable réponse lorsque la variable prédictive augmente d’une unité : c’est la pente de la droite de régression.
Une régression linéaire simple peut, par exemple, être employée pour évaluer s’il existe une relation linéaire entre la distance parcourue avec un gallon d’essence et le poids des voitures :
data(mtcars)
library(ggplot2)
ggplot(mtcars, aes(x=wt, y=mpg))+
geom_point(size=3)+
theme (axis.title= element_text(size=rel(2)),
axis.text.x = element_text(size=rel(1.5)),
axis.text.y = element_text(size=rel(1.5)))
Et si une telle relation est mise en évidence (cela semble être le cas ici), alors il sera possible de quantifier de combien de milles la distance varie, lorsque le poids varie d’une unité (ici 1000 livres).
Le principe de la régression linéaire simple est de trouver la droite (c’est-à-dire déterminer son équation) qui passe au plus près de l’ensemble des points formés par les couples (xi ; yi).
Pour trouver cette droite qui passe au plus près de l’ensemble des points, on mesure la distance au carré entre chaque point et chaque droite potentielle. La droite qui passe au plus près de l’ensemble des points est celle qui minimise la somme de ces distances au carré. C’est ce qu’on appelle la méthode des moindres carrées (ou MCO pour moindres carrés ordinaires ou encore OLS pour Ordinary Least Squares). Ces distances entre chaque point observé et la droite déterminée par les moindres carrés sont appelées les résidus du modèle de régression.
Le modèle de régression ou la droite peut s’écrire sous la forme de l’équation :
\[ y_i = a + bx_i+\epsilon_i\]
Avec :
Lorsqu’on détermine la droite qui passe au plus près de tous les points (on dit qu’on ajuste une droite aux données observées), on estime aussi les paramètres a et b. Ces estimations peuvent également être obtenues à partir de formules dérivées de la méthode du maximum de vraisemblance :
\[ b= \frac{\sum_{i=1}^n (y_i-\bar{y}) (x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2 }\]
L’ordonnée à l’origine est la valeur, selon la droite déterminée, de la variable y lorsque la variable x prend pour valeur 0. Son estimation n’a aucun intérêt pour évaluer s’il existe une relation linéaire entre deux variables. L’ordonnée à l’origine est déterminé par la méthode, mais on ne s’en sert pas, en tout cas pas directement pour évaluer le lien entre deux variables.
La pente, quant à elle, correspond à la variation de y, lorsque x varie d’une unité. Si, par exemple, la variable en y est exprimée en kg et que la variable en x est exprimée en cm, alors la pente correspond à la variation en kg de la variable y lorsque la variable x varie d’un cm.
Le signe de la pente (<0 ou >0) nous renseigne sur la direction de la droite, décroissante lorsque b est <0, et croissante lorsque b est >0.
La valeur de la pente renseigne sur la vitesse d’évolution de la variable y en fonction de la variable x, mais ne présume pas de la significativité de la relation. Il est tout à fait possible de voir une pente de valeur 10 non significative, et une pente de valeur 2 significative.
reg_lin <- lm(mpg~wt, data=mtcars)
summary(reg_lin)
##
## Call:
## lm(formula = mpg ~ wt, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5432 -2.3647 -0.1252 1.4096 6.8727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.2851 1.8776 19.858 < 2e-16 ***
## wt -5.3445 0.5591 -9.559 1.29e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446
## F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10
L’ordonnée à l’origine et la pente sont dans la partie Coefficients
, dans la colonne Estimate.
La valeur de la pente ne permet pas, à elle seule, d’évaluer la significativité de la relation linéaire.
La significativité dépend aussi de la variabilité de la pente, qui est mesurée par son erreur standard (généralement notée se(b)).
L’erreur standard de la pente peut être calculée en employant la formule suivante :
\[se_b=\sqrt{\frac{s^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]
Avec la variance résiduelle :
\[s^2 = \frac{\sum_{i=1}^{n}(y_i-a+bx_i)^2}{n-2}\]
Pour évaluer la significativité de la relation linéaire, on rapporte la valeur absolue de la pente à son erreur standard. Ce rapport est la statistique T du test :
\[T_{n-2}= \frac{\hat{b}}{ \widehat{se_b}}\]
Les hypothèses du test sont alors :
\[H_0 : b=0\]
\[H_1 : b\neq 0\]
Les variantes unilatérales sont aussi possibles.
De manière un peu grossière on peut dire que si ce ratio est supérieur à 2, alors la pente est significativement différente de 0, et donc que la liaison entre les deux variables est significative.
De façon plus précise, la statistique T, suit une loi de Student à n-2 degrés de liberté. La pente est considérée significativement différente de 0, si sa valeur absolue est supérieure à une valeur seuil qui correspond au quantile 1-alpha/2 (c’est-à-dire 0.975 dans la très grande majorité des cas) à n-2 degrés de libertés. n est le nombre de points sur lesquels on a ajusté la droite. La valeur de ce quantile est proche de 2 lorsque n=30, elle est égale à 2.25 lorsque n=10.
Lorsque la régression met en évidence un lien linéaire significatif entre les variables X et Y, ce résultat est parfois interprété, à tort, en termes d’influence ou de causalité de la variable X sur la variable Y.
Une méthode statistique ne peut, à elle seule, établir un lien de causalité entre deux variables. La causalité entre deux variables est un lien complexe à mettre en évidence, qui demande, entre autres, un plan expérimental spécifique, la répétabilité des résultats dans le temps, ainsi que sur divers échantillons.
La régression linéaire ne peut pas être employée dans toutes les situations. Pour être utilisée cette méthode nécessite que les données satisfassent trois critères :
.
Pour l’homoscédasticité, on utilise un “standardized residuals vs fitted plot” ou bien le test de Breusch-Pagan. Le plot des résidus standardisés vs. les fitted values met en évidence un défaut d’homoscédasticité lorsque la dispersion des résidus augmente avec l’augmentation des valeurs prédites (fitted values). On obtient alors un pattern des résidus, en entonnoir, comme ci-dessous :
De même, l’hypothèse homoscédasticité est rejetée lorsque la p-value du test de Breush Pagan est < 0.05.
La régression linéaire multiple (RLM) est une généralisation de la régression linéaire simple, dans le sens où cette approche permet de mettre en relation une variable réponse (variable dépendante), de type numérique continu, avec plusieurs variables explicatives (ou indépendantes), de type numérique continu, ou catégorielle par l’intermédiaire d’une fonction linéaire dans ses paramètres (addition de paramètres).
La RLM peut être utilisée à des fins de prédiction, mais aussi pour construire un modèle de régression parcimonieux. Il s’agit d’un modèle de régression simple et informatif dans lequel les coefficients obtenus seront interprétés. C’est dans cette optique que nous l’aborderons ici.
Cet exemple est largement inspiré d’une des vidéos de Brian Caffo
Imaginons que nous soyons en possession d’un jeu de données comportant des informations sur la capacité respiratoire et la consommation de bonbons à la menthe de 100 sujets :
head(mydf)
## RespCap BBMenthe
## 1 70.38067 18.08675
## 2 76.31717 13.22714
## 3 81.07273 20.77057
## 4 66.20595 18.76900
## 5 78.92753 21.09741
## 6 76.51336 19.30346
Si nous explorons graphiquement la relation entre la capacité respiratoire et la consommation de bonbons à la menthe, nous pouvons voir qu’il semble exister un lien linéaire décroissant :
ggplot(mydata, aes(x=BBMenthe,y=RespCap))+
geom_point(size=4)+
scale_y_continuous(limits=c(0,120))
Si nous réalisons une régression linéaire simple entre ces deux variables, nous pouvons mettre en évidence la présence d’un lien linéaire significatif :
mod_BBMenthe<- lm(RespCap~BBMenthe, data=mydata)
summary(mod_BBMenthe)
##
## Call:
## lm(formula = RespCap ~ BBMenthe, data = mydata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.261 -10.757 0.434 10.079 30.040
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 93.9935 4.6487 20.22 <2e-16 ***
## BBMenthe -1.8621 0.1598 -11.65 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.71 on 98 degrees of freedom
## Multiple R-squared: 0.5808, Adjusted R-squared: 0.5765
## F-statistic: 135.8 on 1 and 98 DF, p-value: < 2.2e-16
ggplot(mydata, aes(x=BBMenthe,y=RespCap))+
geom_point(size=4)+
geom_smooth(method="lm")+
scale_y_continuous(limits=c(0,120))
La capacité respiratoire diminue de 1.86 unités lorsque la consommation de bonbons à le menthe augmente d’une unité !
Si nous vérifions les conditions d’application de la régression linéaire, nous pouvons voir que celle-ci sont satisfaites
par(mfrow=c(2,2))
plot(mod_BBMenthe)
# normalité
shapiro.test(residuals(mod_BBMenthe))
##
## Shapiro-Wilk normality test
##
## data: residuals(mod_BBMenthe)
## W = 0.98874, p-value = 0.5642
# homoscédasticité
library(car)
ncvTest(mod_BBMenthe)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 1.281743, Df = 1, p = 0.25758
Néanmoins, à la réflexion, un effet des bonbons à la menthe sur les capacités respiratoires ne semble pas avoir beaucoup de sens biologique…
En cherchant davantage de données sur ces patients, nous trouvons une variable concernant le tabagisme :
## RespCap BBMenthe Tabac
## 1 70.38067 18.08675 0.0000000
## 2 76.31717 13.22714 0.5050505
## 3 81.07273 20.77057 1.0101010
## 4 66.20595 18.76900 1.5151515
## 5 78.92753 21.09741 2.0202020
## 6 76.51336 19.30346 2.5252525
On se demande alors, si la relation linéaire négative que nous avons mis en évidence entre la capacité respiratoire et la consommation de bonbons à la menthe, ne serait pas en réalité une relation indirecte qui serait expliquée par le tabagisme.
Pour explorer cette piste, nous pouvons visualiser la relation entre la consommation de bonbons à la menthe et le niveau de tabagisme :
Nous pouvons alors représenter la relation entre tabagisme et consommation de bonbons à la menthe :
ggplot(mydata, aes(x=Tabac,y=BBMenthe, fill=Tabac))+
geom_point(size=4, shape=21)+
scale_fill_gradient2(low="green", mid="yellow",high="red", midpoint=25)
Il existe effectivement une relation évidente entre le tabagisme et la consommation de bonbons à la menthe : plus la consommation de tabac est importante, plus la consommation de bonbons à la menthe l’est aussi.
ggplot(mydata, aes(x=Tabac,y=RespCap))+
geom_point(size=4)+
scale_y_continuous(limits=c(0,120))
Là encore, il existe une relation évidente entre la capacité respiratoire et la consommation de tabac : plus la consommation de tabac est importante, plus la capacité respiratoire diminue.
Nous allons réaliser une régression linéaire simple pour caractériser et évaluer cette relation :
mod_Tabac<- lm(RespCap~Tabac, data=mydata)
summary(mod_Tabac)
##
## Call:
## lm(formula = RespCap ~ Tabac, data = mydata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.6041 -6.4520 0.7494 7.4656 17.1455
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 78.34797 1.69556 46.21 <2e-16 ***
## Tabac -1.42950 0.05859 -24.40 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.541 on 98 degrees of freedom
## Multiple R-squared: 0.8587, Adjusted R-squared: 0.8572
## F-statistic: 595.3 on 1 and 98 DF, p-value: < 2.2e-16
La régression met en évidence un lien linéaire significatif décroissant entre la capacité respiratoire et le tabagisme. La capacité respiratoire diminue de 1.4 unités lorsque le tabagisme augmente d’une unité.
ggplot(mydata, aes(x=Tabac,y=RespCap))+
geom_point(size=4)+
geom_smooth(method="lm")+
scale_y_continuous(limits=c(0,120))
Nous pouvons également vérifier les conditions d’applications, elles sont remplies.
par(mfrow=c(2,2))
plot(mod_Tabac)
shapiro.test(residuals(mod_Tabac))
##
## Shapiro-Wilk normality test
##
## data: residuals(mod_Tabac)
## W = 0.9809, p-value = 0.156
ncvTest(mod_Tabac)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.1053112, Df = 1, p = 0.74555
Nous pouvons alors représenter à nouveau la relation entre la capacité respiratoire et la consommation de bonbons à la menthe mais cette fois en ajoutant l’information sur la consommation de tabac par une couleur.
en visualisant à nouveau le niveau de tabagisme par une couleur dégradée :
ggplot(mydata, aes(x=BBMenthe,y=RespCap, fill=Tabac))+
geom_point(size=4, shape=21)+
scale_fill_gradient2(low="green", mid="yellow",high="red", midpoint=25)
Ceci nous permet de visualiser que “derrière” la consommation de bonbons à la menthe il y a le tabagisme !
Remarque : lorsqu’une variable est liée à la fois à la réponse (ici la capacité respiratoire), et à une variable explicative (ici la consommation de bonbons à la menthe), elle est appelée “facteur de confusion” de la relation entre la variable réponse et la variable explicative.
C’est tout l’intérêt de la régression linéaire multiple ! En effet, dans la régression linéaire multiple, la relation estimée entre la variable réponse et une variable prédictive est une relation ajustée, c’est-à-dire débarrassée des effets linéaires des autres variables (à la fois sur la variable réponse et sur la variable prédictive).
Employons un modèle de régression linéaire multiple en incluant à la fois la consommation de bonbons à la menthe et le tabagisme :
mod_All<- lm(RespCap~Tabac+BBMenthe, data=mydata)
summary(mod_All)
##
## Call:
## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.3812 -6.4986 0.1079 6.7749 16.5759
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 80.03997 2.88698 27.724 <2e-16 ***
## Tabac -1.37178 0.09894 -13.865 <2e-16 ***
## BBMenthe -0.11362 0.15670 -0.725 0.47
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.562 on 97 degrees of freedom
## Multiple R-squared: 0.8594, Adjusted R-squared: 0.8565
## F-statistic: 296.5 on 2 and 97 DF, p-value: < 2.2e-16
Nous pouvons voir qu’à présent, la relation entre la capacité respiratoire et la consommation de bonbon à la menthe est plus faible en terme de pente (-0.11 contre -1.8 lorsque seule la consommation de bonbons à la menthe était considérée), et surtout, elle n’est plus significative !
De l’autre côté, la relation entre le tabagisme et la capacité respiratoire n’a pas beaucoup bougé (-1.37 contre -1.43)
L’effet de la consommation des bonbons à la menthe sur la capacité respiratoire a été ajusté en fonction de l’effet du tabagisme. Il s’agit de l’effet restant, une fois que l’effet du tabagisme a été pris en compte.
Autrement dit, le test de b = 0 correspond à tester l’hypothèse : est ce que la capacité respiratoire est associé à la consommation de bonbons à la menthe, a niveau de tabagisme constant.
Les modèles de régressions linéaires multiples sont ainsi définis par l’équation
\[ y_i = \beta_0 + \beta_1x_{i1}+…+\beta_px_{ip} +\epsilon_i\]
Avec :
L’estimation des paramètres par la méthode des moindres carrés repose sur le même principe que celui de la régression linéaire simple, mais appliqué à p dimensions. Il s’agit simplement d’une généralisation.
Ainsi, il ne s’agit plus de chercher la droite qui passe au mieux des couples des points (yi ; xi) mais le plan à p dimensions qui passe au mieux des points de coordonnées (yi, xi1, …xip).
La méthode des moindres carrés aboutit à une estimation ajustée des coefficients.
Ce terme “ajustée”, signifie “après prise en considération des effets linéaires des autres co-variables sur la réponse, mais aussi sur la variable prédictive”.
Dit autrement, le coefficient β1 correspond à la pente de la relation entre y et x1 lorsque les effets linéaires des autres covariables ont été enlevés, à la fois au niveau de la réponse mais aussi au niveau de x1.
Dit encore autrement, il s’agit de la pente de la relation entre la part du prédicteur qui est indépendante des autres prédicteurs et la réponse, elle aussi indépendante des autres prédicteurs.
Les coefficients estimés par régression linéaire multiple sont parfois nommés pentes partielles.
Le test de b = 0 équivaut à tester l’hypothèse : est ce que la réponse est associée à la variable prédictive étudiée, toutes choses étant égales par ailleurs, c’est-à-dire à niveau constant des autres variables prédictives.
summary(mod_All)
##
## Call:
## lm(formula = RespCap ~ Tabac + BBMenthe, data = mydata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.3812 -6.4986 0.1079 6.7749 16.5759
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 80.03997 2.88698 27.724 <2e-16 ***
## Tabac -1.37178 0.09894 -13.865 <2e-16 ***
## BBMenthe -0.11362 0.15670 -0.725 0.47
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.562 on 97 degrees of freedom
## Multiple R-squared: 0.8594, Adjusted R-squared: 0.8565
## F-statistic: 296.5 on 2 and 97 DF, p-value: < 2.2e-16
Quatre conditions doivent être respectées :
Dans notre exemple, le coefficients de corrélation de Pearson, entre le tabac et les bonbons à la menthe est de 0.80:
cor(mydata$Tabac, mydata$BBMenthe)
## [1] 0.8047417
Le seuil de 0.85 est souvent employé, on se situe donc dessous.
La multicolinéarité peut également être évaluée par le calcul des VIF (Variance Inflation Factor), après l’ajustement du modèle.
Le VIF mesure de combien la variance d’un coefficient de régression estimé augmente, par rapport à une situation dans laquelle les prédicteurs sont strictement indépendants. Une valeur élevée de VIF est un signe de multi-colinéarité (le seuil est généralement admis à 3, 5 ou 10 selon les domaines).
Standardiser les données (centrage réduction) permet généralement de diminuer les risques de multicollinéarité
Dans un prochain article, je vous montrerai, comment réaliser une régression linéaire multiple avec R.
D’ici là, le sujet de la régression linéaire multiple vous intéresse particulièrement, je vous conseille le livre de Brian Caffo :Regression Models for Data Science in R. Brian Caffo a également une chaine youtube avec plusieurs vidéos sur la régression linéaire .
Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee
Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.
27 Responses
Bonjour, article très intéressant et (comme toujours) très bien structuré. Est-ce possible d’avoir le code qui a permis de faire les graphiques suivants :
– celui juste avant le titre “Equation” (avec les barres verticales en pointillés)
– celui juste avant le titre “La régression linéaire multiple” (avec le triangle vert)
Merci
Bonjour,
pour le premier graph :
library(tidyverse)
mydata <- mtcars %>%
dplyr::select(mpg, wt)
mod <- lm(mpg~wt, data=mtcars) mydata$fitted <- fitted(mod) ggplot(mydata, aes(x=wt, y=mpg))+ geom_point(size=3)+ geom_smooth(method="lm", color="blue", se=FALSE,size=2)+ geom_segment(aes(x=wt, xend=wt, y=mpg, yend=fitted), color="grey40", linetype="dashed", size=1)+ theme_bw()
Pour le second graph, non je ne peux pas, car c'est une image, je ne me souviens plus comment je l'ai créé c'était il y a très longtemps..
Bonjour,
S’il vous plaît !
J’ai vraiment besoin de ça
Absolument génial!
Bonjour, merci beaucoup à cet effort, en fait certain auteurs supposent la linéarité de la variable dépendante et certains supposent la linéarité des résidus, est des autres auteurs supposent que la linéarité des résidus provient de la linéarité de la variable dépendante … !!! Merci
Bonjour,
effectivement, la linéarité peut être vérifiée sur les données brutes ou sur les résidus. Je préfère sur les données brutes. J’en reparlerai sans doute dans un prochain article.
Bonne continuation.
Excellent article avec une vraie simplicité et une très bonne didactique !!!
Un immense merci pour cette transmission de connaissance !
Bonjour Claire , Merci pour le cours sur la régression linéaire multiple malheureusement le lien que vous m’avez envoyé dans mon mail pour le téléchargement concerne la fiche sur CHEAT SHEETS DES FONCTIONS INDISPENSABLES et non la régression linéaire multiple. Je souhaiterais que vous m’envoyiez le lien concernant la régression linéaire multiple afin de pouvoir le télécharger.
Merci et bonne journée.
Bonjour,
les articles ne sont pas téléchargeables, mais seulement consultables.
Bien cordialement.
Merci beaucoup. C’est très pertinent comme d’habitude.
Juste une petite remarque : le graphique représentant la relation Tabac et consommation de bonbons n’est pas fait avec les couleurs dégradées selon le niveau de tabagisme comme indiqué dans le texte.
Bonjour,
merci pour la remarque, je viens de corriger le texte.
Bonjour.
Vraiment cet article est très important et je suis très ravi de faire votre connaissance. Je vous souhaite un bon courage surtout et si toute fois on peut faire une formation en ligne et à combien merci.
Bonjour,
je suis en train de travailler sur la réalisation de formations pour les professionnels et les particuliers.
Je communiquerai sur les programmes et les tarifs, quand elles seront disponibles.
Restez en contact.
Bien cordialement
Merci grandement.tres instructif ce module
Très bon
Merci beaucoup pour les efforts consentir, ça nous sera d’une très grande utilité.
Cordialement
Bonjour,
J’ai beaucoup aimé votre article et suis ravie de faire votre connaissance.
Merci
Bonjour chère Claire et merci pour cet article. J’apprécie beaucoup vos capacités pédagogiques qui font toute la différence.
Bonjour Claire,
Merci pour ce chapitre
C’est très bien fait cela aidera énormément de personnes à comprendre la régression et les calculs liés à cela sur R
merci pour votre aide à travers des explications très claires dans ce nouvel article. cependant, votre précédent article étant déjà clair au sujet de la régression linéaire simple et régression linéaire multiple, mon problème ce que j’utilise la version 4.0.2 de R. poouvez vous m’indiquer les packages auxquels recourir pour réaliser la régression ( simple et multiple sur cette version)? autre chose, il arrive que certains packages ne se trouvent pas sur ma liste de packages. je fais comment pour les télécharger?
Bonjour Michel
La fonction à employer pour réaliser des régressions linéaires simples ou multiples est la fonction `lm` qui appartient au package `stats`. Ce package est chargé automatiquement à chaque ouverture de session. Vous n’avez donc rien à faire pour utiliser cette fonction `lm`, elle est disponible.
Pour installer des packages, vous pouvez utiliser ces lignes de commandes, ici avec le package nommé drc
install.packages(“drc”)
library(drc)
Bonne continuation
Merci merci beaucoup Claire, j’ai beaucoup travaillé sur les modèles de régression avec notamment l’ouvrage de Pierre-André Cornillon
Eric Matzner-Løber. Cet article m’a encore permis de fixer mes anciennes connaissances.
Bonjour Claire, merci beaucoup pour votre article, une vraie mine d’or comme tous les précédents.
J’aurais néanmoins une question : pouvez-vous me dire comment rapporter les résultats de ce type de test dans un rapport écrit ? Je recherche depuis un moment mais je ne trouve rien de tout ça.
Bonne continuation
Bonjour Caroline,
Allez voir cet article : https://delladata.fr/reporting-automatique-analyses-statistiques/, cela vous donnera de bonnes pistes.
Bonjour,
merci de cet article très intéressant.
Peut-on tout de même réaliser une analyse de régression multiple si la normalité et homoscédasticité des résidus ne sont pas respectées ?
J’ai testé différentes transformation de mon jeu de donnée, mais cela n’aboutit jamais aux respects de ces 2 règles.
Merci d’avance de votre aide.
Bonjour Eric,
Si les conditions ne sont vraiment pas satisfaites (écart très important), de mon point de vue, vous ne pourrez pas tellement avoir confiance dans les résultats (p-values).
Dans ce cas-là, voici deux pistes à explorer :
– Utiliser une régression robuste : Les régressions robustes sont des modèles qui sont moins sensibles aux valeurs aberrantes et aux violations de l’homogénéité des résidus (voir la fonction “rlm” du package “MASS”)
– Utiliser une méthode de ré-échantillonnage
J’espère que cela vous aide un peu.
Bonne continuation