Introduction à la régression polynomiale

mod1 <- lm(mpg~disp, data=mtcars) summary(mod1) ## ## Call: ## lm(formula = mpg ~ disp, data = mtcars) ## ## Residuals: ## Min 1Q Median 3Q Max ## -4.8922 -2.2022 -0.9631 1.6272 7.2305 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 29.599855 1.229720 24.070 < 2e-16 *** ## disp -0.041215 0.004712 -8.747 9.38e-10 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.251 on 30 p-value: 9.38e-10degrees of freedom ## Multiple R-squared: 0.7183, Adjusted R-squared: 0.709 ## F-statistic: 76.51 on 1 and 30 DF,

shapiro.test(residuals(mod1)) ## ## Shapiro-Wilk normality test ## ## data: residuals(mod1) ## W = 0.9271, p-value = 0.03255 library(car) ncvTest(mod1) ## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 2.233958, Df = 1, p = 0.1350

ggplot(mtcars, aes(y=mpg,x=disp))+ geom_point()+ scale_y_continuous(limits=c(0,35))+ theme_classic()+ geom_smooth(method="lm", colour="red", formula=y~x+I(x^2))

mod2 <- lm(mpg~disp+I(disp^2), data=mtcars) summary(mod2) ## ## Call: ## lm(formula = mpg ~ disp + I(disp^2), data = mtcars) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.9112 -1.5269 -0.3124 1.3489 5.3946 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 3.583e+01 2.209e+00 16.221 4.39e-16 *** ## disp -1.053e-01 2.028e-02 -5.192 1.49e-05 *** ## I(disp^2) 1.255e-04 3.891e-05 3.226 0.0031 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.837 on 29 degrees of freedom ## Multiple R-squared: 0.7927, Adjusted R-squared: 0.7784 ## F-statistic: 55.46 on 2 and 29 DF, p-value: 1.229e-10

mod2bis <- lm(mpg~poly(disp,2, raw=TRUE), data=mtcars) summary(mod2bis) ## ## Call: ## lm(formula = mpg ~ poly(disp, 2, raw = TRUE), data = mtcars) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.9112 -1.5269 -0.3124 1.3489 5.3946 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 3.583e+01 2.209e+00 16.221 4.39e-16 *** ## poly(disp, 2, raw = TRUE)1 -1.053e-01 2.028e-02 -5.192 1.49e-05 *** ## poly(disp, 2, raw = TRUE)2 1.255e-04 3.891e-05 3.226 0.0031 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.837 on 29 degrees of freedom ## Multiple R-squared: 0.7927, Adjusted R-squared: 0.7784 ## F-statistic: 55.46 on 2 and 29 DF, p-value: 1.229e-10

shapiro.test(residuals(mod2)) ## ## Shapiro-Wilk normality test ## ## data: residuals(mod2) ## W = 0.93679, p-value = 0.06073 ncvTest(mod2) ## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 0.3508705, Df = 1, p = 0.55362

Anova(mod1) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## disp 808.89 1 76.513 9.38e-10 *** ## Residuals 317.16 30 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Anova(mod2) ## Anova Table (Type II tests) ## ## Response: mpg ## Sum Sq Df F value Pr(>F) ## disp 216.932 1 26.955 1.488e-05 *** ## I(disp^2) 83.766 1 10.408 0.003104 ** ## Residuals 233.393 29 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 anova(mod1, mod2) ## Analysis of Variance Table ## ## Model 1: mpg ~ disp ## Model 2: mpg ~ disp + I(disp^2) ## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 30 317.16 ## 2 29 233.39 1 83.766 10.408 0.003104 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(mod1, mod2) ## Analysis of Variance Table ## ## Model 1: mpg ~ disp ## Model 2: mpg ~ disp + I(disp^2) ## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 30 317.16 ## 2 29 233.39 1 83.766 10.408 0.003104 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

my_mtcars <- mtcars int_pred <- predict(mod2, interval="prediction") my_mtcars <-cbind(my_mtcars, int_pred) head(my_mtcars) ## mpg cyl disp hp drat wt qsec vs am gear carb fit ## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 22.19873 ## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 22.19873 ## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 25.92346 ## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 17.02447 ## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 14.19996 ## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 18.49754 ## lwr upr ## Mazda RX4 16.25468 28.14279 ## Mazda RX4 Wag 16.25468 28.14279 ## Datsun 710 19.92156 31.92535 ## Hornet 4 Drive 11.00078 23.04815 ## Hornet Sportabout 8.19785 20.20208 ## Valiant 12.49227 24.50282 ggplot(my_mtcars, aes(y=mpg, x=disp))+ geom_point()+ geom_smooth(colour="red", method="lm", fill="red", formula=y~x+I(x^2)) + geom_line(aes(y=lwr), color = "red", linetype = "dashed")+ geom_line(aes(y=upr), color = "red", linetype = "dashed")+ theme_classic()+ annotate("text", x = 350, y = 30, label = "mpg = 3.58 - 1.05e-01 x disp +1.25e-04 X disp²")

13 réponses

Chedly dit :
9 septembre 2020 à 11 h 27 min
Très intéressant, merci pour ce tuto.
Répondre
Monneret Denis dit :
12 septembre 2020 à 8 h 56 min
Erreur de copier-coller pour la 4ème équation de l’exemple de la 1ère figure (courbe croissante turquoise en bas à droite) ?
Répondre
1. Claire Della Vedova dit :
  15 septembre 2020 à 22 h 44 min
  Bonjour Denis,
  oui c’est bien vu ! Merci.
  Répondre
Laure dit :
8 septembre 2021 à 7 h 17 min
Bonjour,
Je vous remercie pour ce cours très clair.
Comment fait-on lorsque l’on veut modéliser une interaction avec la variable transformée en polynôme? Doit-on répéter l’interaction pour chaque “ordre” de polynôme sexe*age+ sexe *age^2+sexe*age^3 par exemple?
Comment peut on l’interpréter?
Merci!
Répondre
1. Claire Della Vedova dit :
  8 septembre 2021 à 21 h 28 min
  Bonjour,
  je ne sais pas du tout, je n’ai jamais croisé ce cas de figure…
  Navrée de ne pas pouvoir vous aider.
  Bonne continuation
  Répondre
Horrigue dit :
22 septembre 2021 à 8 h 15 min
Bonjour,
Merci de m’éclaire le plus précisément sur 2 questions
1/Le coefficient de détermination R2 permet il de juger de la pertinence du un ajustement polynomial d’ordre 2 au même titre qu’un ajustement affine?
2/ est ce le cas aussi pour un ajustement logarithmique , puissance
Sinon ( je pense que non …) quel sens donner au coefficient R2 sur tableur Excel dans le cas d’un ajustement logarithmique…
Merci pour la considération et le temps donné à la lecture du message
Très cordialement
Répondre
1. Claire Della Vedova dit :
  25 septembre 2021 à 9 h 32 min
  Bonjour,
  je ne dirai pas que le R2 à lui seul permet de juger de la pertinence d’un modèle (qu’il soit ploynomial ou d’ordre 2). Pour vous en convaincre, regardez l’article : Régression linéaire simple : le R2, info ou intox ? https://delladata.fr/regression-lineaire-simple-le-r%c2%b2-info-ou-intox/).
  Il me semble que la définition du R2 est toujours identique : c’est la part de dispersion expliquée par le modèle (q’il s’agit d’une régression linéaire, polynomiale d’ordre 2). Je n’ai pas compris ce que vous entendez par ajustement logarithmique.
  J’espère que cela vous aide.
  Bonne continuation
  Répondre
Marck dit :
31 mars 2022 à 17 h 14 min
Bonjour,
Je vous remercie.
Article très interrasant.
J’ai une question.
Comment faire la prediction?
Par exemple si on construit un modele polynomiale simple y en fonction de x et on veut predir x_new.
Faut il le prendre x_new pour la fonction predict?
Cordialement
Répondre
1. Claire Della Vedova dit :
  6 avril 2022 à 5 h 42 min
  Bonjour,
  oui c’est ça. Vous pouvez vous inspirer des prédictions réalisées dans cet article : https://delladata.fr/la-regression-lineaire-simple-avec-le-logiciel-r/
  Bonne continuation
  Répondre
LIRET dit :
31 juillet 2022 à 8 h 21 min
Bonjour
Il manque peut-être l’argument
smooth=list(style= »lines »)
dans le dernier graphique, pour obtenir plus exactement celui présenté.
scatterplot(mpg~disp, data=mtcars,smooth=list(style= »lines »))
Merci
E.
Répondre
Jacus J. Pierre dit :
29 mars 2023 à 18 h 06 min
Bonjour à vous,
je m’intéresse à la régression polynomiale ordonnée.
J’ai donc une variable dépendante ordinale (codée as.ordered, en 3 niveaux)
J’ai une variable explicative également ordinale (codée as.ordered en 4 niveaux)
J’utilise la fonction polr du package MASS
MOD1 = polr(VD~ VE, data)
summary(MOD1)
Mais la sortie me donne 3 modalités de ma variable explicative
variable explicative.L
variable explicative.Q
variable explicative.C
Et je ne sais pas à quoi ces modalités se réfèrent ni la modalité prise en référence.
Si je recode ma variable explicative comme un facteur (as.factor)
J’ai une sortie où 3 niveaux de ma VE sont affichés (2 à 4) et le niveau 1 sert de référence. Là je comprends, mais les coefficients ne sont plus les mêmes que lorsque ma VE est codée as. ordered
Que faut-il faire?
Merci pour votre aide.
J. Pierre
Répondre
Louis-Lucas dit :
21 avril 2023 à 11 h 39 min
Bonjour, merci pour votre article très intéressant !!
J’ai une petite question sur l’interprétation des résultats et sorties des modèles :
Comment interprétez vous les estimates du modèle ?
## disp -1.053e-01 2.028e-02 -5.192 1.49e-05 ***
## I(disp^2) 1.255e-04 3.891e-05 3.226 0.0031 **
Est ce qu’on peut dire que disp a un effet négatif ? Dans la mesure ou I(disp^2) a un estimate positif dans le summary du modèle ?
Merci pour votre réponse et encore bravo pour votre travail !
Répondre
xavier dit :
13 octobre 2023 à 11 h 30 min
bonjour,
merci pour ce post vraiment utile! J’ai fait la même chose en utilisant la fonction glm car je devais spécifier une distribution de Poisson.
Cela a fonctionné par contre je ne parviens pas à obtenir/voir la p-value globale de mon modèle polynomial pour le reporter. Avez vous une idée?
Aussi que faire lorsque I(disp^2) n’est pas significatif alors que la comparaison des modèle me dit que l’ajustement du modèle de régression polynomiale de degré 2 est significativement meilleur?
Merci pour l’aide,
Xavier
Répondre

Introduction à la régression polynomiale

Définition

Les formes modélisées par la régression polynomiale

La régression polynomiale de degré 2, permet de modéliser des relations de formes diverses :

A quoi ça sert la régression polynomiale ?

Tutoriel avec R

Visualisation des données

Régression linéaire simple

Visualisation

Ajustement

Vérification des hypothèses de normalité et d'homogénéité des résidus

Régression polynomiale de degrès 2

Visualisation

Ajustement

Comparaison des deux modèles

Calcul de l'intervalle de prédiction

Conclusion

Ajoutez votre titre ici

13 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)