Représentez un intervalle de confiance et de prédiction

summary(mod1) ## ## Call: ## lm(formula = Sepal.Width ~ Sepal.Length - 1, data = setosa) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.78398 -0.18311 -0.00811 0.18176 0.53629 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## Sepal.Length 0.685328 0.007244 94.61 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.257 on 49 degrees of freedom ## Multiple R-squared: 0.9946, Adjusted R-squared: 0.9944 ## F-statistic: 8952 on 1 and 49 DF, p-value: < 2.2e-16

library(ggplot2) ggplot(setosa, aes(y=Sepal.Width, x=Sepal.Length)) + geom_point(colour="grey40") + stat_smooth(method = "lm", formula=y~x-1, fill="red", colour="red") + scale_y_continuous(lim=c(0,4.5)) + scale_x_continuous(lim=c(0,7))

xmin <- min(setosa$Sepal.Length) xmax <- max(setosa$Sepal.Length) predicted <- data.frame(Sepal.Length = seq(xmin, xmax, length.out = 1000)) head(predicted) ## Sepal.Length ## 1 4.300000 ## 2 4.301502 ## 3 4.303003 ## 4 4.304505 ## 5 4.306006 ## 6 4.307508

predicted$Sepal.Width <- predict(mod1,predicted) head(predicted) ## Sepal.Length Sepal.Width ## 1 4.300000 2.946912 ## 2 4.301502 2.947941 ## 3 4.303003 2.948970 ## 4 4.304505 2.949999 ## 5 4.306006 2.951028 ## 6 4.307508 2.952057

predicted$ci_binf <- predict(mod1,predicted, interval="confidence",level = 0.95)[,2] predicted$ci_bsup <- predict(mod1,predicted, interval="confidence",level = 0.95)[,3] head(predicted) ## Sepal.Length Sepal.Width ci_binf ci_bsup ## 1 4.300000 2.946912 2.884319 3.009504 ## 2 4.301502 2.947941 2.885326 3.010555 ## 3 4.303003 2.948970 2.886333 3.011606 ## 4 4.304505 2.949999 2.887341 3.012657 ## 5 4.306006 2.951028 2.888348 3.013708 ## 6 4.307508 2.952057 2.889355 3.014759

predicted$pi_binf <- predict(mod1,predicted, interval="prediction",level = 0.95)[,2] predicted$pi_bsup <- predict(mod1,predicted, interval="prediction",level = 0.95)[,3] head(predicted) ## Sepal.Length Sepal.Width ci_binf ci_bsup pi_binf pi_bsup ## 1 4.300000 2.946912 2.884319 3.009504 2.426619 3.467205 ## 2 4.301502 2.947941 2.885326 3.010555 2.427645 3.468236 ## 3 4.303003 2.948970 2.886333 3.011606 2.428672 3.469268 ## 4 4.304505 2.949999 2.887341 3.012657 2.429698 3.470300 ## 5 4.306006 2.951028 2.888348 3.013708 2.430724 3.471331 ## 6 4.307508 2.952057 2.889355 3.014759 2.431751 3.472363

ggplot(setosa, aes(y=Sepal.Width, x=Sepal.Length))+ # ajout des points geom_point(colour="grey40")+ # ajout de la droite de régression geom_line(data=predicted, aes(y=Sepal.Width, x=Sepal.Length), col="red")+ scale_y_continuous(lim=c(0,4.5))+ scale_x_continuous(lim=c(0,7))+ # ajout de la binf de l'intervalle de confiance geom_line(data=predicted, aes(y=ci_binf, x=Sepal.Length), col="red", linetype="dashed")+ # ajout de la bsup de l'intervalle de confiance geom_line(data=predicted, aes(y=ci_bsup, x=Sepal.Length), col="red", linetype="dashed")+ # ajout de la binf de l'intervalle de prédiction geom_line(data=predicted, aes(y=pi_binf, x=Sepal.Length), col="blue", linetype="dashed")+ # ajout de la bsup de l'intervalle de prédiction geom_line(data=predicted, aes(y=pi_bsup, x=Sepal.Length), col="blue", linetype="dashed")

ggplot(setosa, aes(y=Sepal.Width, x=Sepal.Length))+ geom_point(colour="grey40")+ geom_line(data=predicted, aes(y=Sepal.Width, x=Sepal.Length), col="red")+ scale_y_continuous(lim=c(0,4.5))+ scale_x_continuous(lim=c(0,7))+ geom_line(data=predicted, aes(y=ci_binf, x=Sepal.Length), col="red", linetype="dashed")+ geom_line(data=predicted, aes(y=ci_bsup, x=Sepal.Length), col="red", linetype="dashed")+ geom_line(data=predicted, aes(y=pi_binf, x=Sepal.Length), col="blue", linetype="dashed")+ geom_line(data=predicted, aes(y=pi_bsup, x=Sepal.Length), col="blue", linetype="dashed")+ # prolongement de la droite de régression geom_abline(slope=coef(mod1))

8 réponses

bernard dit :
26 juin 2020 à 8 h 47 min
Bonjour Claire, travaillant sur des données hospitalières, je rejoins la cohorte des fans de votre blog avec une remarque sur cette page : au §3, la copie d’écran montrant le résultat de summary(mod1) ne correspond pas à mod1.
Bonne continuation et merci encore pour ces notes précises à l’approche intuitive.
Répondre
1. Claire Della Vedova dit :
  28 juin 2020 à 22 h 48 min
  Bonjour Bernard,
  merci pour votre message et remarque, je viens de modifier !
  Bonne continuation.
  Répondre
Christian Z dit :
26 juin 2020 à 12 h 40 min
thanks so much. I’m post graduate in biostatistic . That’s very usefull for me
Répondre
1. Claire Della Vedova dit :
  28 juin 2020 à 22 h 48 min
  Thanks for your message !
  All the best.
  Répondre
Saya dit :
29 octobre 2021 à 11 h 09 min
Bonjour,
je vous remercie pour votre article qui m’a été utile!
Cependant, j’ai encore une question: j’ai une base de données de 400 variables, j’ai réalisé une droite de régression entre deux des variables proposées. Par la suite, je cherche à connaitre les coefficients de ma droite de régression (a et b). cependant, je veux avoir les valeurs de a et b ainsi que les intervalles de confiance de a et b à 95%.
Comment peut-on faire?
Je vous remercie
Répondre
1. Claire Della Vedova dit :
  10 novembre 2021 à 11 h 08 min
  Bonjour,
  voici comment faire :
  > fit <- lm(Sepal.Width~Sepal.Length, data=iris) > summary(fit)
  Call: lm(formula = Sepal.Width ~ Sepal.Length, data = iris)
  Residuals: Min 1Q Median 3Q Max -1.1095 -0.2454 -0.0167 0.2763 1.3338
  Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.41895 0.25356 13.48 <2e-16 *** Sepal.Length -0.06188 0.04297 -1.44 0.152 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
  Residual standard error: 0.4343 on 148 degrees of freedom Multiple R-squared: 0.01382, Adjusted R-squared: 0.007159 F-statistic: 2.074 on 1 and 148 DF, p-value: 0.1519
  > confint(fit) 2.5 % 97.5 % (Intercept) 2.9178767 3.92001694 Sepal.Length -0.1467928 0.02302323
  Pour que les intervalles de confiance soient valide, les résidus doivent suivent une distribution normale et être homogènes.
  Répondre
MBENGUE Mouctar dit :
9 mai 2022 à 0 h 20 min
Bonsoir Claire,
Je suis à la recherche de la construction théorique de l’intervalle de confiance de la droite de regression
C’est un encadrement des coefficients estimés ou bien.
Et si oui, j’aimerais bien savoir comment
Merci
Répondre
1. Claire Della Vedova dit :
  25 mai 2022 à 8 h 16 min
  Bonjour,
  Vous trouverez cela dans quasiment tous les livres de stats théoriques, et en faisant une petite recherche sur google, par exemple https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/PASS/Confidence_Intervals_for_Linear_Regression_Slope.pdf.
  Bonne continuation
  Répondre

Représentez les intervalles de confiance et de prédiction

Rappel sur les intervalles de confiance et de prédiction

Data

Ajustement du modèle

Visualisation de l'intervalle de confiance avec geom_smooth

Visualisation de l'intervalle de confiance en utilisant des prédictions

Création d'un vecteur de Sepal.Length

Obtention des bornes de l'intervalle de confiance

Obtention des bornes de l'intervalle de prédiction

Réalisation du graphique

8 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)