Régression non paramétrique de Theil Sen

# simulation des données set.seed(1) n <- 30 x <- round(runif(n=n,min=1, max=10),1) y <- 2 + 3*x + rnorm(n,0,2.5) n_outliers <-3 x_out <-c(10,10.5,11) set.seed(1) y_out <- 2 + 3*x_out + rnorm(n_outliers,0,2.5) -20 X <- c(x, x_out) Y <- c(y, y_out) id <- 1:(n+n_outliers) type <- c(rep("conforme",n), rep("abberante", n_outliers)) df <- data.frame(id,type, X, Y

library(ggplot2) library(ggrepel) # visualisation des données ggplot(df, aes(X, Y, colour=type))+ geom_point(size=3)+ scale_colour_manual(values=c("red", "black"))+ geom_text(aes(label=rownames(df)),size=3,check_overlap = TRUE, vjust=-1) + theme(legend.position = "bottom")

mco <- lm(Y~X, data=df) coefficients(mco) ## (Intercept) X ## 6.681251 1.936301 confint(mco) ## 2.5 % 97.5 % ## (Intercept) 1.887023 11.475480 ## X 1.218787 2.653814

ggplot(df, aes(x=X, y=Y))+ geom_point(aes(colour=type))+ scale_colour_manual(values=c("red", "black"))+ geom_text(aes(label=rownames(df), colour=type),size=4,check_overlap = TRUE, vjust=-1)+ geom_smooth(method="lm", se=FALSE, colour="red", size=1)+ annotate("text", x = 3, y = 35, label = "mco : y = 6.7 + 1.9 x ", size=4, colour="red")+ theme(legend.position="bottom")

df <- augment(mco) head(df) ## # A tibble: 6 x 8 ## Y X .fitted .resid .hat .sigma .cooksd .std.resid ## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> ## 1 12.1 3.4 13.3 -1.18 0.0560 5.88 0.00130 -0.209 ## 2 14.9 4.3 15.0 -0.148 0.0414 5.89 0.0000147 -0.0261 ## 3 23.0 6.2 18.7 4.27 0.0304 5.83 0.00881 0.750 ## 4 31.7 9.2 24.5 7.16 0.0673 5.73 0.0591 1.28 ## 5 11.9 2.8 12.1 -0.218 0.0690 5.89 0.0000565 -0.0390 ## 6 31.6 9.1 24.3 7.30 0.0650 5.72 0.0590 1.30

mco2 <- lm(Y~X, data=df,subset=-c(31,32,33) ) coefficients(mco2) ## (Intercept) X ## 2.279832 2.984457 confint(mco2) ## 2.5 % 97.5 % ## (Intercept) 0.5324377 4.027226 ## X 2.7012473 3.267668

intercept <- mco2$coefficients[1] slope <- mco2$coefficients[2] data_ols2 <- data.frame(X=seq(min(df$X), max(df$X), length.out=100)) data_ols2$Y <- intercept + slope * data_ols2$X ggplot(df, aes(x=X, y=Y))+ geom_point(aes(colour=type))+ scale_colour_manual(values=c("red", "black"))+ geom_text(aes(label=rownames(df), colour=type),size=4,check_overlap = TRUE, vjust=-1)+ geom_smooth(method="lm", se=FALSE, colour="red", size=1)+ annotate("text", x = 3, y = 35, label = "mco : y = 6.7 + 1.9 x ", size=4, colour="red") + geom_line(data=data_ols2,aes(x=X, y=Y), colour="blue")+ annotate("text", x = 3, y = 33, label = "mco2 : y = 2.28 + 2.98 x ", size=4, colour="blue")+ theme(legend.position = "bottom")

library(mblm) theil_sen<- mblm(Y ~ X,data=df) coefficients(theil_sen) ## (Intercept) X ## 2.023452 2.962610 confint(theil_sen) ## 0.025 0.975 ## (Intercept) 1.959356 4.277086 ## X 2.570469 3.005011

library(MASS) #fit robust regression model robust <- rlm(Y~X, data=df) summary(robust) ## ## Call: rlm(formula = Y ~ X, data = df) ## Residuals: ## Min 1Q Median 3Q Max ## -20.69260 -1.54148 -0.02664 1.69417 3.46758 ## ## Coefficients: ## Value Std. Error t value ## (Intercept) 3.2547 1.0335 3.1492 ## X 2.7590 0.1547 17.8375 ## ## Residual standard error: 2.407 on 31 degrees of freedom coefficients(robust) ## (Intercept) X ## 3.254700 2.758985

library(quantreg) quantreg <- rq(Y ~ X, data = df, tau=.5) summary(quantreg) ## ## Call: rq(formula = Y ~ X, tau = 0.5, data = df) ## ## tau: [1] 0.5 ## ## Coefficients: ## coefficients lower bd upper bd ## (Intercept) 1.92259 1.24060 4.40125 ## X 2.98973 2.07993 3.18376 coefficients(quantreg) ## (Intercept) X ## 1.922588 2.989729

19 réponses

SamGG dit :
25 février 2022 à 10 h 06 min
Bon travail Claire ! Toujours super documenté et illustré.
A noter les packages robust et robustbase que j’apprécie.
Et plus encore dans https://cran.r-project.org/web/views/Robust.html
Répondre
1. Claire Della Vedova dit :
  25 février 2022 à 15 h 17 min
  Bonjour Samuel,
  Merci également pour les références de ces packages !
  Répondre
Yann Cohen dit :
25 février 2022 à 10 h 23 min
Bonjour Claire,
Merci beaucoup pour cet article, bien expliqué. La régression de Theil-Sen est en effet un bon moyen de tenir compte des outliers.
À ce sujet, il y a un package appelé Openair (développé par David Carslaw) basé sur la méthode Theil-Sen, qui tient également compte de l’autocorrélation du signal dans le calcul des intervalles de confiance. Est-ce qu’on pourrait avoir un petit article explicatif là-dessus de votre part, si vous avez un peu de temps à y consacrer ? =)
Yann
Répondre
1. Claire Della Vedova dit :
  25 février 2022 à 15 h 16 min
  Bonjour Yann,
  merci pour la référence. Je note la suggestion d’article.
  Bien à vous.
  Répondre
ousmane dit :
25 février 2022 à 13 h 21 min
cet article tombe pile au moment où je suis en discussion avec un de mes encadrants sur ce que je dois faire des outliers présents dans mon jeu de données.
merci Claire
Répondre
1. Sidy dit :
  16 mars 2026 à 14 h 39 min
  Bonjour Ousmane,
  Par quelles méthodes avez-vous identifier les outliers et comment la méthode Thein-Sen t’aide de ce tu vas faire de tes outliers.
  Merci d’avance
  Répondre
BAGUMA BALAGIZI Gabriel dit :
25 février 2022 à 14 h 35 min
Bonjour CLAIRE, Très ravis de cette publication. Est-il possible de faire la régression linéaire multiple dans de cas non paramétrique. Càd corréler une variable quantitative avec autant des variables explicatives.
Merci
Répondre
Galboni Adama dit :
25 février 2022 à 18 h 37 min
Tres bonne approche.
Vous etes a remercier infiniment avec toutes ces fouilles.
Répondre
SAndrine CHARLES dit :
25 février 2022 à 19 h 27 min
Bonsoir Claire, merci pour cette découverte, je ne connaissais cette régression non paramétrique. Question : ls moindres carrés ne valent que si on fait l’hypothèse d’un modèle d’erreur Gaussien sur Y. Une régression non paramétrique permet a priori de s’affranchir de cette hypothèse. Du coup, peut-on l’utiliser quelle que soit la nature des données Y ? Binaires, comptage, quantitative continues ?
Répondre
1. Claire Della Vedova dit :
  2 mars 2022 à 9 h 07 min
  Bonjour Sandrine,
  D’après ma compréhension, pour estimer les paramètres de la droite (pente et intercept), la méthode des moindres carrés ne fait aucune hypothèse sur la distribution des erreurs. Par contre, c’est l’estimation de l’erreur standard des paramètres, qui découle de la méthode des moindres carrés qui repose sur une distribution Gaussienne des erreurs. Dans les sorties de l’utilisation de la méthode de Theil Sen, on obtient un intervalle de confiance. Je ne sais pas comment il est calculé, mais sans doute par bootstrap. Du coup, je pense qu’on peut utiliser cette approche quelle que soit la nature des données (je ferais quand même quelques petits tests pour vérifier !).
  Répondre
LIRET dit :
25 février 2022 à 22 h 17 min
Super travail et article pédagogique (comme souvent…. NON : comme toujours ! 🙂 ). A bientôt.
Répondre
Traoré dit :
26 février 2022 à 8 h 34 min
Bonjour ,je me jouis de cet immense travail.toutes mes félicitations à vous.
Quel logiciel utilisez-vous pour ces calculs ?
Répondre
1. Claire Della Vedova dit :
  2 mars 2022 à 8 h 51 min
  Bonjour,
  vraiment, vous n’avez pas une petite idée du logiciel ??
  Répondre
Musubao dit :
28 février 2022 à 8 h 49 min
C’est vraiment un article intéressant et innovant pour nous les débutants en R. C’était toujours confronté à des tels cas mais je ne savais m’y prendre
Merci
Cordialement
Répondre
Arthur Bailly dit :
28 février 2022 à 17 h 05 min
Bonjour Claire,
Merci beaucoup pour cet article très intéressant et qui tombe à pic !
Concernant la régression robuste, la fonction rlm utilise la méthode « iterated re-weighted least squares » pour fitter les coefficients du modèle (https://en.wikipedia.org/wiki/Iteratively_reweighted_least_squares).
Pour résumer en très grossier (et si j’ai bien compris), on commence par une première recherche des paramètres du modèle en utilisant la méthode des moindres carrées. Une fois le premier modèle fitté, on recommence mais en attribuant un poids à chaque individu (variable X dans ce cas). Le poids associé à un couple (X,Y) est inversement proportionnel à son résidu du modèle précédent. En d’autres termes, si un point est très mal fitté, celui-ci aura moins de poids lors de la prochaine recherche de paramètre par les moindres carrés. Et on recommence le processus x fois jusqu’à temps de trouver une solution qui converge.
C’est évidemment un peu plus compliqué que cela mais l’idée est là 😉
Répondre
1. Claire Della Vedova dit :
  2 mars 2022 à 8 h 48 min
  Bonjour Arthur,
  Merci pour l’explication. Je vais l’ajouter à l’article.
  Répondre
karim dit :
1 mars 2022 à 14 h 32 min
merci bcp Claire, une très bonne alternative pour les cas difficiles. avant cet article, je savait juste qu’elle existe, mais avec votre article , je vois plus clair et avec l’outil R c’est juste génial!
merci et bon courage
Répondre
Anne V. dit :
9 mars 2022 à 9 h 36 min
Article très intéressant et utile ! J’adore apprendre de nouvelles méthodes en stat…
Répondre
Ibrahim Sanogo dit :
6 avril 2023 à 11 h 32 min
Merci beaucoup pour tout ce que vous faites pour rendre ces approches bien claires pour moi. Les données quantitatives contiennent souvent des valeurs abberantes qu’il faut savoir les traiter convenablement pour avoir des estimations moins biaisées. J’en tiendrai compte pour mes travaux de modélisation.
Répondre

Régression non paramétrique de Theil Sen

Table des matières

Contexte

Régression par les moindres carrés

Régression par la méthode des moindre carrés, sur l’ensemble des données

Recherche des outliers

Régression par les moindres carrés en omettant les 3 points aberrants

Approches alternatives

Régression non paramétrique de Theil Sen

Regresion robuste

Quantile regression

Synthèse

Poursuivez votre lecture

19 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)