Introduction aux séries temporelles

# moyenne de l'ensemble des données meanf(AirPassengers,12) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## Jan 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Feb 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Mar 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Apr 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## May 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Jun 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Jul 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Aug 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Sep 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Oct 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Nov 1961 280.2986 125.3066 435.2906 42.34016 518.2571 ## Dec 1961 280.2986 125.3066 435.2906 42.34016 518.2571

naive(AirPassengers,12) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## Jan 1961 432 388.7984 475.2016 365.9288 498.0712 ## Feb 1961 432 370.9037 493.0963 338.5612 525.4388 ## Mar 1961 432 357.1726 506.8274 317.5613 546.4387 ## Apr 1961 432 345.5967 518.4033 299.8576 564.1424 ## May 1961 432 335.3982 528.6018 284.2603 579.7397 ## Jun 1961 432 326.1781 537.8219 270.1593 593.8407 ## Jul 1961 432 317.6992 546.3008 257.1921 606.8079 ## Aug 1961 432 309.8073 554.1927 245.1225 618.8775 ## Sep 1961 432 302.3951 561.6049 233.7864 630.2136 ## Oct 1961 432 295.3845 568.6155 223.0646 640.9354 ## Nov 1961 432 288.7164 575.2836 212.8667 651.1333 ## Dec 1961 432 282.3452 581.6548 203.1227 660.8773

snaive(AirPassengers,12) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## Jan 1961 417 370.4595 463.5405 345.8224 488.1776 ## Feb 1961 391 344.4595 437.5405 319.8224 462.1776 ## Mar 1961 419 372.4595 465.5405 347.8224 490.1776 ## Apr 1961 461 414.4595 507.5405 389.8224 532.1776 ## May 1961 472 425.4595 518.5405 400.8224 543.1776 ## Jun 1961 535 488.4595 581.5405 463.8224 606.1776 ## Jul 1961 622 575.4595 668.5405 550.8224 693.1776 ## Aug 1961 606 559.4595 652.5405 534.8224 677.1776 ## Sep 1961 508 461.4595 554.5405 436.8224 579.1776 ## Oct 1961 461 414.4595 507.5405 389.8224 532.1776 ## Nov 1961 390 343.4595 436.5405 318.8224 461.1776 ## Dec 1961 432 385.4595 478.5405 360.8224 503.1776

rwf(AirPassengers,12, drift=TRUE) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## Jan 1961 434.2378 390.9799 477.4956 368.0806 500.3949 ## Feb 1961 436.4755 375.0862 497.8649 342.5886 530.3625 ## Mar 1961 438.7133 363.2664 514.1602 323.3272 554.0994 ## Apr 1961 440.9510 353.5325 528.3696 307.2560 574.6461 ## May 1961 443.1888 345.1178 541.2598 293.2022 593.1755 ## Jun 1961 445.4266 337.6304 553.2228 280.5665 610.2866 ## Jul 1961 447.6643 330.8384 564.4902 268.9946 626.3341 ## Aug 1961 449.9021 324.5916 575.2126 258.2562 641.5480 ## Sep 1961 452.1399 318.7857 585.4940 248.1922 656.0875 ## Oct 1961 454.3776 313.3453 595.4100 238.6873 670.0680 ## Nov 1961 456.6154 308.2136 605.0171 229.6545 683.5763 ## Dec 1961 458.8531 303.3469 614.3594 221.0268 696.6795

autoplot(AirPassengers) + autolayer(meanf(AirPassengers, h=12), series="Moyenne", PI=FALSE) + autolayer(naive(AirPassengers, h=12), series="Naïve", PI=FALSE) + autolayer(snaive(AirPassengers , h=12), series="Naïve saisonnière", PI=FALSE) + autolayer(rwf(AirPassengers,12, drift=TRUE), series="Naïve dérive", PI=FALSE)+ ggtitle("Prevision du nombre de passagers mensuels pour l'année 1961") + xlab("Year") + ylab("Nombres de passagers") + guides(colour=guide_legend(title="Prevision"))

install.packages("covid19france") library(covid19france) # mise à jour des données france <- refresh_covid19france() france$data_type <- as.factor(france$data_type) library(tidyverse) ahp_hosp <- france %>% filter(location_standardized=="DEP-04") %>% filter(data_type=="hospitalized") head(ahp_hosp) A tibble: 6 x 7 date location location_type location_standard~ location_standardi~ data_type value <date> <chr> <chr> <chr> <chr> <fct> <int> 2 2021-02-11 Alpes-de-Hau~ county DEP-04 department hospital~ 188 3 2021-02-10 Alpes-de-Hau~ county DEP-04 department hospital~ 188 4 2021-02-09 Alpes-de-Hau~ county DEP-04 department hospital~ 192 5 2021-02-08 Alpes-de-Hau~ county DEP-04 department hospital~ 190 6 2021-02-07 Alpes-de-Hau~ county DEP-04 department hospital~ 182

library(stringr) library(lubridate) ahp_hosp <- ahp_hosp %>% mutate( js=wday(date, label=TRUE, abb=TRUE), js=as.character(js), js=str_sub(js,1,3)) head(ahp_hosp) # A tibble: 6 x 8 date location location_type location_standar~ location_standar~ data_type value js <date> <chr> <chr> <chr> <chr> <fct> <int> <chr> 2 2021-02-11 Alpes-de-~ county DEP-04 department hospital~ 188 jeu 3 2021-02-10 Alpes-de-~ county DEP-04 department hospital~ 188 mer 4 2021-02-09 Alpes-de-~ county DEP-04 department hospital~ 192 mar 5 2021-02-08 Alpes-de-~ county DEP-04 department hospital~ 190 lun 6 2021-02-07 Alpes-de-~ county DEP-04 department hospital~ 182 dim >

ahp_hosp %>% filter(date>"2020-09-01") %>% ggplot(aes(x=date,y=value))+ geom_line()+ geom_point()+ scale_x_date(breaks=datebreaks,labels=date_format("%d %b %y")) theme(axis.text.x = element_text(angle=30, hjust=1)) + facet_wrap(~js)

ahp_hosp %>% filter(date>"2020-09-01") %>% ggplot(aes(x=date,y=value, group=js, colour=js))+ geom_line()+ geom_point()+ scale_x_date(breaks=datebreaks,labels=date_format("%d %b %y"))+ theme(axis.text.x = element_text(angle=30, hjust=1))

# changer l'ordre du dataset par ordre chronologique (en haut les anciennes en bas les récentes) ahp_hosp_ts <- ahp_hosp %>% arrange(date) %>% filter(date>"2020-09-01") %>% select(value) %>% ts(frequency=7) str(ahp_hosp_ts) View(ahp_hosp_ts)

# approche moyenne meanf(ahp_hosp_ts,7) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 24.28571 91.39264 8.721233 174.064 -35.4745 218.2598 ## 24.42857 91.39264 8.721233 174.064 -35.4745 218.2598 ## 24.57143 91.39264 8.721233 174.064 -35.4745 218.2598 ## 24.71429 91.39264 8.721233 174.064 -35.4745 218.2598 ## 24.85714 91.39264 8.721233 174.064 -35.4745 218.2598 ## 25.00000 91.39264 8.721233 174.064 -35.4745 218.2598 ## 25.14286 91.39264 8.721233 174.064 -35.4745 218.2598

# approche naive naive(ahp_hosp_ts,7) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 24.28571 188 182.3015 193.6985 179.2850 196.7150 ## 24.42857 188 179.9412 196.0588 175.6751 200.3249 ## 24.57143 188 178.1300 197.8700 172.9051 203.0949 ## 24.71429 188 176.6031 199.3969 170.5699 205.4301 ## 24.85714 188 175.2579 200.7421 168.5126 207.4874 ## 25.00000 188 174.0417 201.9583 166.6526 209.3474 ## 25.14286 188 172.9233 203.0767 164.9422 211.0578

# approche naive saisonnière snaive(ahp_hosp_ts,7) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 24.28571 173 151.7216 194.2784 140.4575 205.5425 ## 24.42857 182 160.7216 203.2784 149.4575 214.5425 ## 24.57143 182 160.7216 203.2784 149.4575 214.5425 ## 24.71429 190 168.7216 211.2784 157.4575 222.5425 ## 24.85714 192 170.7216 213.2784 159.4575 224.5425 ## 25.00000 188 166.7216 209.2784 155.4575 220.5425 ## 25.14286 188 166.7216 209.2784 155.4575 220.5425

# approche naive saisonnière avec dérive rwf(ahp_hosp_ts,7, drift=TRUE) ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 24.28571 189.1049 183.5681 194.6418 180.6371 197.5728 ## 24.42857 190.2099 182.3555 198.0643 178.1976 202.2221 ## 24.57143 191.3148 181.6657 200.9639 176.5578 206.0718 ## 24.71429 192.4198 181.2440 203.5955 175.3280 209.5115 ## 24.85714 193.5247 180.9921 206.0573 174.3577 212.6917 ## 25.00000 194.6296 180.8595 208.3997 173.5701 215.6892 ## 25.14286 195.7346 180.8167 210.6524 172.9196 218.5495

autoplot(ahp_hosp_ts) + autolayer(meanf(ahp_hosp_ts, h=7), series="Moyenne", PI=FALSE) + autolayer(naive(ahp_hosp_ts, h=7), series="Naïve", PI=FALSE) + autolayer(snaive(ahp_hosp_ts , h=7), series="Naïve saisonnière", PI=FALSE) + autolayer(rwf(ahp_hosp_ts,7, drift=TRUE), series="Naïve dérive", PI=FALSE)+ ggtitle("Prevision du nombre patients hiospitalisés à l'horizon une semaine") + xlab("semaine") + ylab("Nombre de patients hospitalisés") + guides(colour=guide_legend(title="Prevision"))

6 réponses

CROS dit :
20 avril 2021 à 23 h 54 min
Bonjour Claire,
je passais par là,
j’ai vu que tu ne comprenais pas les modeles ARIMA en série temporelle,
va voir le livre introduction aux séries Temporelle R. Bourbonnais et M. Terrazza
Niveau L1 et M1 econométrie
rien de tres difficille
Sinon regarde les Bouquins de Alain Montfort
http://www.crest.fr/pagesperso.php?user=3014
Merci POUR LES ROUTINES SOUS R
Répondre
1. Claire Della Vedova dit :
  21 avril 2021 à 8 h 26 min
  Bonjour Olivier,
  merci pour ces recommandations, je viens d’acheter le livre de M.Terrazza !
  Répondre
alahiane dit :
30 mai 2021 à 10 h 49 min
datebreaks ?????
Répondre
Agbokou komlan Norbert dit :
3 novembre 2021 à 17 h 53 min
Merci pour ce blog.
J’ai juste une question qui n’a pas lien avec ce cours.. Je veux que vous me conseillez un document pour faire l’analyse textuelle avec R
Merci bien
Répondre
1. Claire Della Vedova dit :
  8 novembre 2021 à 18 h 53 min
  Bonjour,
  je vous conseille l’ouvrage « Tex mining with R, consultable en ligne : https://www.tidytextmining.com/
  Sinon, en français, je connais le livre « analyse textuelle avec R », mais je ne l’ai pas lu :
  https://www.amazon.fr/s?k=analyse+textuelle+avec+R&__mk_fr_FR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&crid=WGB28P8BVJVT&sprefix=analyses+text%2Caps%2C168&ref=nb_sb_noss
  J’espère que cela vous aide.
  Bonne continuation.
  Répondre
DianaR dit :
4 avril 2024 à 20 h 09 min
Bonjour Claire,
Merci pour ce blog qui est vraiment enrichissant. Je rebondis sur la très courte question de alahiane : Est-ce que tu crois qu’il serait possible de mettre à jour cette page « Introduction aux séries temporelles » du blog avec l’illustration de ton code pour la partie « J’ai amélioré les étiquettes de temps : » ? (au niveau du cas pratique sur les hospitalisations Covid19 en 2020/2021)
Vu ton graphique après amélioration ici (une marque sur l’axe x par mois) et tes explications sur datebreaks sur la page « Comment représenter une série temporelle avec ggplot2 » : datebreaks <- seq(as.Date("2015-08-01"), as.Date("2015-11-19"), by="1 week"). J'imagine qu'ici tu as fait quelque chose du style : datebreaks <- seq(as.Date("…"), as.Date("…"), by="1 month") ?
Si cela peut marcher d'affiner l'échelle de temps à partir d'un fichier en horodate comme un que tu présentes sur le blog (AtchisonUV_20150801_to_20151119.csv) et pour tirer profit de la partie hh:mm:ss de l'horodate, que mettrais-tu dans l'argument by pour découper l'axe des x en heure ? quart d'heure ? minute ?
Merci à toi
P.S. : cela correspond à quoi quand tu mets '%%' en fin de commande s'il te plaît ?
Répondre

Introduction aux séries temporelles

Table des matières

Séries temporelles : éléments théoriques

Définition d'une série temporelle

Formalisme et notation

Caractéristiques des séries temporelles

Auto-corrélation

Composantes d'une série temporelle

Intérêt des séries temporelles

Prévisions simples

Approche de la moyenne

Approche naïve

Approche naïve saisonnière

Approche naïve avec dérive

Visualisations des prévisions

Evaluation des prévisions

Séries temporelles : mise en pratique

Chargement des données

Visualisations

Globales

Par jour

Passage en format time series

Représentations graphiques spécifiques aux séries temporelles

Prévisions simples sur 7 jours

Conclusion

Poursuivez votre lecture

6 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)