8 fonctions pour la manipulation

#install.packages("tidyverse") library(tidyverse) area<- iris %>% filter(Species=="setosa") %>% mutate(area=Sepal.Length*Sepal.Width) %>% pull(area) is.vector(area) str(area) ## num [1:50] 17.8 14.7 15 14.3 18 ... is.vector(area) ## [1] TRUE

area <- iris %>% filter(Species=="setosa") %>% mutate(area=Sepal.Length*Sepal.Width) %>% select(area) str(area) ## 'data.frame': 50 obs. of 1 variable: ## $ area: num 17.8 14.7 15 14.3 18 ...

area_top5 <- iris %>% filter(Species=="setosa") %>% mutate(area=Sepal.Length*Sepal.Width) %>% arrange(desc(area)) %>% slice(1:5) area_top5 ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species area ## 1 5.7 4.4 1.5 0.4 setosa 25.08 ## 2 5.8 4.0 1.2 0.2 setosa 23.20 ## 3 5.5 4.2 1.4 0.2 setosa 23.10 ## 4 5.7 3.8 1.7 0.3 setosa 21.66 ## 5 5.2 4.1 1.5 0.1 setosa 21.32

iris %>% slice(c(1,50, 100)) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5 1.4 0.2 setosa ## 2 5.0 3.3 1.4 0.2 setosa ## 3 5.7 2.8 4.1 1.3 versicolor

iris %>% slice_sample(n=5, replace=FALSE) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.4 3.0 4.5 1.5 versicolor ## 2 4.4 2.9 1.4 0.2 setosa ## 3 6.8 2.8 4.8 1.4 versicolor ## 4 7.7 3.8 6.7 2.2 virginica ## 5 4.4 3.2 1.3 0.2 setosa

iris2 <-iris %>% relocate(Species, everything()) head(iris2) ## Species Sepal.Length Sepal.Width Petal.Length Petal.Width ## 1 setosa 5.1 3.5 1.4 0.2 ## 2 setosa 4.9 3.0 1.4 0.2 ## 3 setosa 4.7 3.2 1.3 0.2 ## 4 setosa 4.6 3.1 1.5 0.2 ## 5 setosa 5.0 3.6 1.4 0.2 ## 6 setosa 5.4 3.9 1.7 0.4

iris3 <-iris %>% relocate(Species, .after=Sepal.Width) head(iris3) ## Sepal.Length Sepal.Width Species Petal.Length Petal.Width ## 1 5.1 3.5 setosa 1.4 0.2 ## 2 4.9 3.0 setosa 1.4 0.2 ## 3 4.7 3.2 setosa 1.3 0.2 ## 4 4.6 3.1 setosa 1.5 0.2 ## 5 5.0 3.6 setosa 1.4 0.2 ## 6 5.4 3.9 setosa 1.7 0.4

library(funModeling) heart_disease %>% group_by(has_heart_disease, gender) %>% count() ## # A tibble: 4 x 3 ## # Groups: has_heart_disease, gender [4] ## has_heart_disease gender n ## <fct> <fct> <int> ## 1 no female 72 ## 2 no male 92 ## 3 yes female 25 ## 4 yes male 114

median(iris$Petal.Length) ## [1] 4.35 iris <- iris %>% mutate(grp=ifelse(Petal.Length<=4.35, "low", "high")) # on vérifie iris %>% slice_sample(n=10, replace=FALSE) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species grp ## 1 5.1 3.4 1.5 0.2 setosa low ## 2 4.9 2.5 4.5 1.7 virginica high ## 3 6.0 2.2 4.0 1.0 versicolor low ## 4 5.0 3.2 1.2 0.2 setosa low ## 5 6.7 3.0 5.2 2.3 virginica high ## 6 5.0 3.0 1.6 0.2 setosa low ## 7 7.4 2.8 6.1 1.9 virginica high ## 8 6.5 3.2 5.1 2.0 virginica high ## 9 6.8 2.8 4.8 1.4 versicolor high ## 10 7.6 3.0 6.6 2.1 virginica high

iris <- iris %>% mutate(grp=ifelse(Petal.Length<=4.35, "low", ifelse(Petal.Length<=5.1, "med", "high"))) # on vérifie iris %>% slice_sample(n=10, replace=FALSE) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species grp ## 1 6.5 3.0 5.5 1.8 virginica high ## 2 5.1 3.5 1.4 0.2 setosa low ## 3 4.6 3.2 1.4 0.2 setosa low ## 4 6.7 3.1 4.7 1.5 versicolor med ## 5 5.2 4.1 1.5 0.1 setosa low ## 6 6.1 3.0 4.9 1.8 virginica med ## 7 5.0 2.0 3.5 1.0 versicolor low ## 8 5.1 3.8 1.6 0.2 setosa low ## 9 6.1 2.8 4.7 1.2 versicolor med ## 10 5.1 3.8 1.5 0.3 setosa low

# création du sous groupe de données seto_virgi <- iris %>% filter(Species %in% c("setosa", "virginica")) # consultation des niveaux de la variable Species levels ## [1] "setosa" "versicolor" "virginica" # on retire les niveaux absents seto_virgi$Species <- droplevels(seto_virgi$Species) # verification levels(seto_virgi$Species) ## [1] "setosa" "virginica"

seto_versi <- iris %>% filter(Species %in% c("setosa", "virginica")) %>% mutate(Species = fct_drop(Species)) # verification levels(seto_versi$Species) ## [1] "setosa" "virginica"

iris5 <- iris %>% mutate(Species=recode(Species, setosa="set", virginica="virgi", versicolor="versi")) levels(iris5$Species) ## [1] "set" "versi" "virgi"

library(UsingR) names(hall.fame) ## [1] "first" "last" ## [3] "seasons" "games" ## [5] "AB" "runs" ## [7] "hits" "doubles" ## [9] "triples" "HR" ## [11] "RBI" "BB" ## [13] "SO" "BA" ## [15] "OBP" "SP" ## [17] "AP" "BR" ## [19] "ABRuns" "Runs.Created" ## [21] "SB" "CS" ## [23] "Stolen.Base.Runs" "Fielding.Average" ## [25] "Fielding.Runs" "Primary.Position.Played" ## [27] "Total.Player.Rating" "Hall.Fame.Membership"

names(hall.fame) <- str_to_lower(names(hall.fame)) # verification names(hall.fame) ## [1] "first" "last" ## [3] "seasons" "games" ## [5] "ab" "runs" ## [7] "hits" "doubles" ## [9] "triples" "hr" ## [11] "rbi" "bb" ## [13] "so" "ba" ## [15] "obp" "sp" ## [17] "ap" "br" ## [19] "abruns" "runs.created" ## [21] "sb" "cs" ## [23] "stolen.base.runs" "fielding.average" ## [25] "fielding.runs" "primary.position.played" ## [27] "total.player.rating" "hall.fame.membership"

names(hall.fame) <- str_to_title(names(hall.fame)) # verification names(hall.fame) ## [1] "First" "Last" ## [3] "Seasons" "Games" ## [5] "Ab" "Runs" ## [7] "Hits" "Doubles" ## [9] "Triples" "Hr" ## [11] "Rbi" "Bb" ## [13] "So" "Ba" ## [15] "Obp" "Sp" ## [17] "Ap" "Br" ## [19] "Abruns" "Runs.created" ## [21] "Sb" "Cs" ## [23] "Stolen.base.runs" "Fielding.average" ## [25] "Fielding.runs" "Primary.position.played" ## [27] "Total.player.rating" "Hall.fame.membership"

13 réponses

xavier dit :
3 septembre 2020 à 8 h 39 min
bonjour,
merci pour vos articles toujours intéressants et agréable à lire
une fonction que je trouve bien pratique est clean_names() du package janitor qui permet d’hamoniser facilement les noms de colonnes ( par ex en supprimant les accents , les espaces..) lors d’import de fichier de données
ex:
library (janitor)
df % clean_names(« snake »)
df
A tibble: 1 x 1
elongation_du_parametre
1 1
il existe d’autres valeurs de paramètre autre que « snake » il suffit de regarder l’aide
bonne journée
Répondre
1. Claire Della Vedova dit :
  5 septembre 2020 à 22 h 53 min
  Bonjour Xavier,
  je ne connaissais pas du tout cette fonction, merci pour ce partage !
  Répondre
MRP dit :
3 septembre 2020 à 9 h 06 min
Merci pour ces astuces !
Pour ma part, j’ai découvert il n’y a pas si longtemps les packages questionr et esquisse … Je les partage toujours aux stagiaires et aux collègues qui ne sont pas des grands adeptes de R et c’est le succès à tous les coups 🙂
Répondre
1. Claire Della Vedova dit :
  5 septembre 2020 à 22 h 51 min
  Bonjour,
  Moi aussi j’ai découvert questionnr il y a peu, et c’est vrai qu’il est utile. J’en ferai peut être un sujet d’article…
  Bonne continuation
  Répondre
BONNEFOY dit :
3 septembre 2020 à 9 h 45 min
Genial
Peut etre juste expliquer mutate
Répondre
1. Claire Della Vedova dit :
  5 septembre 2020 à 22 h 50 min
  Bonjour Christelle,
  Merci pour votre suggestion.
  Alors pour la fonction mutate() , je renvoie à la partie 5 de cet article : https://statistique-et-logiciel-r.com/initiation-a-la-manipulation-de-donnees-avec-le-package-dplyr/
  Répondre
Sébastien Buczinski dit :
3 septembre 2020 à 12 h 32 min
Bonjour, merci pour ces infos super pratiques. J’avoue que je n’utilise pas les fonctions slice() et relocate(). J’aime beaucoup la fonction case_when() pour recoder des variables en facteurs car je la trouve plus facile à expliciter que des multiples if_else lorsque j’ai plusieurs catégories.
Super info pour les fonctions de stringr auxquelles je pense trop peu.
Toujours pratico-pratique ces conseils sont supers!
Répondre
rib dit :
3 septembre 2020 à 21 h 18 min
BRAVO, c’est limpide, et tellement utile ! On peut ressortir les fiches le jour où on utilise R, car c’est une des difficultés de l’utilisateur lambda : R est nécessaire pour traiter une question,puis on peut ne pas l’utiliser pendant des semaines. Savoir qu’il existe cette reference est d’une grande aide
Répondre
escaon dit :
4 septembre 2020 à 9 h 41 min
Merci pour cet article ! (et ce blog d’une manière générale)
Je me permets de suggérer 2 variantes :
5 : dplyr::case_when
iris %<>% mutate(grp = case_when(Petal.Length <= 4.35 ~ « low »,
Petal.Length > 5.1 ~ « high »,
TRUE ~ « med »))
6 : Je trouve que c’est encore plus lisible en utilisant le %<>% de magrittr
seto_virgi$Species %<>% droplevels()
Répondre
1. Claire Della Vedova dit :
  5 septembre 2020 à 22 h 46 min
  Merci !
  Répondre
menthalo dit :
8 mars 2021 à 15 h 18 min
Merci, super article qui donne envie de se convertir au tidyverse.
Juste : au § La fonction if_else(), est-ce la fonction if_else() du package dyplr qui est utilisée
ou bien la classique ifelse() du package base ?
Merci
E.
Répondre
1. Claire Della Vedova dit :
  6 mars 2022 à 14 h 59 min
  C’était un erreur, j’utilise la fonction ifesle() et pas if_else(), bien qu’elle puisse aussi être utilisée 😉
  Répondre
Ping : Nettoyer les données sous R : 7 situations courantes - DellaData

8 fonctions pour la manipulation

Table des matières

La fonction pull()

La fonction slice()

La fonction relocate()

La fonction count()

La fonction ifelse()

La fonction droplevels()

La fonction recode()

Les fonctions str_to_lower(), str_to_upper et str_to_tile

Conclusion

13 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)