Nettoyer les données sous R : 7 situations courantes

str(dd) ## 'data.frame': 10 obs. of 9 variables: ## $ NOM_Prenom : Factor w/ 10 levels "Adjani_isabelle",..: 8 10 9 4 1 2 7 6 3 5 ## $ Code.POStal : int 4100 37610 45960 25000 6000 38000 84320 13290 5000 77560 ## $ Age : int 63 67 67 37 41 56 62 57 63 53 ## $ GENDER : Factor w/ 7 levels " male","female",..: 6 7 5 1 2 5 3 4 5 5 ## $ chest_pain : int 1 4 4 3 2 2 4 4 4 4 ## $ Resting_blood_PRESSURE: int 145 160 120 130 130 120 140 120 130 140 ## $ Serum.cholestoral : Factor w/ 10 levels "203","204","229",..: 4 10 3 6 2 5 8 9 7 1 ## $ MAX.HEART.RATE : int 150 108 129 187 172 178 160 163 147 155 ## $ disease : Factor w/ 2 levels "no","yes": 1 2 2 1 1 1 2 1 2 2

#install.packages("janitor") library(janitor) ## Warning: package 'janitor' was built under R version 4.0.5 dd2 <- dd # creation d'une copie de dd dd2<- clean_names(dd2) str(dd2) ## 'data.frame': 10 obs. of 9 variables: ## $ nom_prenom : Factor w/ 10 levels "Adjani_isabelle",..: 8 10 9 4 1 2 7 6 3 5 ## $ code_po_stal : int 4100 37610 45960 25000 6000 38000 84320 13290 5000 77560 ## $ age : int 63 67 67 37 41 56 62 57 63 53 ## $ gender : Factor w/ 7 levels " male","female",..: 6 7 5 1 2 5 3 4 5 5 ## $ chest_pain : int 1 4 4 3 2 2 4 4 4 4 ## $ resting_blood_pressure: int 145 160 120 130 130 120 140 120 130 140 ## $ serum_cholestoral : Factor w/ 10 levels "203","204","229",..: 4 10 3 6 2 5 8 9 7 1 ## $ max_heart_rate : int 150 108 129 187 172 178 160 163 147 155 ## $ disease : Factor w/ 2 levels "no","yes": 1 2 2 1 1 1 2 1 2 2

library(tidyverse) dd2 <- dd2 %>% rename(code_postal=code_po_stal) names(dd2) ## [1] "nom_prenom" "code_postal" "age" ## [4] "gender" "chest_pain" "resting_blood_pressure" ## [7] "serum_cholestoral" "max_heart_rate" "disease"

dd3 <- dd2 # Tout en majuscule names(dd3) <- str_to_upper(names(dd2)) names(dd3) ## [1] "NOM_PRENOM" "CODE_POSTAL" "AGE" ## [4] "GENDER" "CHEST_PAIN" "RESTING_BLOOD_PRESSURE" ## [7] "SERUM_CHOLESTORAL" "MAX_HEART_RATE" "DISEASE" # Tout en minuscule names(dd3) <- str_to_lower(names(dd3)) names(dd3) ## [1] "nom_prenom" "code_postal" "age" ## [4] "gender" "chest_pain" "resting_blood_pressure" ## [7] "serum_cholestoral" "max_heart_rate" "disease" # Avec une première majuscule names(dd3) <- str_to_title(names(dd3)) names(dd3) ## [1] "Nom_prenom" "Code_postal" "Age" ## [4] "Gender" "Chest_pain" "Resting_blood_pressure" ## [7] "Serum_cholestoral" "Max_heart_rate" "Disease"

dd3 <- dd2 dd3$gender <- str_to_lower(dd3$gender) dd3$gender ## [1] "male" "male " "male" " male" "female" "male" "female" ## [8] "female " "male" "male" dd3$gender <- str_trim(dd3$gender, side="both") dd3$gender ## [1] "male" "male" "male" "male" "female" "male" "female" "female" ## [9] "male" "male" dd3$gender <- as.factor(dd3$gender) levels(dd3$gender) ## [1] "female" "male"

dd3$code_postal ## [1] 4100 37610 45960 25000 6000 38000 84320 13290 5000 77560 dd3$code_postal <- str_pad(dd3$code_postal, 5, "left", "0") dd3$code_postal ## [1] "04100" "37610" "45960" "25000" "06000" "38000" "84320" "13290" "05000" ## [10] "77560" class(dd3$code_postal) ## [1] "character"

dd3 <- dd3 %>% separate(nom_prenom,c("nom", "prenom"), sep="_") dd3 ## nom prenom code_postal age gender chest_pain resting_blood_pressure ## 1 Verdi Giuseppe 04100 63 male 1 145 ## 2 WAGNER Richard 37610 67 male 4 160 ## 3 Vivaldi ANTONIO 45960 67 male 4 120 ## 4 BIZET GEORGES 25000 37 male 3 130 ## 5 Adjani isabelle 06000 41 female 2 130 ## 6 Aznavour CHARLES 38000 56 male 2 120 ## 7 LUCIANI clara 84320 62 female 4 140 ## 8 gall france 13290 57 female 4 120 ## 9 Biolay benjamin 05000 63 male 4 130 ## 10 CABREL Francis 77560 53 male 4 140 ## serum_cholestoral max_heart_rate disease ## 1 233 150 no ## 2 non renseigne 108 yes ## 3 229 129 yes ## 4 250 187 no ## 5 204 172 no ## 6 236 178 no ## 7 268 160 yes ## 8 354 163 no ## 9 254 147 yes ## 10 203 155 yes

dd3 <- dd3 %>% mutate(nom=str_to_title(nom), prenom=str_to_title(prenom)) dd3 ## nom prenom code_postal age gender chest_pain resting_blood_pressure ## 1 Verdi Giuseppe 04100 63 male 1 145 ## 2 Wagner Richard 37610 67 male 4 160 ## 3 Vivaldi Antonio 45960 67 male 4 120 ## 4 Bizet Georges 25000 37 male 3 130 ## 5 Adjani Isabelle 06000 41 female 2 130 ## 6 Aznavour Charles 38000 56 male 2 120 ## 7 Luciani Clara 84320 62 female 4 140 ## 8 Gall France 13290 57 female 4 120 ## 9 Biolay Benjamin 05000 63 male 4 130 ## 10 Cabrel Francis 77560 53 male 4 140 ## serum_cholestoral max_heart_rate disease ## 1 233 150 no ## 2 non renseigne 108 yes ## 3 229 129 yes ## 4 250 187 no ## 5 204 172 no ## 6 236 178 no ## 7 268 160 yes ## 8 354 163 no ## 9 254 147 yes ## 10 203 155 yes

names(dd) ## [1] "NOM_Prenom" "Code.POStal" "Age" ## [4] "GENDER" "chest_pain" "Resting_blood_PRESSURE" ## [7] "Serum.cholestoral" "MAX.HEART.RATE" "disease" names(dd2) ## [1] "nom_prenom" "code_postal" "age" ## [4] "gender" "chest_pain" "resting_blood_pressure" ## [7] "serum_cholestoral" "max_heart_rate" "disease"

dd4 <- dd3 names(dd3) <- str_replace(names(dd3),"_","." ) names(dd3) ## [1] "nom" "prenom" "code.postal" ## [4] "age" "gender" "chest.pain" ## [7] "resting.blood_pressure" "serum.cholestoral" "max.heart_rate" ## [10] "disease"

names(dd4) <- str_replace_all(names(dd4),"_","." ) names(dd4) ## [1] "nom" "prenom" "code.postal" ## [4] "age" "gender" "chest.pain" ## [7] "resting.blood.pressure" "serum.cholestoral" "max.heart.rate" ## [10] "disease"

dd4 <- dd2 dd4$serum_cholestoral <- str_replace(dd4$serum_cholestoral, "non renseigne", "NA") dd4$serum_cholestoral <- as.numeric(dd4$serum_cholestoral) ## Warning: NAs introduits lors de la conversion automatique str(dd4) ## 'data.frame': 10 obs. of 9 variables: ## $ nom_prenom : Factor w/ 10 levels "Adjani_isabelle",..: 8 10 9 4 1 2 7 6 3 5 ## $ code_postal : int 4100 37610 45960 25000 6000 38000 84320 13290 5000 77560 ## $ age : int 63 67 67 37 41 56 62 57 63 53 ## $ gender : Factor w/ 7 levels " male","female",..: 6 7 5 1 2 5 3 4 5 5 ## $ chest_pain : int 1 4 4 3 2 2 4 4 4 4 ## $ resting_blood_pressure: int 145 160 120 130 130 120 140 120 130 140 ## $ serum_cholestoral : num 233 NA 229 250 204 236 268 354 254 203 ## $ max_heart_rate : int 150 108 129 187 172 178 160 163 147 155 ## $ disease : Factor w/ 2 levels "no","yes": 1 2 2 1 1 1 2 1 2 2

library(xlsx2dfs) ## Loading required package: openxlsx alldata <- xlsx2dfs("data/wrong_date.xlsx", rowNames=FALSE, colNames=TRUE) wd <- alldata[[1]] str(wd) ## 'data.frame': 11 obs. of 3 variables: ## $ Date : num 44215 44215 44215 44215 44215 ... ## $ Patient: chr "ID_1" "ID_2" "ID_3" "ID_4" ... ## $ age : num 12 24 69 32 85 41 20 36 25 98 ... library(janitor) wd$Date <- excel_numeric_to_date(wd$Date) str(wd$Date) ## Date[1:11], format: "2021-01-19" "2021-01-19" "2021-01-19" "2021-01-19" "2021-01-19" ...

9 réponses

Bernard Trillat dit :
23 avril 2021 à 16 h 22 min
Bonjour Claire,
Abonné aux nouvelles de votre blog, j’en apprécie la clarté et l’approche. Cette nouvelle publication n’y fait pas défaut et je vous en remercie.
Je travaille à la préparation de jeux de données cliniques pour un hôpital. Ces données sont soit consommées directement pour des études médico-économiques, soit travaillées par des équipes de recherches disposant de techniques statistiques avancés. L’un des jeux de données concerne l’anesthésie. Il couvre les phase préparatoire (consultation d’anesthésie), l’anesthésie en elle même et la phase d’hospitalisation. Il comprend actuellement 100.000 enregistrements et 800 variables.
L’une des difficultés que nous rencontrons dans son élaboration porte sur sa validation. Par exemple, une même information peut être saisie plusieurs fois et se retrouver dans différentes variables, laquelle choisir ? Ou encore, une information est issue d’une collecte automatisée (équipement biomédical par exemple). Est elle fiable (à priori oui) ? La notion de fiabilité de la donnée, découlant du processus de collecte me parait intéressante, pour la validation des données et pour la robustesse de leur interprétation. Or la validation de suppose de décrire et de comprendre le processus métier produisant les données.
Une méthode décrivant les points à documenter, à vérifier, d’un point de vue métier, puis d’un point de vue statistique me serait utile. Les quelques références que j’ai trouvées portent uniquement sur des méthodes de validations statistiques (https://cran.r-project.org/web/packages/validate/vignettes/JSS_3483.pdf ou https://ec.europa.eu/eurostat/cros/system/files/methodology_for_data_validation_v1.0_rev-2016-06_final.pdf) mais je n’en ai pas vu portant sur la description du processus de collecte et son analyse pour estimer la fiabilité des données.
Si ce sujet vous intéressait, je serais très preneur de votre avis et recommandations.
Au plaisir de vous lire
Bernard Trillat
Répondre
1. Claire Della Vedova dit :
  27 avril 2021 à 8 h 04 min
  Bonjour Bernard,
  Je n’ai jamais été confronté à une telle quantité de données à valider ! Je n’ai donc pas de pistes à vous indiquer sur la validation “métier”.
  Le sujet est très intéressant, mais il est “immense”….
  En tout cas, merci pour le partage des références, je suis sûre qu’elles seront très utiles à d’autres.
  Est-ce que vous utilisez ce package “validate” ?
  Bonne continuation.
  Répondre
Claude Guérin dit :
24 avril 2021 à 18 h 15 min
Merci beaucoup.
Cordialement
Répondre
xavier faure dit :
29 avril 2021 à 16 h 49 min
juste pour le fun
dd %>% rename_with(str_to_lower) %>% clean_names()
bonne journée
Répondre
1. Claire Della Vedova dit :
  29 avril 2021 à 17 h 12 min
  Merci Xavier !
  Répondre
Aymeric Inpong dit :
16 mai 2021 à 11 h 20 min
“Super article qui aide beaucoup pour la pratique! Aymeric Inpong”
Répondre
IWA Narcisse dit :
28 septembre 2021 à 12 h 30 min
Bonjour
Je suis totalement ravi de votre présentation
Je souhaiterais que vous m’aidiez à apprendre comment le high frequency check dans Rstudio
Merci
Répondre
1. Claire Della Vedova dit :
  29 septembre 2021 à 9 h 31 min
  Bonjour,
  vous trouverez des informations ici : https://unhcr.github.io/HighFrequencyChecks/docs/index.html
  Bonne continuation
  Répondre
  1. Toussaint Adekambi dit :
    10 octobre 2022 à 1 h 10 min
    Super tuto
    Répondre

DellaData

Transformez vos données en connaissances

Nettoyer les données sous R : 7 situations courantes

Table des matières

Avant le nettoyage

Afficher les données

Etudiez la structure des données

Uniformiser le nom des variables

Nettoyer les modalités des variables catégorielles (levels)

Ajouter des 0 dans un code postal

Séparer une variable en deux variables

Remplacer des underscores par des points, ou inversement

Remplacer une valeur (numeric ou character) par NA

Transformer une date mal convertie par Excel

Conclusion

Pousruivez votre lecture

9 réponses

Laisser un commentaire Annuler la réponse

Bonjour !

vous venez souvent ?

Aide mémoire off'R ;)