Analyses exploratoires avec le package DataExplorer

introduce(heart_disease) ## rows columns discrete_columns continuous_columns all_missing_columns ## 1 303 16 7 9 0 ## total_missing_values complete_rows total_observations memory_usage ## 1 6 297 4848 28800

class(HD$resting_blood_pressure) #integer ## [1] "integer" class(HD$serum_cholestoral) #integer ## [1] "integer" # avec plusieurs variables, en utilisant les noms HD <- update_columns(HD, c("resting_blood_pressure","serum_cholestoral"), as.numeric) class(HD$resting_blood_pressure) #numeric ## [1] "numeric" class(HD$serum_cholestoral) #numeric ## [1] "numeric"

str(HD[,2:5]) ## 'data.frame': 303 obs. of 4 variables: ## $ gender : Factor w/ 2 levels "female","male": 2 2 2 2 1 2 1 1 2 2 ... ## $ chest_pain : Factor w/ 4 levels "1","2","3","4": 1 4 4 3 2 2 4 4 4 4 ... ## $ resting_blood_pressure: num 145 160 120 130 130 120 140 120 130 140 ... ## $ serum_cholestoral : num 233 286 229 250 204 236 268 354 254 203 ... HD <- update_columns(heart_disease, 2:5, as.character) str(HD[,2:5]) ## 'data.frame': 303 obs. of 4 variables: ## $ gender : chr "male" "male" "male" "male" ... ## $ chest_pain : chr "1" "4" "4" "3" ... ## $ resting_blood_pressure: chr "145" "160" "120" "130" ... ## $ serum_cholestoral : chr "233" "286" "229" "250" ...

profile_missing(heart_disease) ## feature num_missing pct_missing ## 1 age 0 0.00000000 ## 2 gender 0 0.00000000 ## 3 chest_pain 0 0.00000000 ## 4 resting_blood_pressure 0 0.00000000 ## 5 serum_cholestoral 0 0.00000000 ## 6 fasting_blood_sugar 0 0.00000000 ## 7 resting_electro 0 0.00000000 ## 8 max_heart_rate 0 0.00000000 ## 9 exer_angina 0 0.00000000 ## 10 oldpeak 0 0.00000000 ## 11 slope 0 0.00000000 ## 12 num_vessels_flour 4 0.01320132 ## 13 thal 2 0.00660066 ## 14 heart_disease_severity 0 0.00000000 ## 15 exter_angina 0 0.00000000 ## 16 has_heart_disease 0 0.00000000

library(tidyverse) # subset avec 3 variables catégorielle HD_simple <- heart_disease %>% select(gender, chest_pain, has_heart_disease) str(HD_simple) ## 'data.frame': 303 obs. of 3 variables: ## $ gender : Factor w/ 2 levels "female","male": 2 2 2 2 1 2 1 1 2 2 ... ## $ chest_pain : Factor w/ 4 levels "1","2","3","4": 1 4 4 3 2 2 4 4 4 4 ... ## $ has_heart_disease: Factor w/ 2 levels "no","yes": 1 2 2 1 1 1 2 1 2 2 ... HD_simple2 <- dummify(HD_simple) str(HD_simple2) ## 'data.frame': 303 obs. of 8 variables: ## $ gender_female : int 0 0 0 0 1 0 1 1 0 0 ... ## $ gender_male : int 1 1 1 1 0 1 0 0 1 1 ... ## $ chest_pain_1 : int 1 0 0 0 0 0 0 0 0 0 ... ## $ chest_pain_2 : int 0 0 0 0 1 1 0 0 0 0 ... ## $ chest_pain_3 : int 0 0 0 1 0 0 0 0 0 0 ... ## $ chest_pain_4 : int 0 1 1 0 0 0 1 1 1 1 ... ## $ has_heart_disease_no : int 1 0 0 1 1 1 0 1 0 0 ... ## $ has_heart_disease_yes: int 0 1 1 0 0 0 1 0 1 1 ... ## - attr(*, ".internal.selfref")=<externalptr>

configure_report( add_introduce = TRUE, add_plot_intro = TRUE, add_plot_str = TRUE, add_plot_missing = TRUE, add_plot_histogram = TRUE, add_plot_density = FALSE, add_plot_qq = TRUE, add_plot_bar = TRUE, add_plot_correlation = TRUE, add_plot_prcomp = TRUE, add_plot_boxplot = TRUE, add_plot_scatterplot = TRUE, introduce_args = list(), plot_intro_args = list(), plot_str_args = list(type = "diagonal", fontSize = 35, width = 1000, margin = list(left = 350, right = 250)), plot_missing_args = list(), plot_histogram_args = list(), plot_density_args = list(), plot_qq_args = list(sampled_rows = 1000L), plot_bar_args = list(), plot_correlation_args = list(cor_args = list(use = "pairwise.complete.obs")), plot_prcomp_args = list(), plot_boxplot_args = list(), plot_scatterplot_args = list(sampled_rows = 1000L), global_ggtheme = quote(theme_gray()), global_theme_config = list() )

29 réponses

Abdoul Madjerembé dit :
25 janvier 2022 à 7 h 46 min
Bonjour, j’espère que vous allez bien ? Est-il possible d’obtenir les graphes en français ?
Répondre
1. Claire Della Vedova dit :
  25 janvier 2022 à 15 h 07 min
  Bonjour, je ne pense pas, mais je n’ai pas essayé…
  Répondre
Gayraud dit :
25 janvier 2022 à 7 h 54 min
Bonjour !
Merci pour cet article très clair ( comme d’habitude 🙂 ) sur ce package que je ne connaissais pas.
Votre proposition d’approfondir sur les analyses exploratoires est intéressante !
Bonne journée !
Répondre
khadra dit :
25 janvier 2022 à 9 h 20 min
très intéressant , merci
Répondre
M. Emmanuelle dit :
25 janvier 2022 à 11 h 45 min
Merci beaucoup pour ce partage! Votre blog est toujours une mine d’informations précieuses.
L’idée d’une compilation des packages dediés à l’exploration des données est top. J’attends cet article avec impatience
Répondre
Louis dit :
25 janvier 2022 à 11 h 48 min
Hello bonjour,
Personnellement je commence en Data analyse et je dois admettre avoir un penchant pour R. Cet article est très intéressant et je vous en remercie. Effectivement je vais tenter d’utiliser ce package dans un projet de ma formation pour essayer de mettre en évidence des corrélations.
Grand Merci dans tous les cas car ce fut une belle surprise de voir ce mail d’info aujourd’hui ! C’est un peu Noël presque tous les jours avec Della data !
Bonne semaine !
L.
Répondre
zangui hamissou dit :
25 janvier 2022 à 11 h 52 min
Dear Della,
Cet article m’a beaucoup plus et vient de repondre à une de mes préoccupations surtout sur les corrélations avec les variables catégorielles et bien d’autres aussi. Merci beaucoup
Répondre
Moussa dit :
25 janvier 2022 à 11 h 59 min
Formidable et très pratique!Merci pour le partage.
Répondre
Michel dit :
26 janvier 2022 à 7 h 05 min
Merci Claire pour la découverte de ce package intéressant présenté en outre de façon claire ( 🙂 ) et efficace
Répondre
Yves dit :
26 janvier 2022 à 7 h 05 min
Bonjour,
Article intéressant.
Merci
Répondre
Yoann dit :
26 janvier 2022 à 11 h 19 min
Salut !
Merci pour cet excellent article et surtout pour ce package trèèèès intéressant. Je m’en vais l’essayer tout de suite !
En revanche, je n’ai pas bien compris la fonction plot_str()…. A quoi sert-elle exactement ?
Répondre
1. Claire Della Vedova dit :
  26 janvier 2022 à 15 h 04 min
  Elle fournit un plot avec une description de la structure des données. C’est l’équivalent de la fonction str, mais sous une forme graphique.
  Répondre
Sylvain dit :
26 janvier 2022 à 13 h 39 min
Super intéressant ! Et ça va m’être très pratique et me faciliter ce travail !
Merci Claire !
Répondre
Richard INGWE CHUY dit :
26 janvier 2022 à 17 h 25 min
Très interessant chère Della, continue à nous formés en ligne en exploitant d’autre package pour plus d’information.
Répondre
Paradoxalix dit :
26 janvier 2022 à 19 h 15 min
Très respectueusement , je vous fournis les arguments principaux qui me font critiquer très négativement l’outil proposé dans le cadre où vous le présentez
.
1) Notre cerveau est ainsi conçu qu’il recherche la facilité , ce qui est utile pour un mammifère en milieu hostile mais pas dans la recherche;
la conséquence en est qu’il se laisse fasciner par la première forme qu’il reconnaît dans son catalogue d’expériences : il va développer une cécité spécifique à tout autre signe qui mettrait en péril la valeur de cette forme identifiée.
Ne perdons pas de vue le stress lié à toute recherche qui en rajoute une couche.
2) Le paradigme de toutes les recherches du XXI ème siècle est essentiellement basé sur la complexité , et nous savons que l’identification d’une “Solution magique ???” amènerait immédiatement à une simplification catastrophique des raisonnements et surtout de nos représentations.
3) Le plus mauvais moment pour le parasitage de la démarche est vraiment au début de la recherche ; en effet c’est le moment pour douter de tout et de ses “contraires” : c’est le moment de s’ouvrir à la réalité et de s’interdire toute conclusion hâtive , c’est le moment du rêve éveillé.
4) Le calcul n’est jamais qu’un calcul , quelle que soit l’élégance de sa ou ses forme(s) c’est le chercheur qui doit s’il le peut lui donner un sens …
J’ose : ” Science sans conscience , n’est que ruine de l’âme ( Vous savez qui) ”
Par contre : je recommande l’usage de ce genre d’outils une fois le modèle bien établi pour examiner : soit à quels pièges vous avez échappé soit que vous êtes passé à côté de la question et qu’il tout recommencer …
Très cordialement.
Paradoxalix
Répondre
Koua TANOH dit :
31 janvier 2022 à 11 h 13 min
<> est un projet dont la realisation va me faire du bien !
Merci d’avance.
Répondre
ADJOBI CLAVER dit :
1 février 2022 à 15 h 12 min
Merci beaucoup cher Della. Je crois que je suis satisfait. Thank you very much for this documents.
Best regards.
Adjobi Claver.
Répondre
Lisa dit :
1 février 2022 à 21 h 28 min
Absolument Genial!!!! Merci infiniment …quoiqu’en pense Paradoxalix
Répondre
Outaka dit :
3 février 2022 à 11 h 08 min
Waouh, très génial le package. Merci infiniment pour ce sens de partage.
Bonne continuation
Répondre
Jutolk dit :
9 février 2022 à 17 h 51 min
Très émerveillé Claire ! Merci à toi
Répondre
Nathalie dit :
10 février 2022 à 8 h 44 min
Merci beaucoup!!!!!
Répondre
ZELANE dit :
14 février 2022 à 23 h 23 min
Bonjour Della très gentile de votre par cet article me fera beaucoup de bien dans mais prochaines analyses.
j’aimerais vous demander si cela est possible bien d’avoir un article qui traite de l’apurement des données?
Très cordialement à vous
Répondre
Degabriel dit :
9 mars 2022 à 13 h 36 min
Une très belle découverte. Au contraire de ce que certains peuvent en dire, je ne pense pas que cet outil soit un prétexte à l’absence de calcul réalisé par nos soins ou l’absence de réflexion préalable à notre jeu de données, mais c’est surtout un moyen d’aider des personnes pour lesquelles les commandes dans R restent encore un peu obscures. Nous pouvons très bien comprendre ce que chaque graphique automatiquement généré illustre et vérifier par nous-même ensuite de potentielles erreurs par rapport à nos résultats, mais c’est une réelle aide pour sonder un jeu de données rapidement et sans frustration de se tromper dans les codes de R.
Merci pour vos articles, de précieuses pépites dans le cadre de mes analyses en écologie. 🙂
Répondre
KAMBOU dit :
11 mars 2022 à 11 h 22 min
Bonjour Della,
Votre article est très riche. Grand merci à vous.
Est-ce possible de réaliser un article qui porte sur l’apurement des données?
Merci bien
Répondre
1. Claire Della Vedova dit :
  13 mars 2022 à 18 h 40 min
  Bonjour,
  ce n’est pas dans ma liste actuellement, car c’est un sujet que je ne connais pas très bien.
  Répondre
Loris dit :
11 avril 2022 à 12 h 55 min
Super merci beaucoup pour la découverte
Répondre
Elisabeth dit :
3 août 2022 à 14 h 10 min
Très intéressant, merci!
Répondre
SOMA Alassane dit :
8 août 2022 à 20 h 06 min
très ravis.
en un mot, MERCI
Répondre
Omar MARIGO dit :
15 août 2022 à 16 h 10 min
merci Claire, c’est trés interessant
Répondre

DellaData

Transformez vos données en connaissances

Analyses exploratoires avec le package DataExplorer

Table des matières

C’est quoi les analyses exploratoires ?

Le package DataExplorer

Analyses exploratoires de la structure des données

La fonction introduce()

La fonction plot_intro()

La fonction plot_str()

Modification des class

Analyses exploratoires des données manquantes

La fonction plot_missing()

La fonction profiling_missing()

Analyses exploratoires la distribution des variables

Variables qualitatives

variables quantitatives

Exploration des relations entre les variables

Analyses exploratoires des corrélations

La fonction plot_correlation

La fonction plot_prcomp()

Laisons entre une variable qualitative et les variables quantitatives

Liaisons entre une variable quantitative spécifique et les autres variables quantitatives.

Création de dummy variables

Rapport automatisé des analyses exploratoires

Conclusion

Poursuivez votre lecture

29 réponses

Laisser un commentaire Annuler la réponse

Bonjour !

vous venez souvent ?

Aide mémoire off'R ;)