Importer facilement vos données dans le logiciel R
Par exemple, l’importation de données peut se faire via l’onglet “Import Data set” de la fenêtre Environnement de RStudio (L’interface de R Studio), ou bien en utilisant des lignes de commandes. De même il est possible d’importer des données depuis un fichier txt, un fichier xls, un fichier xlsx ou encore d’un fichier csv provenant de différents tableaurs etc… Et pour un même format, il existe parfois plusieurs fonctions permettant cette importation. Enfin, il est très important que les données importées soient structurées selon un certain schéma. En effet, elles doivent correspondre à la structure utilisée par les fonctions qui seront employées pour mener les différents types d’analyses statistiques (descriptives, inférentielles, prédictives (https://delladata.fr/les-3-principaux-types-danalyses-statistiques/).
Dans ce post, je vais vous montrer comment importer facilement et efficacement vos données dans le logiciel R depuis le logiciel Excel. Pour cela, je vais :1. vous expliquer comment organiser votre espace de travail en utilisant la fonctionnalité “Project”2. vous exposer comment structurer vos données au format tidy avant l’importation3. vous faire quelque recommandations4. vous présenter la fonction “read.csv2” permettant de faire l’importation5. et enfin vous montrer comme visualiser les données importées1. Organisez votre espace de travail sous la forme d’un projet R
R studio dispose d’une fonctionnalité “Projet” qui permet d’encapsuler votre travail pour tout ce qui concerne R et R Studio. C’est un peu comme un système de dossiers mais spécifique à R. C’est un peu comme si au lieu d’avoir un seul R et RStudio, vous en aviez plusieurs, un pour chaque dossier de travail.
A chaque projet R est associée un working directory (répertoire de travail) localisé au même endroit que le projet. C’est dans ce working directory que seront stockés, par défaut, tout ce que vous exporterez (graph, données, etc..). De même, lorsque vous voudrez importer des données, R ira, par défau,t les chercher dans ce répertoire. Cela est vraiment pratique.
En plus du working directory, un workspace est associé au projet R. Il s’agit de tous les objets (données, tableau , constante etc…) que vous allez créer lors de vos analyses. L’ensemble ds éléments composant le workspace sont visibles dans la fenêtre “Environnement”.
Le workspace est sauvegardé lorsque vous quittez R Studio (en choisissant “Quit Session” du menu “File”, ou bien en cliquant sur la croix en haut à droite de l’application) ; en choisissant l’option “save” de la fenêtre de dialogue .La commande save.image peut également être utilisée.
En plus du working directory et du workspace, un fichier contenant l’historique des commandes est également créé avec le projet R.
De mon point de vu, la façon la plus simple de créer un projet R quand on débute est de le faire après la création du dossier auquel vous voulez l’associé. Imaginons que vous voulez créer un Projet R associé à un dossier “Grenoble_Alpes” lui même contenu dans le dossier “CHU” de “Mes Documents” sur votre ordinateur. Pour cela, vous allez commencer par créer ce dossier “Grenoble_Alpes” dans le dossier “CHU” du répertoire “Documents” de votre PC.
Vous allez ensuite ouvrir R Studio (à partir du menu des applications de windows), et dans le menu File (de R Studio), vous allez choisir “New_Project”.
Une fenêtre de dialogue s’ouvre alors pour demander si vous voulez sauver le workspace. Si vous venez d’ouvrir R studio cela n’a pas sens, mais si vous venez de travailler choisissez “save”.
Une nouvelle fenêtre s’ouvre alors avec 3 possibilités, choisissez “Existing Directory”
Et indiquez l’emplacement du dossier auquel vous voulez rattaché le projet R, puis cliquez sur “Create Project”.
Voilà, le projet R associé à votre dossier “Grenoble_Alpes” est créé.
2. Structurez vos données au format tidy avant l’importation
Les données importées doivent être structurées d’une certaine façon pour pouvoir, ensuite, être utilisées dans les différentes fonctions de R.
Cette structure peut être résumée par deux grands principes :
1. Chaque variable mesurée doit correspondre à seule colonne.
2. Si plusieurs observations ont été faites pour une variable donnée, ces observations doivent être sur des lignes différentes.
Voici un exemple pour clarifier les idées. Imaginons que nous ayons mesuré la créatinine et la glycémie de 50 patients à deux temps différents (au cours de la première et de la 3ème semaine de septembre par exemple).
Dans une première approche, les données pourraient être reportées dans un tableau sous cette forme :
Ce format ne correspond pas aux critères énoncés. En effet, ici chaque variable mesurée (créatinine et glycémie) n’est pas contenue dans une seule colonne mais dans deux. De ce fait, le deuxième critère n’est pas respecté non plus puisque les deux mesures d’une même variable (la mesure de la glycémie de la première semaine et la mesure de la glycémie la deuxième semaine), ne sont pas sur des lignes différentes, mais sur une même ligne.
Les données pourraient également avoir été reportées sous la forme transposée du premier tableau, mais cela ne correspond pas non plus aux critères énoncés.
La forme correspondant aux critères énoncés est la suivante :
Ici, chaque constante sanguine ne correspond qu’à une seule colonne ; cela a nécessité la création d’une colonne “temps”. Et chaque mesure d’une constante sanguine donnée, pour un patient donné, est reportée dans une ligne différente. Ce format est appelé tidy data (données rangés). Les grands principes ce format “tidy” ont été défini par Hadley Wickham.
3. Quelques recommandations
Pour correctement importer vos données depuis Excel dans le logciciel R, il est indispensable de bien respecter le format du séparateur décimal défini dans Excel. A priori, en France, par défaut, le séparateur décimal défini par Excel est la virgule. Pour le vérifier vous pouvez aller dans le menu Fichier, puis Options (tout en bas) puis Options Avancées. Si ce n’est pas le cas, changez l’option pour utiliser la virgule.
Ensuite, lorsque vous mettez en forme vos tableaux de données dans Excel vous devez utiliser le même séparateur décimal que celui défini par Excel, c’est à dire la virgule. Si le séparateur considéré par Excel est la virgule et que vous, vous utilisez un point, alors au moment de l’importation dans le logiciel R vos données ne seront pas considérées comme “numériques” mais comme du texte. Vous ne pourrez donc pas les utiliser comme des nombres.
Si dans vos feuilles Excel, le séparateur est un point (par exemple parce que c’est un collègue américain qui vous a transmis les données et qu’aux Etats Unis le séparateur décimal défini par défaut par Excel est un point), alors utilisez l’outil “Rechercher-Remplacer” pour remplacer les points par des virgules.
Lors de la mise en forme de vos données sous Excel, je vous recommande également de :
1. Ne pas utiliser d’accents ou de caractères spéciaux pour nommer une variable (ça vaut aussi pour le nom du fichier de données).Par contre vous pouvez utiliser les tirets bas ou les points.
2. Ne pas nommer une variable en commença par un chiffre : pas “1glycemie” mais “glycemie1”
3. Raccourcir le nom des variables, tout en conservant leur intelligibilité. Par exemple “glycémie” pourrait devenir “glyc” plutôt que simplement “g” et “créatinine” devenir “crea” plutôt que “cre”. Vous allez écrire le nom des variables à de nombreuses reprises dans les lignes de commandes pour réaliser vos analyses statistiques et cela vous simplifiera la tâche si les noms des variables sont courts.
4. Ne pas conserver les unités dans les noms des variables. Pour garder néanmoins l’information, le mieux est de faire un “code book”. Il s’agit d’un tableau avec le nom de la variable dans les données d’origine, son unité, le nom dans le fichier importé, et les valeurs qu’elle peut prendre (par exemple le min et max pour les variables numériques et les différentes modalités possibles pour des variables catégorielles). En voici un exemple :
5. Ne pas arrondir vos données, car l’information originale sera perdue lors de l’importation. Par exemple, si vous ne gardez que 2 chiffres après la virgule vous ne pourrez plus avoir accès à plus de précision après l’importation dans le logiciel R. Il est donc préférable de gérer l’arrondi dans R.
6. Ne pas recoder en variable numérique une variable catégorielle. Par exemple, vous pourriez être tenté de coder la semaine 1 par un “1” et la semaine “3” par un 3.Cela engendrerait des manipulations supplémentaires à réaliser sous R.
A final le jeu de données importé pourrait être celui ci, et il pourrait se nommer cste_sg_s1_s3 pour constantes sanguines, semaine 1 et semaine 3.
Une fois le fichier de données mis en forme, il est nécessaire de le sauvegarder au format CSV (séparateur: point-virgule (*.csv). Sauvegarder le dans le dossier associé à votre projet R (ici le dossier Grenoble_Alpes).
4. Importer votre tableau de données en utilisant la fonction read.csv2
Les analyses statistiques sont généralement réalisées en employant un script. Il s’agit d’un document contenant l’ensemble des lignes de commandes utilisées. Pour ouvrir un script sous R, il suffit de cliquer sur l’icône d’un document vierge avec une croix verte en haut à gauche, puis de choisir “R script”.
Il est ensuite nécessaire de le sauver, en lui donnant un nom intelligible et spécifique de préférence, en choisissant “save as “ du menu File.
Par défaut, le script est enregistré dans le working directory.Pour importer le jeu de données au format csv, il suffit alors d’utiliser la fonction read.csv2.La ligne de commande utilisée est alors :data_sg <- read.csv2(“cste_sg_s1_s3.csv”)“data_sg” est l’objet dans lequel vont être sauvegardées les données. La flèche vers la gauche “<- ” permet d’assigner à l’objet “data_sg” le résultat de la fonction read.csv2, qui prend pour seul argument le nom du fichier au format csv.Pour exécuter les commandes (cad les passer dans la console), il suffit de se placer n’importe où sur la ligne de commande avec la souris puis de cliquer sur l’icône “run” ou bien d’utiliser le raccourci Contrôle + Entrée.
Il existe également une fonction read.csv. Elle doit être employée lorsque le fichier à importer a été sauvegardé en formats csv mais avec une virgule à la place de point virgule pour séparer les colonnes, et lorsque le séparateur décimal est un point.
Les fonctions read.csv2 ou read.csv comportent plusieurs arguments qui permettent par exemple, d’importer ou non le nom des variables, le nom des lignes, d’indiquer si certaines valeurs doivent être considérées comme des données manquantes etc..… Pour connaître toutes les options possibles et les arguments correspondant, il suffit de consulter l’aide intégrée à R Studio. Elle est accessible en sélectionnant avec la souris la fonction dans le script, ou dans la console puis en appuyant sur la Touche F1.
La description de la fonction read.csv2 se trouve plus bas.
L’accès à l’aide aide peut également être obtenu en écrivant “?read.csv2” dans la console.
Il est possible d’importer des données à partir de l’outil “import data set “ de la fenêtre environnement (en haut à droite) de R Studio, c’est à dire sans employer des lignes de commandes. Malgré la simplicité de cette démarche, elle a l’énorme inconvénient de ne pas tracer le nom du jeu de données importé.
5. Visualisez les données importées
Si l’importation de vos données s’est correctement réalisée, l’objet dans lequel vous les avez stockées (data_sg dans l’exemple) doit apparaître dans la fenêtre “Environnement” (en haut à droite).
En double cliquant sur le nom “data_sg” un tableur s’ouvre dans la partie édition, avec des fonctions de filtre et de tri comme sous Excel. C’est vraiment très pratique !
Avec cet article, j’espère que vous aurez envie de rapidement mettre en application cette méthode simple et efficace d’importation des données dans le logiciel R.Et vous, quelles sont vos astuces pour importer vos données ? Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R Crédit photo : Jannek Staaks
Bjr Madame;
j’apprécie bcp ce que vous faites et je profite de l’occasion pour vous féliciter car les statistiques ne sont pas de l’eau à boire mais sont nécessaires pour tout domaine( recherche, médecine, agronomie, étude de marché….etc)
j’ai juste une demande à formuler:
exemple d’Anavo à 2 facteurs sans interaction et avec interaction.
merci
Bonsoir Ali,
merci pour votre commentaire, et votre suggestion. J’ai effectivement prévu de traiter le sujet de l’ANOVA à deux facteurs prochainement. Il va juste falloir être un peu patient…
Vraiment très pratique vos tutos
Bonjour,
Merci pour ce site,
Je débute, et je n’arrive pas à importer mes données malgré votre tuto : Rstudio m’indique
Error: object ‘data_sg’ not found
D’ou peut venir le problème ?
Etienne
Bonjour Etienne, pour pouvoir vous aider, il faudrait m’indiquer la ligne de commande que vous utilisez et le nom de votre fichier.
Hello, moi aussi, comme Etienne, je ne peux pas importer mes données, et j’ai le même message d’erreur. je pense que le répertoire data_sg est inconnu,
Pour ma part, j’ai fait exactement comme vous, avec les mêmes noms de fichiers, créés sur mon ordi, il n’y a que les chiffres du tableur qui changent!
Bonjour,
Pouvez vous me faire un copié collé du message d’erreur s’il vous plait. Merci
D’habitude j’utilise pas Rstudio mais j’importe mais données avec read.csv
Je viens de télécharger Rstudio et je vous le c’est très pratique. J’ai envie de continuer les autres tuto
Bonjour Badji,
Je vous conseille vraiment d’utiliser R Studio, cela facilite grandement l’utilisation de R.
Bonne continuation
Bonjour Mme merci infiniment pour votre esprit de partage. Je suis un débutant en analyse des données avec R mais dès que je suis tombé sur vos articles je commence à comprendre beaucoup de processus que je ne maîtrisais pas.
PS: je suis statisticien de profession j’aimerais vraiment maîtriser l’analyse des données avec R afin de réduire le poids des solutions payantes que j’ai l’habitude d’utilisé.
Bonsoir,
ravie de vous être utile et de vous permettre d’avancer avec R.
Bonne continuation.
vraiment c’est géniale et bien détaillé
bonne continuation et bon courage pour tous
Merci, bon courage à vous aussi !
Bonjour,
Merci pour ce tuto.
Personnellement, j’aimerais changer les indices (1,2,3, …) sur la première colonne du logiciel par les caractères (ici p1, p1, p2, p2, …) de la première colonne du fichier excel. Comment est-ce que je pourrais faire cela ?
Merci pour votre aide.
Merci Claire, nous vous remercions de cette disponibilité
Bonjour Madame,
Merci infiniment pour ce document et pour le partage.
Toutes mes félicitations.
Bonjour!
Merci infiniment pour le document.
Je vous dis un Grand Merci Madame vous nous aidez beaucoup avec ces tutos
je viens de découvrir votre blog c’est vraiment génial merci infiniment et je vous félicite pour votre pédagogie et je vous dis chapeau bas!!!!
Bonsoir Madame!
Merci pour les techniques, s’il vous plait comment faire pour importer plusieurs data frame sous R ?
C’est génial félicitations
BONJOUR CLAIRE STP, COMMENT ARRONDIR LES VALEURS A 2 CHIFFRES D’UN JEU DE DONNEES ?
Bonjour,
vous trouverez des infos dans cet article :