ChatGPT et R : 7 usages qui vont booster votre code

library(tidyverse) # Exemple de data frame avec des valeurs manquantes df <- tibble( var1 = c(1, 2, NA, 4, 5), var2 = c(NA, 3, 4, NA, 6), var3 = c("A", "B", "C", "D", "E") # Variable non numérique ) # Remplacement des NA par la moyenne de chaque variable numérique df_clean <- df %>% mutate(across(where(is.numeric), ~ replace_na(., mean(., na.rm = TRUE)))) # Affichage du résultat print(df_clean) # A tibble: 5 × 3 var1 var2 var3 <dbl> <dbl> <chr> 1 1 4.33 A 2 2 3 B 3 3 4 C 4 4 4.33 D 5 5 6 E

airquality_clean <- airquality %>% mutate(across(where(is.numeric), ~ replace_na(., mean(., na.rm = TRUE)))) Error in `mutate()`: ℹ In argument: `across(where(is.numeric), ~replace_na(., mean(., na.rm = TRUE)))`. Caused by error in `across()`: ! Can't compute column `Ozone`. Caused by error in `vec_assign()`: ! Can't convert from `replace` <double> to `data` <integer> due to loss of precision. • Locations: 1

library(tidyverse) # fonction créée par chatGPT impute_na_with_mean <- function(data) { data %>% mutate(across(where(is.numeric), ~ replace_na(as.numeric(.), mean(., na.rm = TRUE)))) } # Exemple de jeu de données avec des valeurs manquantes df_example <- tibble( col1 = c(1, 2, NA, 4, 5), col2 = c(NA, 3, 4, NA, 6), col3 = c("A", "B", "C", "D", "E") # Variable non numérique ) # Appliquer la fonction sur df_example df_example_clean <- impute_na_with_mean(df_example) # Afficher le résultat print(df_example_clean) # A tibble: 5 × 3 col1 col2 col3 <dbl> <dbl> <chr> 1 1 4.33 A 2 2 3 B 3 3 4 C 4 4 4.33 D 5 5 6 E

# Libraries library(ggplot2) # Create data data <- data.frame( x=LETTERS[1:26], y=abs(rnorm(26)) ) # Horizontal version ggplot(data, aes(x=x, y=y)) + geom_segment( aes(x=x, xend=x, y=0, yend=y), color="skyblue") + geom_point( color="blue", size=4, alpha=0.6) + theme_light() + coord_flip() + theme( panel.grid.major.y = element_blank(), panel.border = element_blank(), axis.ticks.y = element_blank() )

library(ggplot2) library(dplyr) # Créer les données set.seed(123) # Pour rendre les résultats reproductibles data <- data.frame( x = LETTERS[1:26], y = abs(rnorm(26)) ) # Trier les données par ordre décroissant de y data <- data %>% arrange(desc(y)) %>% mutate(color = ifelse(y > 1.5, "red", "blue")) # Ajouter une couleur conditionnelle # Version horizontale avec couleurs conditionnelles ggplot(data, aes(x = reorder(x, y), y = y)) + # Réordonne x en fonction de y geom_segment(aes(x = x, xend = x, y = 0, yend = y), color = "skyblue") + geom_point(aes(color = color), size = 4, alpha = 0.6) + scale_color_identity() + # Utilisation directe des couleurs définies theme_light() + coord_flip() + theme( panel.grid.major.y = element_blank(), panel.border = element_blank(), axis.ticks.y = element_blank() )

library(parameters) library(performance) library(emmeans) gapdata_fit <- aov(lifeExp~continent, data=gapdata) summary(gapdata_fit) check_model(gapdata_fit) check_normality(gapdata_fit) check_homogeneity(gapdata_fit) mc <- emmeans(gapdata_fit, specs=pairwise~continent) mc plot(mc, comparisons = TRUE)

# Chargement des bibliothèques nécessaires library(parameters) # Outils pour examiner les modèles statistiques library(performance) # Vérification des hypothèses des modèles library(emmeans) # Comparaisons multiples des moyennes ajustées # Ajustement d'une ANOVA à un facteur (continent) sur la variable lifeExp gapdata_fit <- aov(lifeExp ~ continent, data = gapdata) # Résumé des résultats de l'ANOVA summary(gapdata_fit) # Vérification des hypothèses du modèle check_model(gapdata_fit) # Diagnostic global du modèle check_normality(gapdata_fit) # Test de normalité des résidus check_homogeneity(gapdata_fit) # Test d'homogénéité des variances # Comparaisons multiples entre les niveaux du facteur 'continent' mc <- emmeans(gapdata_fit, specs = pairwise ~ continent) # Affichage des moyennes ajustées et des comparaisons par paires mc # Visualisation des comparaisons multiples plot(mc, comparisons = TRUE)

10 réponses

Deline dit :
18 mars 2025 à 9 h 56 min
Bonjour Claire et merci pour cet intéressant article sur l’utilisation de l’IA pour travailler avec R.
J’ajouterai une remarque sur l’IA en général : une utilisation parcimonieuse de l’IA est souhaitable étant donné son impact environnemental à travers les requêtes et les data center. Il apparait entre autre qu’une intelligence artificielle (IA) générative utilise 10 fois plus d’énergie qu’un moteur de recherche classique »… On est prévenu 😉
-voir : https://www.futura-sciences.com/planete/actualites/environnement-voici-ce-consomme-simple-requete-chatgpt-116342/).
-voir également : https://www.blick.ch/fr/monde/une-pollution-excessive-cinq-chiffres-pour-comprendre-limpact-environnemental-de-lia-id20549977.html.
Répondre
1. Claire Della Vedova dit :
  18 mars 2025 à 10 h 06 min
  Bonjour Stéphane,
  Merci pour votre commentaire très pertinent.
  Répondre
besombes gilles dit :
18 mars 2025 à 10 h 26 min
Merci de ces exemples Claire, qui confirment parfaitement l’usage que j’en ai pour la mise au point d’un code R d’analyse bayésienne. J’ai fini par n’utiliser que Mistral qui me convient à 90% des cas. Dans les 10 % restant, j’ai fait du partage de connaissance entre ChapGpt et Mistral prend la peine de me remercier.
Je ne compte plus les cas soumis à Mistral pour la création, correction ou annotation de codes et je confirme que tous les exemples présentés ici sont bien représentatifs de ce que l’on peut obtenir d’un LLM.
A noter que je prends un malin plaisir à faire des prompts comme si je m’adressais à un ou une experte en codage R. Et il (ou elle) me répond dans la même veine.
Au final, c’est très étonnant de passer plus de temps dans la phraséologie du prompt pour être précis et concis que dans le codage lui-même.
Voici le dernier exemple soumis avec la réponse de Mistral:
======================== Le prompt
Bonjour
j’aimerais avoir un avis sur les compatibilités de ces librairies. Est il possible d’en supprimer pour cause de redondance ?
library(lubridate), library(tidyverse) , library(bnlearn) , library(reshape2) , library(dplyr) , library(lattice) ,library(FactoMineR), library(ade4)
library(shiny), library(cluster), library(webshot), library(Hmisc) , library(corrplot) , library(plotly), library(neuralnet), library(magrittr)
library(performance), library(DiagrammeR), library(pacman), library(igraph), library(htmltools), library(visNetwork)
library(htmlwidgets)
Merci
===================== La réponse
Bonjour ! Vous avez une liste assez complète de bibliothèques R. Certaines d’entre elles peuvent effectivement être redondantes ou avoir des fonctionnalités qui se chevauchent. Voici un aperçu des bibliothèques et quelques suggestions pour les optimiser :
lubridate : Utilisée pour la manipulation des dates et heures.
tidyverse : Une collection de packages pour la science des données, incluant dplyr, ggplot2, tidyr, etc. Si vous chargez tidyverse, vous n’avez pas besoin de charger dplyr séparément.
bnlearn : Pour l’apprentissage des réseaux bayésiens.
reshape2 : Utilisée pour la réorganisation des données. Cependant, tidyr (inclus dans tidyverse) peut souvent remplacer reshape2.
lattice : Pour les graphiques en treillis. Si vous utilisez ggplot2 (inclus dans tidyverse), vous pouvez envisager de supprimer lattice.
FactoMineR : Pour l’analyse factorielle.
ade4 : Pour l’analyse des données écologiques et environnementales.
shiny : Pour créer des applications web interactives.
cluster : Pour l’analyse de clusters.
webshot : Pour capturer des captures d’écran de pages web.
Hmisc : Pour diverses fonctions utilitaires et graphiques.
corrplot : Pour la visualisation des matrices de corrélation.
plotly : Pour créer des graphiques interactifs.
neuralnet : Pour les réseaux de neurones.
magrittr : Pour l’opérateur pipe %>%. Si vous utilisez tidyverse, vous n’avez pas besoin de charger magrittr séparément.
performance : Pour l’évaluation des modèles.
DiagrammeR : Pour créer des diagrammes et des graphiques.
pacman : Pour la gestion des packages.
igraph : Pour l’analyse de réseaux.
htmltools : Pour créer des outils HTML.
visNetwork : Pour la visualisation de réseaux.
htmlwidgets : Pour créer des widgets HTML.
Suggestions :
Supprimer dplyr et magrittr : Ils sont inclus dans tidyverse.
Supprimer reshape2 : Si vous utilisez tidyr (inclus dans tidyverse), vous pouvez remplacer reshape2.
Supprimer lattice : Si vous utilisez ggplot2 (inclus dans tidyverse), vous pouvez envisager de supprimer lattice.
En résumé, vous pouvez probablement supprimer dplyr, magrittr, reshape2, et lattice sans perdre de fonctionnalités, car elles sont couvertes par tidyverse. Cela devrait réduire la redondance dans votre liste de bibliothèques.
===============
Super ! Merci
===============
Avec plaisir ! Si vous avez d’autres questions ou besoin de plus d’aide, n’hésitez pas à demander. Bonne journée !
Répondre
1. Claire Della Vedova dit :
  18 mars 2025 à 10 h 48 min
  Bonjour Gilles,
  Merci pour ce retour.
  Répondre
Chouaib dit :
18 mars 2025 à 10 h 43 min
Merci beaucoup Claire, vraiment c’est très intéressant. Ça va aider pour améliorer davantage un code développé.
Répondre
Seiré Dianifaba dit :
18 mars 2025 à 14 h 43 min
C’est intéressant
Répondre
Max dit :
20 mars 2025 à 13 h 09 min
J’ajouterai que l’on peu demander a chatgpt de coder de la façon dont on a envire. Pour ma part, je code majoritairement en data.table couplé à la pip native |> (ce qui donne dt |> _[ , ] |> _[ , ] etc… ). Ainsi j’ai la vitesse et le coté « succin » de data.table quand c’est nécessaire, et la lisibilité du tidyverse quand je fais des scripts plus volumineux. Et bien j’ai paramètré Chatgpt pour qu’il me sorte les réponses autant que possible dans ma façon de codé et ça fonctionne ^^’.
Répondre
Sidbéwindin SAWADOGO dit :
21 mars 2025 à 13 h 28 min
Bonjour Mme
Je suis vos tutoriels et j’aimerai solliciter votre aide pour l’analyse de mes données.
Répondre
menthalo dit :
24 mars 2025 à 8 h 37 min
Bonjour, merci pour cet article; savoir « parler à l’oreille des I.A. » est une « vraie » compétence.
J’utilise pas mal l’I.A. pour me donner un diagramme d’un algorithme ou morceau de code R, ou autre fonction, afin de documenter (pour moi-même et les autres) ce que je peux développer; pour cela, je demande à l’I.A. qu’elle me donne le code « textuel » en plantuml du diagramme que je souhaite.
Pour ceux qui ne savent pas ce qu’est plantuml : https://plantuml.com/fr/sequence-diagram
(cela s’apprend relativement vite, et il y a un éditeur « online » pour se faire la main)
Voici un exemple de code R et de demande à une I.A. (Mistral cette fois-ci)
— Message transmis à l’I.A.
donne moi un diagramme d’activités en plantuml (le texte) permettant d’expliquer en détails le code R suivant
# Créer un data.frame avec des données fictives
set.seed(123) # Pour la reproductibilité
df 40) {
df$Salaire[i] <- df$Salaire[i] * 1.10
}
# Si la ville est "Paris", ajouter 5000 au salaire
if (df$Ville[i] == "Paris") {
df$Salaire[i] <- df$Salaire[i] + 5000
}
}
print("DataFrame après modifications:")
print(df)
—–
Réponse de l'I.A. : voir https://www.plantuml.com/plantuml/uml/SyfFKj2rKt3CoKnELR1Io4ZDoSa70000
@startuml
|Utilisateur|
start
:Créer un data.frame avec des données fictives;
:Définir une graine pour la reproductibilité;
note right
set.seed(123)
end note
:Créer un data.frame 'df' avec les colonnes ID, Age, Salaire, et Ville;
note right
df 40?) then (Oui)
:Augmenter le salaire de 10%;
note right
df$Salaire[i] <- df$Salaire[i] * 1.10
end note
endif
if (Ville == "Paris"?) then (Oui)
:Ajouter 5000 au salaire;
note right
df$Salaire[i] <- df$Salaire[i] + 5000
end note
endif
repeat while (Toutes les lignes sont traitées?)
:Afficher le DataFrame après modifications;
note right
print("DataFrame après modifications:")
print(df)
end note
stop
@enduml
Répondre
1. Claire Della Vedova dit :
  30 mars 2025 à 16 h 41 min
  Merci pour ce commentaire. Je ne connaissais pas du tout !
  Répondre

ChatGPT et R : 7 usages qui vont booster votre code

Table des matières

Introduction

Quels LLM utiliser ?

Demander de l’aide pour développer du code R

Demander de transformer un bout de code en une fonction

Faire corriger un code qui ne fonctionne pas

Obtenir une explication sur une sortie de code inattendue

Se faire expliquer un bout de code récupéré

Personnaliser un plot

Demander de commenter un code

Quelques conseils pour une meilleure utilisation de ChatGPT avec R

Conclusion

Poursuivez votre lecture

📩 Envie de recevoir plus d’astuces et de tutoriels sur R ?

🎓 Vous souhaitez vous former au logiciel R ou aux analyses statistiques ?

Vous êtes un particulier et vous souhaitez vous former à R en autonomie ?

Apprendre R à votre rythme

Vous souhaitez soutenir mon travail ?

10 réponses

Laisser un commentaire Annuler la réponse

Aide mémoire off'R ;)