Pourquoi et comment utiliser une échelle log ?

# graph boxplot ggplot(mydataL, aes(x=group, y=response, colour=group))+ geom_jitter(seed=123, width=0.15)+ geom_boxplot() + scale_color_manual(values=c("red", "dodgerblue"))+ scale_y_continuous(breaks = c(10,20,50,75, 100, 200, 250))+ coord_trans(y="log")+ theme(legend.position = "none")+ ggtitle("avec la fonction coord_trans()") # graph moyenne + ic ggplot(mydataL2.s, aes(x=group, y=response, colour=group)) + geom_point(size=2)+ geom_errorbar(aes(ymin=response-ci, ymax=response+ci), width=.01)+ scale_color_manual(values=c("red", "dodgerblue"))+ scale_y_continuous(breaks = c(10,20,50, 100, 200, 250))+ coord_trans(y="log")+ theme(legend.position = "none")+ ggtitle("avec la fonction coord_trans()")

# graph boxplot ggplot(mydataL, aes(x=group, y=response, colour=group))+ geom_jitter(seed=123, width=0.15)+ geom_boxplot() + scale_color_manual(values=c("red", "dodgerblue"))+ scale_y_continuous(trans="log", breaks = c(10,20,50, 75,100, 200, 250)) # graph moyenne + ic ggplot(mydataL2.s, aes(x=group, y=response, colour=group)) + geom_point(size=2)+ geom_errorbar(aes(ymin=response-ci, ymax=response+ci), width=.01)+ scale_color_manual(values=c("red", "dodgerblue"))+ scale_y_continuous(trans="log", breaks = c(10,20,50, 100, 200, 250))

g1 <- ggplot(mydataL, aes(x=group, y=response, colour=group))+ geom_jitter(seed=123, width=0.15)+ geom_boxplot() + scale_color_manual(values=c("red", "dodgerblue"))+ stat_summary(fun=mean, geom="point", shape=20, size=5, color="black", fill="black", label=mean)+ stat_summary(fun.y=mean, colour="red", geom="text", show_guide = FALSE, vjust=-0.7, aes( label=round(..y.., digits=1)))+ scale_y_continuous(trans="log", breaks = c(10,20,50, 75,100, 200, 250))+ theme(legend.position = "non")+ ggtitle("avec scale_y_continuous()") g2 <- ggplot(mydataL, aes(x=group, y=response, colour=group))+ geom_jitter(seed=123, width=0.15)+ geom_boxplot() + scale_color_manual(values=c("red", "dodgerblue"))+ stat_summary(fun=mean, geom="point", shape=20, size=5, color="black", fill="black", label=mean)+ stat_summary(fun.y=mean, colour="red", geom="text", show_guide = FALSE, vjust=-0.7, aes( label=round(..y.., digits=1)))+ scale_y_continuous(breaks = c(10,20,50, 75,100, 200, 250))+ coord_trans(y="log")+ theme(legend.position = "non")+ ggtitle("avec coord_trans()") grid.arrange(g1, g2, ncol=2)

## Pour les boxplots # génération de 2 échantillon de données set.seed(123) y1 <- rnorm(100,m=20,sd=5 ) y2 <- rnorm(100,m=200,sd=50 ) # assemblage dans un data frame mydata <- data.frame(y1,y2) mydata <- round(mydata,2) # passage en format long pour la représentation graphique library(tidyverse) mydataL <- mydata %>% pivot_longer(cols=y1:y2, names_to = "group", values_to = "response") %>% arrange(group)

### Avec la fonction scale_y_numeric(trans="log") #response du groupe 2 x <- mydataL$response[mydataL$group=="y2"] # étape 1 : passage en log logx <- log(x) # étape 2 : calcul de la moyenne moy_logx <- mean(logx) moy_logx ## [1] 5.240923 # etape 3 : transformation inverse exp_moy_logx <- exp(moy_logx) exp_moy_logx ## [1] 188.8443 # comparaison avec la moyenne des observations # utilisée par la fonction coord_trans mean(x) ## [1] 194.6227

set.seed(123) y1 <- rnorm(100,m=20,sd=10 ) y2 <- rnorm(100,m=200,sd=100 ) # assemblage dans un data frame mydata2 <- data.frame(y1,y2) mydata2 <- round(mydata,2) #head(mydata) # passage en format long pour la représentation graphique library(tidyverse) mydataL2 <- mydata2 %>% pivot_longer(cols=y1:y2, names_to = "group", values_to = "response") %>% arrange(group) # calcul des moyennes et ic library(Rmisc) mydataL2.s <- summarySE(mydataL2, measurevar="response", groupvars=c("group")) mydataL2.s ## group N response sd se ci ## 1 y1 100 20.4522 4.563671 0.4563671 0.9055314 ## 2 y2 100 194.6229 48.349671 4.8349671 9.5936236

11 réponses

roudeau dit :
2 mars 2023 à 8 h 41 min
Bonjour,
Merci pour cet article encore très instructif, je ne connaissais pas la fonction scale_x_continuous(trans=”log”)!
J’avoue n’utiliser que la fonction scale_y_log10(), vraiment très pratique aussi 😉
Bonne journée!
Répondre
David_Bawela dit :
2 mars 2023 à 9 h 12 min
Merci pour ces jolies lignes des codes. JE vais essayer et voir ce que ça va donner
Répondre
BONNEFOY dit :
2 mars 2023 à 9 h 29 min
Un article au top comme on les aime!
Merci
Répondre
SamGG dit :
2 mars 2023 à 9 h 36 min
Réponse sans faute et approfondie. Bravo et merci.
L’échelle logarithme ne permet pas de représenter les valeurs nulles (ni négatives). Pour cela, j’utilise une transformation linéaire-logarithme à travers la fonction asinh(x/cofactor). La variable cofactor permet de choisir le point de transition entre la fonction logarithme pour les grandes valeurs et linéaire pour les valeurs se rapprochant de zéro (https://fr.wikipedia.org/wiki/Sinus_hyperbolique_r%C3%A9ciproque). Cette fonction est disponible dans Excel !
Pour aller plus loin, on peut utiliser la transformation de Cox Box (par exemple https://pbil.univ-lyon1.fr/R/pdf/tdr29.pdf) et optimiser son paramétrage pour ajuster les valeurs à une distribution gaussienne. Je ne l’utilise pas, préférant la simplicité.
Répondre
1. Claire Della Vedova dit :
  2 mars 2023 à 10 h 24 min
  Bonjour Samuel,
  Effectivement, je me suis rendue compte, après coup, que je n’avais pas précisé que la transfo log n’était pas appropriée pour les valeurs nulles et négatives.
  Je ne connaissais pas la fonction asinh(x/cofactor), donc un grand merci pour ce complément et ce partage.
  Répondre
2. Moussa Fanta KEITA dit :
  2 mars 2023 à 11 h 35 min
  Merci beaucoup pour cette formation
  Répondre
Loumerem dit :
2 mars 2023 à 9 h 42 min
Merci beaucoup
Répondre
menthalo dit :
2 mars 2023 à 10 h 09 min
Merci pour ces précisions détaillées 😉
E.
Répondre
Ana RG dit :
2 mars 2023 à 11 h 56 min
Merci pour ce post! Je pense que ceci va certainement éviter des maux de têtes pour comprendre pourquoi on n’a pas la même moyenne!
Répondre
Loko dit :
13 mars 2023 à 9 h 48 min
Bonjour Claire
Merci à toi pour tout ce que tu fais pour le monde statistique
ce post est vraiment très très utiles pour corriger les casses têtes lors de l’analyses des données.
Merci Beaucoup
Répondre
Anna dit :
5 février 2024 à 16 h 27 min
Bonjour,
J’aimerais représenter deux boîtes à moustache mais elles n’ont pas le même nombre de données, et je ne m’en sors pas avec votre code. Auriez-vous un conseil ?
Répondre

Pourquoi et comment utiliser une échelle log ?

Problématique

Table des matières

Les data

Transformation log des données

Utiliser une échelle log

Fonction coord_trans(y=“log")

Fonction scale_y_continuous(trans="log")

Précautions

Code pour créer les data :

Data frame pour les boxplots

Data frame pour le plot des moyennes et ic

Le mot de la fin

11 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez soutenir mon travail ?

Aide mémoire off'R ;)