Voici la récap des news et découvertes qui ont attiré mon attention au cours du mois de février. Elle est organisée 4 thèmes principaux : utilisation de R, Data visualisation, Biostatistiques et Data sciences.
Si vous avez du mal à trouver les informations dans les pages d’aide des fonctions R, voici un mode d’emploi, publié par Kieran Healy, qui devrait vous aider.
Ce mode d’emploi est inclus dans un livre sur la data visualisation, qui est très didactique. Il est consultable ici
ggThemeAssist est
add on (un package qui une fois installé permet d’ouvrir une application web) qui va vous permettre de modifier les paramètres de la couche theme() de ggplot2. Cette couche permet de modifier l’apparence des grilles principales et secondaires, ou encore celles des textes, des axes, etc..
Pour pourvoir l’utiliser, il faut :
ggThemeAssist
Voici un exemple de code simple :
#installer le package
install.packages("ggThemeAssist")
# code d'un plot simple
library(ggplot2)
ggplot(iris, aes(x=Sepal.Length, y=Sepal.Width, colour=Species))+
geom_point()+
geom_smooth()
Voici l’application web ggThemeAssist
:
Et voici les lignes alors ajoutées par l’outil
Et le graph obtenu :
Vous pourrez aussi retrouver des informations sur les éléments de la couche theme
dans cette cheatsheet proposée par Clara Granell :
Il s’agit d’un article de blog avec 10 conseils pour utiliser moins de couleurs dans les graphs, ou plutôt pour les utiliser plus efficacement. Allez jeter un coup d’œil à cet article, c’est très synthétique et bien présenté. Ces conseils sont très similaires aux recommandations de Cole Nussbaumer Knaflic dans son livre “Storytelling with Data: A Data Visualization Guide for Business Professionals” que j’aime beaucoup.
Dans son article de blog Colorblind checks for qualitative palettes , Emi Tanaka partage sa fonction check_colorblindness()
qui permet de visualiser comment une palette de couleurs, préalablement définie, est perçue par les daltoniens.
library(ggplot2)
library(farver)
library(colorspace)
check_colorblindness <- function(colors, ncol = 3, label = TRUE) {
ncolors <- length(colors)
nrow <- ceiling(ncolors / ncol)
cond <- c("Original", "Deutan", "Protan", "Tritan")
ncond <- length(cond)
df <- data.frame(color = c(colors, deutan(colors), protan(colors), tritan(colors)),
cond = rep(cond, each = ncolors),
x = rep(rep(1:ncol, length.out = ncolors), times = ncond),
y = rep(rep(1:nrow, each = ncol)[1:ncolors], times = ncond)) %>%
mutate(cond = factor(cond, levels = .env$cond))
g <- ggplot(df, aes(x, y, fill = I(color))) +
geom_tile(color = "black", size = 1.3) +
theme_void() +
coord_equal() +
facet_wrap(~cond, ncol = 2) +
scale_y_reverse()
if(label) {
g + geom_text(aes(label = color, color = I(label_col)),
data = function(data) data %>%
filter(cond == "Original") %>%
mutate(hcl = decode_colour(colors, to = "hcl"),
label_col = ifelse(hcl[, "l"] > 50, "black", "white")))
} else {
g
}
}
Voici un exemple avec la palette par défaut de ggplot2, de 5 couleurs :
library(tidyverse)
library(scales)
show_col(hue_pal()(5))
colors <- c("#F8766D", "#A3A500", "#00BF7D", "#00B0F6", "#E76BF3")
check_colorblindness(colors)
L’article contient aussi des palettes, prêtes à l’emploi (il suffit de copier-coller les codes). Vous pourrez également visualiser leurs rendus.
Elles proviennent de Paul Tol, dont je vous avais parlé dans les News et découvertes d’octobre 2021.
Par exemple :
Zhang, S., Paul, J., Nantha-Aree, M., Buckley, N., Shahzad, U., Cheng, J., … & Thabane, L. (2014). Empirical comparison of four baseline covariate adjustment methods in analysis of continuous outcomes in randomized controlled trials. Clinical epidemiology, 6, 227.
Dans cette publication, les auteurs étudient les 4 approches suivantes :
Leur conclusion est que l’ANCOVA est la meilleure approche, car elle fournit une estimation de l’effet plus précise que les autres méthodes.
Si le sujet vous intéresse particulièrement, je vous recommande de suivre les discussions de ce tweet : https://twitter.com/jonaslindeloev/status/1496148208015265796?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed&ref_url=notion%3A%2F%2Fwww.notion.so%2F137ec3c5a6d1477689e05f461ff629a9
Regex Crossword est application bien sympathique qui permet de réviser ou d’apprendre à se servir des expressions régulières (ça sert à extraire des chaînes de caractères ) de façon plutôt ludique.
À utiliser en complément du verso de la cheatsheet du package stringr
(téléchargeable ici ).
Il y a aussi l’article Strings et expression régulières de Lise Vaudor (qui a conçu les illustrations de la cheatsheet !), qui est très pédagogique.
Dominic Samangy, qui est analyste de données de basketball, a publié un guide pour l’analyse de données de sport avec R, sous le format d’une googlesheet qui contient :
Vous pouvez d’ailleurs voir une de ses applis shiny ici :
Ou ses visualisations sur son compte twitter.
Si cet article vous a plu, ou vous a été utile vous pouvez soutenir le blog, en réalisant un don libre sur sa page Tipeee.
Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.
Une réponse
Merci, c’est encore et toujours très intéressant.