News et découvertes de février 2022

Voici la récap des news et découvertes qui ont attiré mon attention au cours du mois de février. Elle est organisée 4 thèmes principaux : utilisation de R, Data visualisation, Biostatistiques et Data sciences.

Utilisation de R

Comment lire une page d'aide

Si vous avez du mal à trouver les informations dans les pages d’aide des fonctions R, voici un mode d’emploi, publié par Kieran Healy, qui devrait vous aider.

Ce mode d’emploi est inclus dans un livre sur la data visualisation, qui est très didactique. Il est consultable ici

Data visualisation

Le add on ggThemeAssist

ggThemeAssist est add on (un package qui une fois installé permet d’ouvrir une application web) qui va vous permettre de modifier les paramètres de la couche theme() de ggplot2. Cette couche permet de modifier l’apparence des grilles principales et secondaires, ou encore celles des textes, des axes, etc..

Pour pourvoir l’utiliser, il faut :

installer le package ggThemeAssist
écrire le code de base du plot, sur lequel vous souhaitez ajouter des éléments de thème
sélectionner ces lignes
aller dans Addins(juste en dessous du menu principal), ouvrir le menu et aller sur « ggplot Theme Assistant »
faire les ajouts ou modifications souhaités, (on peut les visualiser dans la partie supérieure)
cliquer sur le bouton Done (haut à droite de l’application) pour ajouter automatiquement dans votre script, les lignes de code correspondant aux modifications réalisées.

Voici un exemple de code simple :

#installer le package
install.packages("ggThemeAssist") 

# code d'un plot simple
library(ggplot2)
ggplot(iris, aes(x=Sepal.Length, y=Sepal.Width, colour=Species))+
    geom_point()+
    geom_smooth()

Voici l’application web ggThemeAssist :

Et voici les lignes alors ajoutées par l’outil

Et le graph obtenu :

Vous pourrez aussi retrouver des informations sur les éléments de la couche theme dans cette cheatsheet proposée par Clara Granell :

10 conseils pour mieux utiliser la couleur dans vos data visualisations

Il s’agit d’un article de blog avec 10 conseils pour utiliser moins de couleurs dans les graphs, ou plutôt pour les utiliser plus efficacement. Allez jeter un coup d’œil à cet article, c’est très synthétique et bien présenté. Ces conseils sont très similaires aux recommandations de Cole Nussbaumer Knaflic dans son livre « Storytelling with Data: A Data Visualization Guide for Business Professionals » que j’aime beaucoup.

Vérifier comment les daltoniens perçoivent votre palette de couleurs

Dans son article de blog Colorblind checks for qualitative palettes , Emi Tanaka partage sa fonction check_colorblindness()qui permet de visualiser comment une palette de couleurs, préalablement définie, est perçue par les daltoniens.

library(ggplot2)
library(farver)
library(colorspace)
check_colorblindness <- function(colors, ncol = 3, label = TRUE) {
  ncolors <- length(colors)
  nrow <- ceiling(ncolors / ncol)
  cond <- c("Original", "Deutan", "Protan", "Tritan")
  ncond <- length(cond)
  
  df <- data.frame(color = c(colors, deutan(colors), protan(colors), tritan(colors)),
                   cond = rep(cond, each = ncolors),
                   x = rep(rep(1:ncol, length.out = ncolors), times = ncond),
                   y = rep(rep(1:nrow, each = ncol)[1:ncolors], times = ncond)) %>% 
    mutate(cond = factor(cond, levels = .env$cond))
  
  
  g <- ggplot(df, aes(x, y, fill = I(color))) +
    geom_tile(color = "black", size = 1.3) +
    theme_void() +
    coord_equal() +
    facet_wrap(~cond, ncol = 2) +
    scale_y_reverse()
  
  if(label) {
      g + geom_text(aes(label = color, color = I(label_col)), 
              data = function(data) data %>% 
                filter(cond == "Original") %>% 
                mutate(hcl = decode_colour(colors, to = "hcl"),
                       label_col = ifelse(hcl[, "l"] > 50, "black", "white")))
  } else {
    g
  } 
}

Voici un exemple avec la palette par défaut de ggplot2, de 5 couleurs :

library(tidyverse)
library(scales) 
show_col(hue_pal()(5))

colors <- c("#F8766D", "#A3A500", "#00BF7D", "#00B0F6", "#E76BF3")
check_colorblindness(colors)

L’article contient aussi des palettes, prêtes à l’emploi (il suffit de copier-coller les codes). Vous pourrez également visualiser leurs rendus.

Elles proviennent de Paul Tol, dont je vous avais parlé dans les News et découvertes d’octobre 2021.

Par exemple :

Biostatistiques

Comparaison de 4 méthodes d’analyse de données continues, mesurées avant et après traitement, dans les essais randomisés contrôlés

Zhang, S., Paul, J., Nantha-Aree, M., Buckley, N., Shahzad, U., Cheng, J., … & Thabane, L. (2014). Empirical comparison of four baseline covariate adjustment methods in analysis of continuous outcomes in randomized controlled trials. Clinical epidemiology, 6, 227.

Dans cette publication, les auteurs étudient les 4 approches suivantes :

la comparaison des scores après traitement entre les deux groupes
la comparaison des delta (score après traitement – score avant traitement) entre les deux groupes
la comparaison des delta exprimés en pourcentage, entre les deux traitements
l’analyse de covariance : score après traitement ~ score avant traitement + groupe

Leur conclusion est que l’ANCOVA est la meilleure approche, car elle fournit une estimation de l’effet plus précise que les autres méthodes.

Si le sujet vous intéresse particulièrement, je vous recommande de suivre les discussions de ce tweet : https://twitter.com/jonaslindeloev/status/1496148208015265796?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed&ref_url=notion%3A%2F%2Fwww.notion.so%2F137ec3c5a6d1477689e05f461ff629a9

Guidelines pour conduire une analyse de données

Il s’agit d’une publication de l’organisation STRATOS (STRengthening Analytical Thinking for Observational Studies ), avec 10 règles à suivre pour conduire une analyse de données. J’ai parcouru le papier, les conseils sont bons, et assez généralistes pour être appliqués dans de nombreux domaines.

Data sciences

Web scraping

Si vous avez besoin de récupérer des infos automatiquement à partir d’une page internet, ce guide de webscrapping avec R est surement un bon point de départ :

Expressions régulières avec Regex Crossword

Regex Crossword est application bien sympathique qui permet de réviser ou d’apprendre à se servir des expressions régulières (ça sert à extraire des chaînes de caractères ) de façon plutôt ludique.

À utiliser en complément du verso de la cheatsheet du package stringr (téléchargeable ici ).

Il y a aussi l’article Strings et expression régulières de Lise Vaudor (qui a conçu les illustrations de la cheatsheet !), qui est très pédagogique.

Une liste de ressources pour analyser des données de sport

Dominic Samangy, qui est analyste de données de basketball, a publié un guide pour l’analyse de données de sport avec R, sous le format d’une googlesheet qui contient :

une liste de tutoriels
une liste de datasets
une liste de package R
une liste de cheatsheet des packages R +
une liste de comptes twitter à suivre
une liste d’appli shiny, de blogs, de livres etc..

Vous pouvez d’ailleurs voir une de ses applis shiny ici :

Ou ses visualisations sur son compte twitter.

Soutenir le blog

Si cet article vous a plu, ou vous a été utile vous pouvez soutenir le blog, en réalisant un don libre sur sa page Tipeee.

Une réponse

menthalo dit :
5 mars 2022 à 14 h 31 min
Merci, c’est encore et toujours très intéressant.
Répondre