News et découvertes de février 2022

Découvertes et news de février 2022

Voici la récap des news et découvertes qui ont attiré mon attention au cours du mois de février. Elle est organisée 4 thèmes principaux : utilisation de R, Data visualisation, Biostatistiques et Data sciences. 

 

Table des matières

Utilisation de R

Comment lire une page d'aide

Si vous avez du mal à trouver les informations dans les pages d’aide des fonctions R, voici un mode d’emploi, publié par Kieran Healy, qui devrait vous aider.

 

comment lire une page d'aide

Ce mode d’emploi est inclus dans un livre sur la data visualisation, qui est très didactique. Il est consultable ici 

Data visualisation

Le add on ggThemeAssist

ggThemeAssist est add on (un package qui une fois installé permet d’ouvrir une application web) qui va vous permettre de modifier les paramètres de la couche theme() de ggplot2. Cette couche permet de modifier l’apparence des grilles principales et secondaires, ou encore celles des textes, des axes, etc..

Pour pourvoir l’utiliser, il faut :

  • installer le package ggThemeAssist
  • écrire le code de base du plot, sur lequel vous souhaitez ajouter des éléments de thème
  • sélectionner ces lignes
  • aller dans Addins(juste en dessous du menu principal), ouvrir le menu et aller sur “ggplot Theme Assistant”
  • faire les ajouts ou modifications souhaités, (on peut les visualiser dans la partie supérieure)
  • cliquer sur le bouton Done (haut à droite de l’application) pour ajouter automatiquement dans votre script, les lignes de code correspondant aux modifications réalisées.

Voici un exemple de code simple :

#installer le package
install.packages("ggThemeAssist") 

# code d'un plot simple
library(ggplot2)
ggplot(iris, aes(x=Sepal.Length, y=Sepal.Width, colour=Species))+
    geom_point()+
    geom_smooth() 
Plot avant l'utilisation de ggThemeAssist

Voici l’application web ggThemeAssist :

Application ggThemeAssist

Et voici les lignes alors ajoutées par l’outil

Lignes de commandes coorespondant à la couches Theme automatiquement ajoutées

Et le graph obtenu :

Vous pourrez aussi retrouver des informations sur les éléments de la  couche theme dans cette cheatsheet proposée par Clara Granell

10 conseils pour mieux utiliser la couleur dans vos data visualisations

Il s’agit d’un article de blog avec 10 conseils pour utiliser moins de couleurs dans les graphs, ou plutôt pour les utiliser plus efficacement. Allez jeter un coup d’œil à cet article, c’est très synthétique et bien présenté. Ces conseils sont très similaires aux recommandations de Cole Nussbaumer Knaflic dans son livre “Storytelling with Data: A Data Visualization Guide for Business Professionals”  que j’aime beaucoup.

Vérifier comment les daltoniens perçoivent votre palette de couleurs

Dans son article de blog Colorblind checks for qualitative palettes , Emi Tanaka partage sa fonction check_colorblindness()qui permet de visualiser comment une palette de couleurs, préalablement définie, est perçue par les daltoniens.

library(ggplot2)
library(farver)
library(colorspace)
check_colorblindness <- function(colors, ncol = 3, label = TRUE) {
  ncolors <- length(colors)
  nrow <- ceiling(ncolors / ncol)
  cond <- c("Original", "Deutan", "Protan", "Tritan")
  ncond <- length(cond)
  
  df <- data.frame(color = c(colors, deutan(colors), protan(colors), tritan(colors)),
                   cond = rep(cond, each = ncolors),
                   x = rep(rep(1:ncol, length.out = ncolors), times = ncond),
                   y = rep(rep(1:nrow, each = ncol)[1:ncolors], times = ncond)) %>% 
    mutate(cond = factor(cond, levels = .env$cond))
  
  
  g <- ggplot(df, aes(x, y, fill = I(color))) +
    geom_tile(color = "black", size = 1.3) +
    theme_void() +
    coord_equal() +
    facet_wrap(~cond, ncol = 2) +
    scale_y_reverse()
  
  if(label) {
      g + geom_text(aes(label = color, color = I(label_col)), 
              data = function(data) data %>% 
                filter(cond == "Original") %>% 
                mutate(hcl = decode_colour(colors, to = "hcl"),
                       label_col = ifelse(hcl[, "l"] > 50, "black", "white")))
  } else {
    g
  } 
} 

Voici un exemple avec la palette par défaut de ggplot2, de 5 couleurs :

library(tidyverse)
library(scales) 
show_col(hue_pal()(5))  
colors <- c("#F8766D", "#A3A500", "#00BF7D", "#00B0F6", "#E76BF3")
check_colorblindness(colors) 
Perception de la palette par les daltoniens

L’article contient aussi des palettes, prêtes à l’emploi (il suffit de copier-coller les codes). Vous pourrez également visualiser leurs rendus.

Elles proviennent de Paul Tol, dont je vous avais parlé dans les News et découvertes d’octobre 2021

Par exemple :

exemple de palettes disponibles

Biostatistiques

Comparaison de 4 méthodes d’analyse de données continues, mesurées avant et après traitement, dans les essais randomisés contrôlés

Dans cette publication, les auteurs étudient les 4 approches suivantes : 

  • la comparaison des scores après traitement entre les deux groupes
  • la comparaison des delta (score après traitement – score avant traitement) entre les deux groupes
  • la comparaison des delta exprimés en pourcentage, entre les deux traitements
  • l’analyse de covariance : score après traitement ~ score avant traitement + groupe

Leur conclusion est que l’ANCOVA est la meilleure approche, car elle fournit une estimation de l’effet plus précise que les autres méthodes.

Si le sujet vous intéresse particulièrement, je vous recommande de suivre les discussions de ce tweet : https://twitter.com/jonaslindeloev/status/1496148208015265796?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed&ref_url=notion%3A%2F%2Fwww.notion.so%2F137ec3c5a6d1477689e05f461ff629a9

Guidelines pour conduire une analyse de données

Il s’agit d’une publication de l’organisation STRATOS (STRengthening Analytical Thinking for Observational Studies ),  avec 10 règles à suivre pour conduire une analyse de données. J’ai parcouru le papier, les conseils sont bons, et assez généralistes pour être appliqués dans de nombreux domaines.

Data sciences

Web scraping

Si vous avez besoin de récupérer des infos automatiquement à partir d’une page internet, ce guide de webscrapping avec R est surement un bon point de départ :

Expressions régulières avec Regex Crossword

Regex Crossword est application bien sympathique qui permet de  réviser ou d’apprendre à se servir des expressions régulières (ça sert à  extraire des chaînes de caractères ) de façon plutôt ludique.

À utiliser en complément du verso de la cheatsheet du package stringr (téléchargeable ici ).

cheatsheet des expressions régulières

Il y a aussi l’article Strings et expression régulières de Lise Vaudor (qui a conçu les illustrations de la cheatsheet !), qui est très pédagogique.

Une liste de ressources pour analyser des données de sport

Dominic Samangy, qui est analyste de données de basketball, a publié un guide pour l’analyse de données de sport avec R, sous le format d’une googlesheet qui contient :

  • une liste de tutoriels 
  • une liste de datasets 
  • une liste de package R 
  • une liste de cheatsheet des packages R +
  • une liste de comptes twitter à suivre
  • une liste d’appli shiny, de blogs, de livres etc..

Vous pouvez d’ailleurs voir une de ses applis shiny ici

Ou ses visualisations sur son compte twitter.

Soutenir le blog

Si cet article vous a plu, ou vous a été utile vous pouvez soutenir le blog, en réalisant un don libre sur sa page Tipeee.

Une réponse

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Bonjour !

vous venez souvent ?

Identifiez-vous pour avoir accès à toutes les fontionnalités !

Aide mémoire off'R ;)

Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.