News et découvertes – avril, mai, juin 2022

Quoi de neuf dans le monde de R, et des biostats depuis le mois de mai ?

Plein choses !

Voici la récap de ce qui m’a particulièrement intéressé.

Biostats

Comprendre les concepts statistiques

On commence avec une pépite ! Le livre i “Improving your statistical Inferences” de Daniël Lakens de l’Université d’Einhoven, gratuitement consultable en cliquant ICI.

Vous trouverez une présentation simple et didactique des principaux concepts statistiques, tels que la p-values, la vraisemblance, les effects size, les intervalles de confiances, etc… En général, les livres de biostats regorgent de formules, sans expliquer clairement les principes. Et bien là, c’est tout le contraire. J’ai tellement apprécié ce que j’ai lu, en le parcourant, que j’ai commencé sa lecture systématique, 15 min tous les matins. C’est toujours très intéressant pour moi de voir comment d’autres introduisent les différentes notions, les exemples utilisés, etc…

On le lit ensemble ?

Comment rapporter un calcul du nombre de sujets nécessaires ?

C’est Guy Prochilo (@GuyProchilo) qui propose ce template :

Cliquez ici pour visualiser le tweet original

Et si vous souhaitez utiliser le logiciel G*Power cité dans le template, cliquez ici pour le télécharger gratuitement.

Il s’agit d’un logiciel développé par l’université de psychologie de Dusseldorf. L’interface est un peu old school, mais ça fonctionne très bien !

Je l’utilise souvent pour vérifier les calculs des projets de recherche biomédicale que j’examine dans le cadre du Comité de Protection des Personnes (je siège au CPP Sud Méditerranée II).

Je vous conseille de télécharger le manuel, il est très informatif.

Vous n’avez jamais rien compris au théorème de Bayes ?

Tout d’abord, sachez que vous n’êtes pas tout seul 😉! Et en plus, j’ai sans doute la solution : ce merveilleux article, extrêmement didactique, écrit par Sacha Schutz. Personnellement cela m’a beaucoup aidé !

Visualisation

Le package gghighlight pour améliorer vos visualisations

Le package gghighlight permet, très facilement (en ajoutant une couche sur une visualisation ggplot2), de mettre en avant certaines données (que vous définissez). Les données spécifiées sont alors en couleur vive (qui attire l’oeil) et les autres sont en gris.

Voici un petit exemple :

install.packages("gghighlight")
library(gghighlight)
library(ggplot2)

g1 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
    geom_point()+
    ggtitle("plot de base")

g2 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
    geom_point()+
    gghighlight(Species=="setosa")+
    ggtitle("mise en avant\n de l'espèce setosa")

g3 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
    geom_point()+
    gghighlight(Sepal.Length>7)+
    ggtitle("mise en avant des points\n ayant une longueur de sépale\n > 7 cm")

library(patchwork)
g1 /( g2 +g3)

Plus d’exemple sur cette vidéo ou sur la page d’aide de la fonction gghighlight()

Un grand merci à Sandrine Charles qui m’a indiqué ce package !

Logiciel R

Copier le workflow d’analyse de données de Frank Harrell

Frank Harrell a publié son workflow et les codes R qu’il utilise en routine pour réaliser les différentes étapes de l’analyse de données en recherche biomédicale, dans un livre interactif, consultable ici.

Là encore, je l’ai seulement parcouru, mais je le garde au chaud, au cas où. Ca vaudrait le coup de le regarder plus attentivement. Peut être cet été !

Une petite astuce pour parser des dates dans différents formats

J’ai repéré ça sur twitter :

J’ai reproduit, en plus simple, l’exemple du tweet, ci-dessus. Le vecteur date contient des dates sous différents formats, et en les spécifiant dans la fonction parse_date_time(), cela permet d’obtenir, en une commande, toutes les dates au format iso 8601 : YYYY-MM-DD.

library(lubridate)


dates=c("2020-01-01", "01-jan-2020", "15-mar-2020", "2020-03-15", "06/26/2022")
dates
## [1] "2020-01-01"  "01-jan-2020" "15-mar-2020" "2020-03-15"  "06/26/2022"
dates_clean = parse_date_time(dates, orders=c("ymd", "dmy", "mdy"))
dates_clean
## [1] "2020-01-01 UTC" "2020-01-20 UTC" "2020-03-15 UTC" "2020-03-15 UTC"
## [5] "2022-06-26 UTC"

Data science

Le package designer pour vous aider à construire vos applications shiny

Un peu comme le package esquisse qui permet de construire des graphiques ggplot2 à partir d’étiquettes que l’on place dans des boites et qui fournit le code ggplot2 correspondant, le package designer permet de construire une application shiny en ajoutant des éléments grâce à des menus déroulants, et d’obtenir le code correspondant !

Je n’ai pas encore essayé, mais je pense que ça peut être pas mal pour transformer rapidement un script d’analyse en application web ! Vous trouverez une démonstration ici .

Si vous l’essayez, dites-moi ce que vous en pensez.

Voilà, c’est tout pour cette fois !

Vous souhaitez soutenir mon travail ?

Si vous souhaitez soutenir mon travail, vous pouvez faire un don libre sur la page tipeee du blog :

DellaData

Transformez vos données en connaissances

News et découvertes – avril, mai, juin 2022

Table des matières