Quoi de neuf dans le monde de R, et des biostats depuis le mois de mai ?
Plein choses !
Voici la récap de ce qui m’a particulièrement intéressé.
On commence avec une pépite ! Le livre i “Improving your statistical Inferences” de Daniël Lakens de l’Université d’Einhoven, gratuitement consultable en cliquant ICI.
Vous trouverez une présentation simple et didactique des principaux concepts statistiques, tels que la p-values, la vraisemblance, les effects size, les intervalles de confiances, etc… En général, les livres de biostats regorgent de formules, sans expliquer clairement les principes. Et bien là, c’est tout le contraire. J’ai tellement apprécié ce que j’ai lu, en le parcourant, que j’ai commencé sa lecture systématique, 15 min tous les matins. C’est toujours très intéressant pour moi de voir comment d’autres introduisent les différentes notions, les exemples utilisés, etc…
On le lit ensemble ?
C’est Guy Prochilo (@GuyProchilo) qui propose ce template :
Et si vous souhaitez utiliser le logiciel G*Power cité dans le template, cliquez ici pour le télécharger gratuitement.
Il s’agit d’un logiciel développé par l’université de psychologie de Dusseldorf. L’interface est un peu old school, mais ça fonctionne très bien !
Je l’utilise souvent pour vérifier les calculs des projets de recherche biomédicale que j’examine dans le cadre du Comité de Protection des Personnes (je siège au CPP Sud Méditerranée II).
Je vous conseille de télécharger le manuel, il est très informatif.
Tout d’abord, sachez que vous n’êtes pas tout seul 😉! Et en plus, j’ai sans doute la solution : ce merveilleux article, extrêmement didactique, écrit par Sacha Schutz. Personnellement cela m’a beaucoup aidé !
Le package gghighlight
permet, très facilement (en ajoutant une couche sur une visualisation ggplot2), de mettre en avant certaines données (que vous définissez). Les données spécifiées sont alors en couleur vive (qui attire l’oeil) et les autres sont en gris.
Voici un petit exemple :
install.packages("gghighlight")
library(gghighlight)
library(ggplot2)
g1 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
geom_point()+
ggtitle("plot de base")
g2 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
geom_point()+
gghighlight(Species=="setosa")+
ggtitle("mise en avant\n de l'espèce setosa")
g3 <- ggplot(iris, aes(x=Sepal.Width, y=Sepal.Length, colour=Species))+
geom_point()+
gghighlight(Sepal.Length>7)+
ggtitle("mise en avant des points\n ayant une longueur de sépale\n > 7 cm")
library(patchwork)
g1 /( g2 +g3)
Plus d’exemple sur cette vidéo ou sur la page d’aide de la fonction gghighlight()
Un grand merci à Sandrine Charles qui m’a indiqué ce package !
Frank Harrell a publié son workflow et les codes R qu’il utilise en routine pour réaliser les différentes étapes de l’analyse de données en recherche biomédicale, dans un livre interactif, consultable ici.
Là encore, je l’ai seulement parcouru, mais je le garde au chaud, au cas où. Ca vaudrait le coup de le regarder plus attentivement. Peut être cet été !
J’ai repéré ça sur twitter :
J’ai reproduit, en plus simple, l’exemple du tweet, ci-dessus. Le vecteur date
contient des dates sous différents formats, et en les spécifiant dans la fonction parse_date_time()
, cela permet d’obtenir, en une commande, toutes les dates au format iso 8601 : YYYY-MM-DD.
library(lubridate)
dates=c("2020-01-01", "01-jan-2020", "15-mar-2020", "2020-03-15", "06/26/2022")
dates
## [1] "2020-01-01" "01-jan-2020" "15-mar-2020" "2020-03-15" "06/26/2022"
dates_clean = parse_date_time(dates, orders=c("ymd", "dmy", "mdy"))
dates_clean
## [1] "2020-01-01 UTC" "2020-01-20 UTC" "2020-03-15 UTC" "2020-03-15 UTC"
## [5] "2022-06-26 UTC"
Un peu comme le package esquisse
qui permet de construire des graphiques ggplot2 à partir d’étiquettes que l’on place dans des boites et qui fournit le code ggplot2 correspondant, le package designer
permet de construire une application shiny en ajoutant des éléments grâce à des menus déroulants, et d’obtenir le code correspondant !
Je n’ai pas encore essayé, mais je pense que ça peut être pas mal pour transformer rapidement un script d’analyse en application web ! Vous trouverez une démonstration ici .
Si vous l’essayez, dites-moi ce que vous en pensez.
Voilà, c’est tout pour cette fois !
Si vous souhaitez soutenir mon travail, vous pouvez faire un don libre sur la page tipeee du blog :
Enregistrez vous pour recevoir gratuitement mes fiches “aide mémoire” (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.