Mes formations

Biostatistiques

But : 

S’approprier les principes de base des statistiques : échantillons, fluctuations d’échantillonnage, estimations,
intervalles de confiance, paramètres descriptifs, hypothèses, risque alpha, p-value, puissance. Savoir décrire
des données, et réaliser les principaux tests statistiques de comparaisons et de liaison, à l’aide du logiciel R.

Prérequis : 

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R,
importation des données, utilisation simple de R en mode console, création de graphiques simples.

Programme

Bonnes pratiques pour la création d’un fichier de données :

  • Format tidy
  • Nommage des variables
  • Gestion des dates
  • Gestion des données manquantes
  • Code book
  • Format csv

 

Statistiques descriptives :

  • Les différents types de variables
  • Représentation graphique des distributions, unies et bivariées
  • Mise en évidence des outliers par boxplots
  • Les mesures de statistiques descriptives de position et de dispersion
  • Les principales fonctions de description sous R

 

Estimation et intervalle de confiance

  • Populations et échantillons
  • Estimation, fluctuations d’échantillonnage et intervalle de confiance
  • Intervalles de confiance d’une moyenne et d’une proportion
  • Introduction au bootstrap
  • Notions de biais

 

Les tests d’hypothèses

  • Les hypothèses nulles et alternatives
  • La statistique d’un test
  • Règle de décision et risque alpha
  • Conclusion du test
  • La p-value
  • Puissance et nombre d’unités expérimentales

 

Les tests de comparaison de moyennes (indépendantes)

  • Les tests de Student, Welch et Wilcoxon
  • Les conditions d’application
  • Règles de choix du test d’application

 

ANOVA à un facteur

  • Principe : décomposition de la variance
  • Conditions d’application et vérification
  • Présentation des résultats
  • Comparaisons multiples
  • Alternative non paramétrique : le test de Kruskal Wallis

 

Comparaison de proportions (indépendantes)

  • Les test Z et du Chi2
  • Conditions d’application
  • Règles de choix du test

 

Comparaison de deux moyennes et de deux proportions appariées

  • Test de Student et test de Wilcoxon apparié
  • Test de Mac Nemar

 

Liaison entre deux variables quantitatives

  • La régression linéaire simple
  • La corrélation
  • Le coefficient de détermination R2

ANOVA à deux facteurs

  • Notion d’interaction
  • Décomposition de la dispersion
  • Conditions d’application et vérification
  • Présentation des résultats
  • Comparaisons multiples

 

La régression linéaire multiple

  • Rappels de la régression linéaire simple
  • Notion d’ajustement et principe
  • Conditions d’application
  • Sélection des variables
  • Modèle parcimonieux

 

Modèles linéaires généralisés (GLM)

  • Principe
  • Notion de surdispersion
  • Analyse de données de comptage : régression de poisson
  • Analyse de données de binaires : régression logistique
  • Analyse de données de proportion

 

ANOVA à un facteur sur mesures répétées

  • Rappels sur l’ANOVA à un facteur
  • Décomposition de la variance
  • Conditions d’application
  • Alternative non paramétrique : le test de Friedman

 

Modèles linéaires à effets mixtes (LMM)

  • Introduction aux effets aléatoires
  • Principe
  • Conditions d’application

Utilisation de R et R Studio

Découverte de RStudio

  • Téléchargement et installation
  • Les fenêtre et outils de RStudio
  • Installation des packages
  • Réglage des options de R Studio
  • Organiser son travail sous R Studio : projet R et architecture

 

Introduction à R

  • Eléments pour débuter : prompt, assignation, objets, aide etc…
  • Structure des données : vecteur, data.frame, listes, matrice, données numériques, facteurs
  • Importation et exportation de fichiers
  • Vérifications simples des données
  • Bonnes pratiques pour la création de fichiers de données

 

Introduction à la manipulation de données avec le package tidyverse

  • La notion de pipe %>%
  • Subset de données par sélection de lignes et/ ou de colonnes
  • Création de nouvelles variables
  • Renommage des variables
  • Gestion des niveaux de facteurs
  • Calcul de paramètres descriptifs par sous-groupe : fonctions group_by() et summarise()
  • Utilisation package stringr pour la manipulation de chaîne de caractères
  • Utilisation du package forcats pour la manipulation des variables catégorielles
  • Introduction à la manipulation des données de date et d’heure avec lubridate.

 

Description de données

  •  Fonctions utiles pour la description de données numériques
  • Fonctions utiles pour la description de données catégorielles, création de table de contingence

 

Présentation de quelques packages incontournables

  • Le package esquisse pour une data visualisation simplifiée
  • ggplot2 pour une data visualisation performante
  • Rmarkdown pour l’automatisation des rapports d’analyse

Introduction

  • Histoire et évolution du langage
  • Place de R Studio
  • Positionnement de R dans la data-science

 

Découverte de R et R Studio

  • Téléchargement et installation
  • Les 4 fenêtres de l’interface R Studio
  • Les différents outils de R Studio
  • Installation des packages
  • Réglage des options
  • L’aide

 

Organiser son travail sous R

  • Projet R
  • Notion de working directory, workspace
  • Architecture du projet R
  • Scripts

 

Les bases du langage R

  • Les types de données : numériques, facteurs, chaînes de caractères, booléens, dates, etc.
  • L’assignation
  • Les opérateurs
  • Les fonctions mathématiques

 

Les différentes structures de données

  • Les vecteurs: initialisation et manipulation
  • Les data.frame : initialisation et manipulation
  • Les listes : initialisation et manipulation
  • Quelques fonctions utiles

 

Importation et Exportation de données

  • Les différents formats de fichiers : csv, txt
  • Utilisation de l’outil d’importation
  • Quelques fonctions de vérification
  • Exportation
  • Importation de scripts
  • Exportation du workspace

 

Description des données

  • Fonctions decsriptives pour les variables numériques
  • Fonctions descriptives pour les variables catégorielles
  • Création de table de contingence
  • Création de table de proportions

 

Visualisation des données

  • Les fonctions graphique de base
  • Le package esquisse

 

Les Fonctions

  • Déclaration d’une fonction
  • Arguments d’une fonction
  • Appel d’une fonction

 

Les boucles

  • Boucle for
  • Boucle While
  • Structures de contrôle if, ifelse
  • Les fonctions apply

 

Comment trouver de l’aide

  • L’aide en ligne
  • La fonction apropos
  • Le site bookdown
  • La communauté R
  • Les forums de développeurs

 

Mises à jour

  • Mises à jour des packages
  • Mise à jour de RStudio
  • Mise à jour de R

 

Présentation de quelques packages incontournables

  • dplyr pour la manipulation des données
  • ggplot2 pour la réalisation de graphiques
  • rmarkdown pour la génération de rapports dynamiques automatisés.

Data analysis avec R (1 jour)

But:

  • Connaître les principales fonctions de transformation, et de manipulation de tableaux de données, offertes par les packages dplyr et tidyr.
  • Maitriser leur mise en oeuvre et savoir enchainer les instructions, à l’aide du pipe (%>%)
  • Comprendre la cheatsheet des packages dplyr et tidyr pour trouver rapidement l’information nécessaire.

 

Prérequis :

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.

Programme :

Manipuler ses données avec le package dplyr

  • Introduction au package tidyverse et à la notion de pipe
  • Filtrer des lignes avec la fonction filter()
  • Sélectionner des colonnes (variable) avec la fonction select()
  • Création de nouvelles variables avec la fonction mutate()
  • Renommer ses variable avec la fonction rename()
  • Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
  • Passage du format wide au format long

 

Manipulation des variables catégorielles avec le package forecats 

  • Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
  • Modifier l’ordre des modalités
  • Modifier le nom des modalités

 

Manipuler les chaînes de caractères avec le package stringr 

  • Détection de patterns
  • Découpage
  • Gestion des longueurs
  • Remplacement

 

 Manipuler des données de date et de temps avec le package lubridate : 

  • Convertir les données au format YYYY-MM-DD et HH:MM:SS
  • Décomposer les éléments d’année, de mois et de jour
  • Calculer des différences de dates et les exprimer en jours, ou heure

 

Assemblage de tables 

  • Les différentes jointures (par colonne): left join, right join, inner join et full join
  • Assemblage par lignes

Buts : 

  • Comprendre la structure d’un graphique ggplot2.
  • Connaitre les fonctions associées aux principales couches.
  • Maitriser les représentations graphiques les plus courantes (scatterplot, barplot, boxplot, lineplot).
  • Comprendre la cheatsheet du package ggplot2, et savoir où trouver les informations nécessaires pour
    réaliser des graphiques élégants.

 

Prérequis: 

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.

 

Programme:

Rappels sur l’organisation de son travail sous R

  • Introduction au package ggplot2
  • Principe des couches succesives
  • Réaliser un scatterplot
  • Réaliser un barplot
  • Réaliser un boxplot
  • Réaliser un lineplot
  • Division en plusieurs fenêtres : le facet
  • Utilisation du format long
  • Gestion des couleurs
  • Gestion des titres et des axes
  • Gestion de la légende
  • Ajouter du texte
  • Employer différents thèmes
  • Sauvegarde en haute résolution
  • Cheat sheet et sources d’informations

Buts :

Prérequis :

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.

Programme :

Introduction à R markdown

  • Programmation lettré
  • Crise de la reproductibilité
  • Principe de R markdown

 

Script Rmarkdown

  • Structure : en-tête, texte, chunk
  • Formats de sortie : html, word, pdf
  • Premier rapport dynamique : bouton knit

 

Gestion des éléments de texte

  • Formatage : gras, italique, insertion de ligne
  • Les listes : numérotées, non numérotées
  • Les titres et leur numérotation
  • La table des matières

 

Insertion d’éléments

  • Les images
  • Les tables
  • Les liens hypertexte
  • Les notes de bas de page
  • Les équations
  • Les références bibliographiques

 

Gestion du code R

  • Options d’affichage du code
  • Options d’affichage des sorties
  • Les graphiques
  • Les tables de données
  • Les options par défaut

 

Amélioration des rendus simples

  • Ajouter un modèle Word
  • Options pour le pdf
  • Les modèles html

 

Paramétrisation des scripts rmd (rapports répétés)

  • Principe
  • Exemples