Mes formations
Programme : voir dans le bas de cette page, dans la section “Data analysis avec R” (menu à dérouler)
Tarif : 1 500 € HT (-10% dès 2 inscrits, -20% à partir de 3)
Data Value étant un organisme de formation Datadocké, cette formation peut être prise en charge jusqu’à 100 % par les opérateurs de compétences (OPCO) dans le cadre de la formation continue. La demande de prise en charge doit impérativement parvenir à l’OPCO AVANT le début de la formation.
Inscriptions : Le formulaire d’inscription peut être téléchargé en cliquant sur le lien ci-dessous, il doit être complété et adressé à Data Value : formation@datavalue.fr .
Pour toute question d’ordre administrative, veuillez contacter Data Value : formation@datavalue.fr .
Biostatistiques
But :
S’approprier les principes de base des statistiques : échantillons, fluctuations d’échantillonnage, estimations,
intervalles de confiance, paramètres descriptifs, hypothèses, risque alpha, p-value, puissance. Savoir décrire
des données, et réaliser les principaux tests statistiques de comparaisons et de liaison, à l’aide du logiciel R.
Prérequis :
Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R,
importation des données, utilisation simple de R en mode console, création de graphiques simples.
Programme
Bonnes pratiques pour la création d’un fichier de données :
- Format tidy
- Nommage des variables
- Gestion des dates
- Gestion des données manquantes
- Code book
- Format csv
Statistiques descriptives :
- Les différents types de variables
- Représentation graphique des distributions, unies et bivariées
- Mise en évidence des outliers par boxplots
- Les mesures de statistiques descriptives de position et de dispersion
- Les principales fonctions de description sous R
Estimation et intervalle de confiance
- Populations et échantillons
- Estimation, fluctuations d’échantillonnage et intervalle de confiance
- Intervalles de confiance d’une moyenne et d’une proportion
- Introduction au bootstrap
- Notions de biais
Les tests d’hypothèses
- Les hypothèses nulles et alternatives
- La statistique d’un test
- Règle de décision et risque alpha
- Conclusion du test
- La p-value
- Puissance et nombre d’unités expérimentales
Les tests de comparaison de moyennes (indépendantes)
- Les tests de Student, Welch et Wilcoxon
- Les conditions d’application
- Règles de choix du test d’application
ANOVA à un facteur
- Principe : décomposition de la variance
- Conditions d’application et vérification
- Présentation des résultats
- Comparaisons multiples
- Alternative non paramétrique : le test de Kruskal Wallis
Comparaison de proportions (indépendantes)
- Les test Z et du Chi2
- Conditions d’application
- Règles de choix du test
Comparaison de deux moyennes et de deux proportions appariées
- Test de Student et test de Wilcoxon apparié
- Test de Mac Nemar
Liaison entre deux variables quantitatives
- La régression linéaire simple
- La corrélation
- Le coefficient de détermination R2
ANOVA à deux facteurs
- Notion d’interaction
- Décomposition de la dispersion
- Conditions d’application et vérification
- Présentation des résultats
- Comparaisons multiples
La régression linéaire multiple
- Rappels de la régression linéaire simple
- Notion d’ajustement et principe
- Conditions d’application
- Sélection des variables
- Modèle parcimonieux
Modèles linéaires généralisés (GLM)
- Principe
- Notion de surdispersion
- Analyse de données de comptage : régression de poisson
- Analyse de données de binaires : régression logistique
- Analyse de données de proportion
ANOVA à un facteur sur mesures répétées
- Rappels sur l’ANOVA à un facteur
- Décomposition de la variance
- Conditions d’application
- Alternative non paramétrique : le test de Friedman
Modèles linéaires à effets mixtes (LMM)
- Introduction aux effets aléatoires
- Principe
- Conditions d’application
Utilisation de R et R Studio
Découverte de RStudio
- Téléchargement et installation
- Les fenêtre et outils de RStudio
- Installation des packages
- Réglage des options de R Studio
- Organiser son travail sous R Studio : projet R et architecture
Introduction à R
- Eléments pour débuter : prompt, assignation, objets, aide etc…
- Structure des données : vecteur, data.frame, listes, matrice, données numériques, facteurs
- Importation et exportation de fichiers
- Vérifications simples des données
- Bonnes pratiques pour la création de fichiers de données
Introduction à la manipulation de données avec le package tidyverse
- La notion de pipe %>%
- Subset de données par sélection de lignes et/ ou de colonnes
- Création de nouvelles variables
- Renommage des variables
- Gestion des niveaux de facteurs
- Calcul de paramètres descriptifs par sous-groupe : fonctions group_by() et summarise()
- Utilisation package stringr pour la manipulation de chaîne de caractères
- Utilisation du package forcats pour la manipulation des variables catégorielles
- Introduction à la manipulation des données de date et d’heure avec lubridate.
Description de données
- Fonctions utiles pour la description de données numériques
- Fonctions utiles pour la description de données catégorielles, création de table de contingence
Présentation de quelques packages incontournables
- Le package esquisse pour une data visualisation simplifiée
- ggplot2 pour une data visualisation performante
- Rmarkdown pour l’automatisation des rapports d’analyse
Introduction
- Histoire et évolution du langage
- Place de R Studio
- Positionnement de R dans la data-science
Découverte de R et R Studio
- Téléchargement et installation
- Les 4 fenêtres de l’interface R Studio
- Les différents outils de R Studio
- Installation des packages
- Réglage des options
- L’aide
Organiser son travail sous R
- Projet R
- Notion de working directory, workspace
- Architecture du projet R
- Scripts
Les bases du langage R
- Les types de données : numériques, facteurs, chaînes de caractères, booléens, dates, etc.
- L’assignation
- Les opérateurs
- Les fonctions mathématiques
Les différentes structures de données
- Les vecteurs: initialisation et manipulation
- Les data.frame : initialisation et manipulation
- Les listes : initialisation et manipulation
- Quelques fonctions utiles
Importation et Exportation de données
- Les différents formats de fichiers : csv, txt
- Utilisation de l’outil d’importation
- Quelques fonctions de vérification
- Exportation
- Importation de scripts
- Exportation du workspace
Description des données
- Fonctions decsriptives pour les variables numériques
- Fonctions descriptives pour les variables catégorielles
- Création de table de contingence
- Création de table de proportions
Visualisation des données
- Les fonctions graphique de base
- Le package esquisse
Les Fonctions
- Déclaration d’une fonction
- Arguments d’une fonction
- Appel d’une fonction
Les boucles
- Boucle for
- Boucle While
- Structures de contrôle if, ifelse
- Les fonctions apply
Comment trouver de l’aide
- L’aide en ligne
- La fonction apropos
- Le site bookdown
- La communauté R
- Les forums de développeurs
Mises à jour
- Mises à jour des packages
- Mise à jour de RStudio
- Mise à jour de R
Présentation de quelques packages incontournables
- dplyr pour la manipulation des données
- ggplot2 pour la réalisation de graphiques
- rmarkdown pour la génération de rapports dynamiques automatisés.
Data analysis avec R
Prochaine formation : R pour la data analyse (en partenariat avec Data Value) : 29/30/31 mars à Paris
Programme : voir ci-dessous.
Tarif : 1 500 € HT (-10% dès 2 inscrits, -20% à partir de 3)
Data Value étant un organisme de formation Datadocké, cette formation peut être prise en charge jusqu’à 100 % par les opérateurs de compétences (OPCO) dans le cadre de la formation continue. La demande de prise en charge doit impérativement parvenir à l’OPCO AVANT le début de la formation.
Inscriptions : Le formulaire d’inscription peut être téléchargé en cliquant sur le lien ci-dessous, il doit être complété et adressé à Data Value : formation@datavalue.fr .
Pour toute question d’ordre administrative, veuillez contacter Data Value : formation@datavalue.fr .
But : s’approprier les outils, et les méthodes permettant de rendre son processus d’analyse de données sous R,
aisé, reproductible, et performant.
Pré-requis : Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R,
importation des données, utilisation simple de R en mode console, création de graphiques simples.
Programme
Organiser son travail sous R
- Travailler en projet R : notion de working directory, workspace, history
- Architecture de son projet R : data, plots, images, scripts, etc..
- Bonnes pratiques pour la création de fichiers de données
- Importation et exportation de fichiers avec le package here
- Mettre à jour ses packages
- Mettre à jour R et R Studio
Manipuler facilement ses données avec le package dplyr
- Introduction au package tidyverse et à la notion de pipe
- Filtrer des lignes avec la fonction filter()
- Sélectionner des colonnes (variable) avec la fonction select()
- Création de nouvelles variables avec la fonction mutate()
- Renommer ses variables avec la fonction rename()
- Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
- Passage du format wide au format long
- Exercices
Manipulation des variables catégorielles avec le package forecats
- Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
- Modifier l’ordre des modalités
- Modifier le nom des modalités
- Exercices
Manipuler les chaînes de caractères avec le package stringr
- Détection de patterns
- Découpage
- Gestion des longueurs
- Remplacement
- Exercices
Manipuler des données de date : utilisation du package lubridate
- Convertir les données au format YYYY-MM-DD et HH:MM:SS
- Décomposer les éléments d’année, de mois et de jour
- Calculer des différences de dates et les exprimer en jours, ou heure
- Exercices
Assemblage de tables
- Les différentes jointures (par colonne): left join, right join, inner join et full join
- Assemblage par lignes
- Exemple d’applications pour l’analyse de données
- Exercices
Réaliser des représentations graphiques performantes avec le package ggplot2 (4h)
- Le principe des couches successives de ggplot2
- Réalisation des graphiques de base : scatterplot, barplots, line plot, boxplots
- Gestion des couleurs, titres, axes et légendes
- Représentation des séries temporelles
- Utilisation du format long et facetting
- Ajouter du texte sur un graphique (ex : équation)
- Exporter son graphique : format et résolution
- Utilisation des addins esquisse et Colour Picker
Générer dynamiquement son rapport d’analyse avec rmarkdown
- Principe, formats de sorties (html, docx, pdf)
- Les différents éléments d’un fichier Rmd : en-tête, chunk, etc. . .
- Gestion des éléments de texte : gras, italique, titre
- Gestion des tables
- Gestion des images
- Gestion des graphiques
- Gestion des options des éléments de code
- Gestion de la table des matières et numérotation
- Les rapports paramétrés : automatisation des rapports d’analyse par sous groupe
Introduction à la programmation fonctionnelle avec le package purrr
- Les lists
- Les fonctions map()
- Nested data
- Exercices
But:
- Connaître les principales fonctions de transformation, et de manipulation de tableaux de données, offertes par les packages dplyr et tidyr.
- Maitriser leur mise en oeuvre et savoir enchainer les instructions, à l’aide du pipe (%>%)
- Comprendre la cheatsheet des packages dplyr et tidyr pour trouver rapidement l’information nécessaire.
Prérequis :
Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.
Programme :
Manipuler ses données avec le package dplyr
- Introduction au package tidyverse et à la notion de pipe
- Filtrer des lignes avec la fonction filter()
- Sélectionner des colonnes (variable) avec la fonction select()
- Création de nouvelles variables avec la fonction mutate()
- Renommer ses variable avec la fonction rename()
- Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
- Passage du format wide au format long
Manipulation des variables catégorielles avec le package forecats
- Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
- Modifier l’ordre des modalités
- Modifier le nom des modalités
Manipuler les chaînes de caractères avec le package stringr
- Détection de patterns
- Découpage
- Gestion des longueurs
- Remplacement
Manipuler des données de date et de temps avec le package lubridate :
- Convertir les données au format YYYY-MM-DD et HH:MM:SS
- Décomposer les éléments d’année, de mois et de jour
- Calculer des différences de dates et les exprimer en jours, ou heure
Assemblage de tables
- Les différentes jointures (par colonne): left join, right join, inner join et full join
- Assemblage par lignes
Buts :
- Comprendre la structure d’un graphique ggplot2.
- Connaitre les fonctions associées aux principales couches.
- Maitriser les représentations graphiques les plus courantes (scatterplot, barplot, boxplot, lineplot).
- Comprendre la cheatsheet du package ggplot2, et savoir où trouver les informations nécessaires pour
réaliser des graphiques élégants.
Prérequis:
Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.
Programme:
Rappels sur l’organisation de son travail sous R
- Introduction au package ggplot2
- Principe des couches succesives
- Réaliser un scatterplot
- Réaliser un barplot
- Réaliser un boxplot
- Réaliser un lineplot
- Division en plusieurs fenêtres : le facet
- Utilisation du format long
- Gestion des couleurs
- Gestion des titres et des axes
- Gestion de la légende
- Ajouter du texte
- Employer différents thèmes
- Sauvegarde en haute résolution
- Cheat sheet et sources d’informations
Buts :
Prérequis :
Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.
Programme :
Introduction à R markdown
- Programmation lettré
- Crise de la reproductibilité
- Principe de R markdown
Script Rmarkdown
- Structure : en-tête, texte, chunk
- Formats de sortie : html, word, pdf
- Premier rapport dynamique : bouton knit
Gestion des éléments de texte
- Formatage : gras, italique, insertion de ligne
- Les listes : numérotées, non numérotées
- Les titres et leur numérotation
- La table des matières
Insertion d’éléments
- Les images
- Les tables
- Les liens hypertexte
- Les notes de bas de page
- Les équations
- Les références bibliographiques
Gestion du code R
- Options d’affichage du code
- Options d’affichage des sorties
- Les graphiques
- Les tables de données
- Les options par défaut
Amélioration des rendus simples
- Ajouter un modèle Word
- Options pour le pdf
- Les modèles html
Paramétrisation des scripts rmd (rapports répétés)
- Principe
- Exemples