Mes formations

Programme : voir dans le bas de cette page,  dans la section “Data analysis avec R” (menu à dérouler)

Tarif : 1 500 € HT (-10% dès 2 inscrits, -20% à partir de 3)

Data Value étant un organisme de formation Datadocké, cette formation peut être prise en charge jusqu’à 100 % par les opérateurs de compétences (OPCO) dans le cadre de la formation continue. La demande de prise en charge doit impérativement parvenir à l’OPCO AVANT le début de la formation.

Inscriptions : Le formulaire d’inscription peut être téléchargé en cliquant sur le lien ci-dessous, il doit être complété et adressé à Data Value : formation@datavalue.fr .

Pour toute question d’ordre administrative,  veuillez contacter  Data Value : formation@datavalue.fr .

Biostatistiques

But : 

S’approprier les principes de base des statistiques : échantillons, fluctuations d’échantillonnage, estimations,
intervalles de confiance, paramètres descriptifs, hypothèses, risque alpha, p-value, puissance. Savoir décrire
des données, et réaliser les principaux tests statistiques de comparaisons et de liaison, à l’aide du logiciel R.

Prérequis : 

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R,
importation des données, utilisation simple de R en mode console, création de graphiques simples.

Programme

Bonnes pratiques pour la création d’un fichier de données :

  • Format tidy
  • Nommage des variables
  • Gestion des dates
  • Gestion des données manquantes
  • Code book
  • Format csv

 

Statistiques descriptives :

  • Les différents types de variables
  • Représentation graphique des distributions, unies et bivariées
  • Mise en évidence des outliers par boxplots
  • Les mesures de statistiques descriptives de position et de dispersion
  • Les principales fonctions de description sous R

 

Estimation et intervalle de confiance

  • Populations et échantillons
  • Estimation, fluctuations d’échantillonnage et intervalle de confiance
  • Intervalles de confiance d’une moyenne et d’une proportion
  • Introduction au bootstrap
  • Notions de biais

 

Les tests d’hypothèses

  • Les hypothèses nulles et alternatives
  • La statistique d’un test
  • Règle de décision et risque alpha
  • Conclusion du test
  • La p-value
  • Puissance et nombre d’unités expérimentales

 

Les tests de comparaison de moyennes (indépendantes)

  • Les tests de Student, Welch et Wilcoxon
  • Les conditions d’application
  • Règles de choix du test d’application

 

ANOVA à un facteur

  • Principe : décomposition de la variance
  • Conditions d’application et vérification
  • Présentation des résultats
  • Comparaisons multiples
  • Alternative non paramétrique : le test de Kruskal Wallis

 

Comparaison de proportions (indépendantes)

  • Les test Z et du Chi2
  • Conditions d’application
  • Règles de choix du test

 

Comparaison de deux moyennes et de deux proportions appariées

  • Test de Student et test de Wilcoxon apparié
  • Test de Mac Nemar

 

Liaison entre deux variables quantitatives

  • La régression linéaire simple
  • La corrélation
  • Le coefficient de détermination R2

ANOVA à deux facteurs

  • Notion d’interaction
  • Décomposition de la dispersion
  • Conditions d’application et vérification
  • Présentation des résultats
  • Comparaisons multiples

 

La régression linéaire multiple

  • Rappels de la régression linéaire simple
  • Notion d’ajustement et principe
  • Conditions d’application
  • Sélection des variables
  • Modèle parcimonieux

 

Modèles linéaires généralisés (GLM)

  • Principe
  • Notion de surdispersion
  • Analyse de données de comptage : régression de poisson
  • Analyse de données de binaires : régression logistique
  • Analyse de données de proportion

 

ANOVA à un facteur sur mesures répétées

  • Rappels sur l’ANOVA à un facteur
  • Décomposition de la variance
  • Conditions d’application
  • Alternative non paramétrique : le test de Friedman

 

Modèles linéaires à effets mixtes (LMM)

  • Introduction aux effets aléatoires
  • Principe
  • Conditions d’application

Utilisation de R et R Studio

Découverte de RStudio

  • Téléchargement et installation
  • Les fenêtre et outils de RStudio
  • Installation des packages
  • Réglage des options de R Studio
  • Organiser son travail sous R Studio : projet R et architecture

 

Introduction à R

  • Eléments pour débuter : prompt, assignation, objets, aide etc…
  • Structure des données : vecteur, data.frame, listes, matrice, données numériques, facteurs
  • Importation et exportation de fichiers
  • Vérifications simples des données
  • Bonnes pratiques pour la création de fichiers de données

 

Introduction à la manipulation de données avec le package tidyverse

  • La notion de pipe %>%
  • Subset de données par sélection de lignes et/ ou de colonnes
  • Création de nouvelles variables
  • Renommage des variables
  • Gestion des niveaux de facteurs
  • Calcul de paramètres descriptifs par sous-groupe : fonctions group_by() et summarise()
  • Utilisation package stringr pour la manipulation de chaîne de caractères
  • Utilisation du package forcats pour la manipulation des variables catégorielles
  • Introduction à la manipulation des données de date et d’heure avec lubridate.

 

Description de données

  •  Fonctions utiles pour la description de données numériques
  • Fonctions utiles pour la description de données catégorielles, création de table de contingence

 

Présentation de quelques packages incontournables

  • Le package esquisse pour une data visualisation simplifiée
  • ggplot2 pour une data visualisation performante
  • Rmarkdown pour l’automatisation des rapports d’analyse

Introduction

  • Histoire et évolution du langage
  • Place de R Studio
  • Positionnement de R dans la data-science

 

Découverte de R et R Studio

  • Téléchargement et installation
  • Les 4 fenêtres de l’interface R Studio
  • Les différents outils de R Studio
  • Installation des packages
  • Réglage des options
  • L’aide

 

Organiser son travail sous R

  • Projet R
  • Notion de working directory, workspace
  • Architecture du projet R
  • Scripts

 

Les bases du langage R

  • Les types de données : numériques, facteurs, chaînes de caractères, booléens, dates, etc.
  • L’assignation
  • Les opérateurs
  • Les fonctions mathématiques

 

Les différentes structures de données

  • Les vecteurs: initialisation et manipulation
  • Les data.frame : initialisation et manipulation
  • Les listes : initialisation et manipulation
  • Quelques fonctions utiles

 

Importation et Exportation de données

  • Les différents formats de fichiers : csv, txt
  • Utilisation de l’outil d’importation
  • Quelques fonctions de vérification
  • Exportation
  • Importation de scripts
  • Exportation du workspace

 

Description des données

  • Fonctions decsriptives pour les variables numériques
  • Fonctions descriptives pour les variables catégorielles
  • Création de table de contingence
  • Création de table de proportions

 

Visualisation des données

  • Les fonctions graphique de base
  • Le package esquisse

 

Les Fonctions

  • Déclaration d’une fonction
  • Arguments d’une fonction
  • Appel d’une fonction

 

Les boucles

  • Boucle for
  • Boucle While
  • Structures de contrôle if, ifelse
  • Les fonctions apply

 

Comment trouver de l’aide

  • L’aide en ligne
  • La fonction apropos
  • Le site bookdown
  • La communauté R
  • Les forums de développeurs

 

Mises à jour

  • Mises à jour des packages
  • Mise à jour de RStudio
  • Mise à jour de R

 

Présentation de quelques packages incontournables

  • dplyr pour la manipulation des données
  • ggplot2 pour la réalisation de graphiques
  • rmarkdown pour la génération de rapports dynamiques automatisés.

Data analysis avec R

Prochaine formation : (en partenariat avec Data Value) : 29/30/31 mars à Paris

Programme : voir ci-dessous.

Tarif : 1 500 € HT (-10% dès 2 inscrits, -20% à partir de 3)

Data Value étant un organisme de formation Datadocké, cette formation peut être prise en charge jusqu’à 100 % par les opérateurs de compétences (OPCO) dans le cadre de la formation continue. La demande de prise en charge doit impérativement parvenir à l’OPCO AVANT le début de la formation.

Inscriptions : Le formulaire d’inscription peut être téléchargé en cliquant sur le lien ci-dessous, il doit être complété et adressé à Data Value : formation@datavalue.fr .

Pour toute question d’ordre administrative,  veuillez contacter  Data Value : formation@datavalue.fr .

But : s’approprier les outils, et les méthodes permettant de rendre son processus d’analyse de données sous R,
aisé, reproductible, et performant.

Pré-requis : Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R,
importation des données, utilisation simple de R en mode console, création de graphiques simples.

Programme

Organiser son travail sous R

  • Travailler en projet R : notion de working directory, workspace, history
  • Architecture de son projet R : data, plots, images, scripts, etc..
  • Bonnes pratiques pour la création de fichiers de données
  • Importation et exportation de fichiers avec le package here
  • Mettre à jour ses packages
  • Mettre à jour R et R Studio

 

Manipuler facilement ses données avec le package dplyr 

  • Introduction au package tidyverse et à la notion de pipe
  • Filtrer des lignes avec la fonction filter()
  • Sélectionner des colonnes (variable) avec la fonction select()
  • Création de nouvelles variables avec la fonction mutate()
  • Renommer ses variables avec la fonction rename()
  • Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
  • Passage du format wide au format long
  • Exercices

 

Manipulation des variables catégorielles avec le package forecats 

  • Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
  • Modifier l’ordre des modalités
  • Modifier le nom des modalités
  • Exercices

 

Manipuler les chaînes de caractères avec le package stringr 

  • Détection de patterns
  • Découpage
  • Gestion des longueurs
  • Remplacement
  • Exercices

 

Manipuler des données de date : utilisation du package lubridate 

  • Convertir les données au format YYYY-MM-DD et HH:MM:SS
  • Décomposer les éléments d’année, de mois et de jour
  • Calculer des différences de dates et les exprimer en jours, ou heure
  • Exercices

 

Assemblage de tables 

  • Les différentes jointures (par colonne): left join, right join, inner join et full join
  • Assemblage par lignes
  • Exemple d’applications pour l’analyse de données
  • Exercices

 

Réaliser des représentations graphiques performantes avec le package ggplot2 (4h)

  • Le principe des couches successives de ggplot2
  • Réalisation des graphiques de base : scatterplot, barplots, line plot, boxplots
  • Gestion des couleurs, titres, axes et légendes
  • Représentation des séries temporelles
  • Utilisation du format long et facetting
  • Ajouter du texte sur un graphique (ex : équation)
  • Exporter son graphique : format et résolution
  • Utilisation des addins esquisse et Colour Picker

 

Générer dynamiquement son rapport d’analyse avec rmarkdown 

  • Principe, formats de sorties (html, docx, pdf)
  • Les différents éléments d’un fichier Rmd : en-tête, chunk, etc. . .
  • Gestion des éléments de texte : gras, italique, titre
  • Gestion des tables
  • Gestion des images
  • Gestion des graphiques
  • Gestion des options des éléments de code
  • Gestion de la table des matières et numérotation
  • Les rapports paramétrés : automatisation des rapports d’analyse par sous groupe

 

Introduction à la programmation fonctionnelle avec le package purrr 

  • Les lists
  • Les fonctions map()
  • Nested data
  •  Exercices

But:

  • Connaître les principales fonctions de transformation, et de manipulation de tableaux de données, offertes par les packages dplyr et tidyr.
  • Maitriser leur mise en oeuvre et savoir enchainer les instructions, à l’aide du pipe (%>%)
  • Comprendre la cheatsheet des packages dplyr et tidyr pour trouver rapidement l’information nécessaire.

 

Prérequis :

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.

Programme :

Manipuler ses données avec le package dplyr

  • Introduction au package tidyverse et à la notion de pipe
  • Filtrer des lignes avec la fonction filter()
  • Sélectionner des colonnes (variable) avec la fonction select()
  • Création de nouvelles variables avec la fonction mutate()
  • Renommer ses variable avec la fonction rename()
  • Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
  • Passage du format wide au format long

 

Manipulation des variables catégorielles avec le package forecats 

  • Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
  • Modifier l’ordre des modalités
  • Modifier le nom des modalités

 

Manipuler les chaînes de caractères avec le package stringr 

  • Détection de patterns
  • Découpage
  • Gestion des longueurs
  • Remplacement

 

 Manipuler des données de date et de temps avec le package lubridate : 

  • Convertir les données au format YYYY-MM-DD et HH:MM:SS
  • Décomposer les éléments d’année, de mois et de jour
  • Calculer des différences de dates et les exprimer en jours, ou heure

 

Assemblage de tables 

  • Les différentes jointures (par colonne): left join, right join, inner join et full join
  • Assemblage par lignes

Buts : 

  • Comprendre la structure d’un graphique ggplot2.
  • Connaitre les fonctions associées aux principales couches.
  • Maitriser les représentations graphiques les plus courantes (scatterplot, barplot, boxplot, lineplot).
  • Comprendre la cheatsheet du package ggplot2, et savoir où trouver les informations nécessaires pour
    réaliser des graphiques élégants.

 

Prérequis: 

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console.

 

Programme:

Rappels sur l’organisation de son travail sous R

  • Introduction au package ggplot2
  • Principe des couches succesives
  • Réaliser un scatterplot
  • Réaliser un barplot
  • Réaliser un boxplot
  • Réaliser un lineplot
  • Division en plusieurs fenêtres : le facet
  • Utilisation du format long
  • Gestion des couleurs
  • Gestion des titres et des axes
  • Gestion de la légende
  • Ajouter du texte
  • Employer différents thèmes
  • Sauvegarde en haute résolution
  • Cheat sheet et sources d’informations

Buts :

Prérequis :

Le participant a des connaissances de base sur le logiciel R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.

Programme :

Introduction à R markdown

  • Programmation lettré
  • Crise de la reproductibilité
  • Principe de R markdown

 

Script Rmarkdown

  • Structure : en-tête, texte, chunk
  • Formats de sortie : html, word, pdf
  • Premier rapport dynamique : bouton knit

 

Gestion des éléments de texte

  • Formatage : gras, italique, insertion de ligne
  • Les listes : numérotées, non numérotées
  • Les titres et leur numérotation
  • La table des matières

 

Insertion d’éléments

  • Les images
  • Les tables
  • Les liens hypertexte
  • Les notes de bas de page
  • Les équations
  • Les références bibliographiques

 

Gestion du code R

  • Options d’affichage du code
  • Options d’affichage des sorties
  • Les graphiques
  • Les tables de données
  • Les options par défaut

 

Amélioration des rendus simples

  • Ajouter un modèle Word
  • Options pour le pdf
  • Les modèles html

 

Paramétrisation des scripts rmd (rapports répétés)

  • Principe
  • Exemples