La méthode des kmeans

visualisation des cluster du kmeans

La méthode des kmeans Quel que soit le domaine dans lequel on travaille, il peut être intéressant de savoir construire des groupes d’observations qui se ressemblent. On appelle cela des clusters. Il existe deux méthodes classiques pour réaliser des clusters : la méthode des kmeans, et celle du clustering hiérarchique. Dans cet article, nous allons nous intéresser à la […]

Introduction aux tests d’équivalence

Equivalence

Introduction aux tests d’équivalence Pré-requis Pour tirer pleinement profit de cet article d’introduction aux tests statistiques d’équivalence, il est nécessaire d’être familier avec le principe des tests statistiques, et notamment connaitre les notions d’hypothèses, de statistique du test, de risque alpha, de p-value, et de conclusion). Si cela n’est pas le cas, vous pourrez trouver […]

La régression logistique par l’exemple

tracé des battement du coeur

La régression logistique par l’exemple Prérequis Dans cet article, nous allons voir comment réaliser, en pratique, une régression logistique avec le logiciel R. Pour tirer pleinement profit de cet article, je vous recommande de lire l’article d’introduction à la régression logistique. Cliquez ici pour accéder à l’article d’introduction à la régression logistique Les données pour […]

Comment faire un CV élégant avec R et le package pagedown?

Comment faire un CV élégant avec R et le package pagedown ? Si, comme moi, vous être phobique du CV, et rien qu’à l’idée de devoir faire le votre, vous sombrez dans un état qui mêle angoisse, dépression et léthargie, cet article est absolument pour vous ! Il est absolument pour vous, parce que je vais […]

Comment faire un dashboard avec R ?

dashboard de suivi du coronavirus

Comment faire un dashboard avec R ? Les dashboards sont des outils graphiques employés pour résumer de l’information, de façon efficace et élégante. Je trouve par exemple que le dashboard réalisé par l’université de Johns Hopkins pour suivre l’évolution de l’épidémie de coronavirus est particulièrement réussi ! Est-ce que vous aussi, vous aimeriez pouvoir réaliser un dashboard pour communiquer vos résultats de […]

Introduction à la régression logistique

courbe sigmoide

Introduction à la régression logistique Prérequis Pour tirer pleinement profit ce cet article, il est nécessaire d’avoir quelques notions au sujet des Modèles Linéaires Généralisés (GLM). Si cela n’est pas le cas, je vous recommande la lecture de l’article “Introduction aux GLM” . Introduction La régression logistique est une approche statistique qui peut être employée pour évaluer et […]

Les équations en LaTeX pour Rmarkdown : même pas peur !

Mes papeur des équations Latex sous R markdown

Les équations en LaTeX pour Rmarkdown : même pas peur ! Si vous travaillez avec Rmarkdown, vous avez sans doute déjà été confronté au problème de l’insertion d’équations. Les fameuses équations en LaTeX ! Pour ceux qui ne connaissent pas, en voici un exemple : Ce qui donne le rendu suivant lorsque le document Rmarkdown est knitté (en html, word […]

Un petit hack pour éviter les conflits de packages sous R

solution au conflits de packages sous R

Un petit hack pour éviter les conflits de packages sous R Si vous utilisez le package dplyr pour manipuler vos données, vous avez sans doute déjà été confronté à des conflits de packages. Les conflits de packages, c’est quoi ? Personnellement, je rencontre régulièrement des conflits de packages lorsque je cherche à sélectionner certaines variables d’un jeu de données. Pour […]

Tutoriel : le test de Friedman

Tutoriel test de Friedman

Tutoriel : le test de Friedman Pour faire suite au tutoriel dédié à l’ANOVA sur mesures répétées, je vous propose un tutoriel sur son alternative non paramétrique : le test de Friedman ! Etant une alternative non paramétrique à l’ANOVA sur mesures répétées, le test de Friedman doit être employé lorsque l’hypothèse de normalité des résidus […]

Tutoriel : ANOVA sur mesures répétées

Tutoriel : ANOVA sur mesures répétées L’ANOVA paramétrique à un facteur est une approche statistique qui permet de comparer plus de deux moyennes. Mais, pour être valide, cette méthode doit satisfaire trois critères : indépendance des résidus (ou des données) normalité des résidus (ou des données) homogénéité des résidus (ou des données).  Lorsque l’hypothèse de normalité et/ou d’homogénéité n’est […]