biostats - DellaData

Régression à la moyenne

Régression à la moyenne Contexte du phénomène de régression à la moyenne La régression à la moyenne est un phénomène statistique que je trouve assez méconnu, et que personnellement, j’ai eu un peu de mal à cerner, parce que je ne comprenais pas dans quelles conditions ce mécanisme pouvait intervenir. En réalité, c’est assez simple […]

Carrés de type III et carrés de type II dans l’analyse de variance

Carrés de type III et carrés de type II dans l’analyse de variance L’analyse de la variance à deux facteurs est une approche statistique qui permet d’évaluer les effets de deux facteurs et de leur interaction sur une réponse quantitative continue. C’est une méthode qui est employée pour analyser les plans factoriels à deux facteurs. […]

Reporting automatique des analyses statistiques

Obtenir un reporting automatique des analyses statistiques Image par mohamed Hassan de Pixabay Depuis quelque temps, j’entends régulièrement parler du package easystat. C’est un « super » package qui contient plusieurs petits packages (un peu comme tidyverse), mais ici pour « apprivoiser, discipliner et exploiter les statistiques R effrayantes et leurs modèles embêtants » (ce sont les développeurs du […]

Démonstration du théorème central limite (TCL)

Illustration du théorème central limite (TCL) Introduction Le théorème central limite (TCL) est un théorème très important en biostatistique. Ce théorème nous dit que, quelle que soit la distribution d’une variable aléatoire X, la somme de cette variable (S(x)), et par extension, la moyenne (moy(x)), puisque la moyenne est une somme divisée par une constante), […]

Fluctuations d’échantillonnage et biais

Fluctuations d’échantillonnage et biais Je vous propose ici un court article pour illustrer, à travers un exemple simple, la différence entre fluctuations d’échantillonnage et biais. Fluctuations d’échantillonnage et erreurs aléatoires Imaginons que l’on souhaite connaître la taille réelle moyenne des garçons de 8 ans, en France. Autrement dit, la taille moyenne de la population constituée par […]

Calcul de la puissance et du nombre de sujets nécessaires

Calcul de la puissance et du nombre de sujets nécessaires Comme je l’expliquais dans l’article d’introduction à la puissance statistique, cette notion est généralement liée à la problématique du calcul du nombre d’unités expérimentales, ou nombre de sujets nécessaires. En effet, dans de nombreux domaines d’étude, notamment en recherche clinique ou en expérimentation animale, il n’est ni éthiquement, ni […]

Introduction à la puissance statistique

Introduction à la puissance statistique La problématique de la puissance statistique est généralement liée à celle du calcul du nombre d’unités expérimentales. Ce calcul du nombre d’unités expérimentales (patients, animaux, plantes, etc..) est une question centrale en recherche clinique ou en expérimentation animale, mais aussi dans de nombreux autres domaines d’études. En effet, l’inclusion d’un trop grand nombre, ou au contraire d’un nombre insuffisant est problématique, à minima financièrement, mais […]

Comment détecter les outliers avec R

Comment détecter les outliers avec R Table des matières C’est quoi un outlier ? Un outlier, ou donnée aberrante est « une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c’est-à-dire qu’elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé ou bien elle […]

Régression linéaire simple : le R2, info ou intox ?

Régression linéaire simple : le R2, info ou intox ? Le coefficient de détermination (ou R carré ou encore R2) est un paramètre qui est calculé, et fourni en sortie, par tous les logiciels de statistiques, lorsqu’une régression linéaire est réalisée. Pourtant, comprendre ce paramètre n’est pas évident. D’autant plus que certains l’utilisent à tour […]

Comparaisons multiples et ajustement des pvalues avec le logiciel R

Comparaisons multiples et ajustement des p-values avec le logiciel R Dans un article précédent, je parlais des comparaisons multiples qui sont réalisées après à une ANOVA significative, afin d’identifier les moyennes statistiquement différentes entre elles. Je disais que lorsque des comparaisons multiples sont réalisées, le risque de se tromper (en déclarant que deux moyennes sont différentes si en réalité, […]