© 2025 Tous droits réservés
Dans cet article, je vous propose une traduction du glossaire des termes statistiques publiés ici https://hbiostat.org/glossary/ par Frank Harrel , un statisticien de renom et professeur à l’Université Vanderbilt. Il est particulièrement reconnu pour ses travaux en statistiques biomédicales et son ouvrage “Regression Modeling Strategies”.
Vous pourrez retrouver son blog ici https://www.fharrell.com/
Face à la complexité de la terminologie statistique, j’ai pensé qu’un peu de “francisation” pourrait rendre certains concepts plus accessibles.
Si, en parcourant ce glossaire, vous pensez à des termes qui mériteraient d’être ajoutés ou si vous avez des suggestions de définitions plus précises, n’hésitez pas à les partager en commentaire. Vos contributions sont précieuses et aideront notre communauté à s’enrichir et à progresser ensemble.
Ajustement ou contrôle d’une variable (adjusting or controlling for a variable*) : Évaluer l’effet d’une variable tout en tenant compte de l’effet d’une autre variable (confusionnelle). L’ajustement pour l’autre variable peut être effectué en stratifiant l’analyse (en particulier si la variable est catégorielle) ou en estimant statistiquement la relation entre la variable et le résultat, puis en soustrayant cet effet pour étudier les effets “restants”. Par exemple, dans une étude non randomisée comparant les effets des traitements A et B sur la réduction de la pression artérielle, l’âge des patients peut avoir été utilisé pour sélectionner le traitement. Dans ce cas, il serait souhaitable de contrôler l’effet de l’âge avant d’estimer l’effet du traitement. Ceci peut être fait en utilisant un modèle de régression avec la pression artérielle comme variable dépendante et le traitement et l’âge comme variables indépendantes (en contrôlant l’âge par soustraction) ou de manière grossière et approximative (avec une certaine confusion résiduelle) en stratifiant par déciles d’âge et en faisant la moyenne des effets du traitement estimés dans les déciles. L’ajustement permet d’obtenir des rapports de cotes ajustés, des rapports de risque ajustés, des pentes ajustées, etc.
Aléatoire (randomness) : Absence de modèle systématique. On peut vouloir examiner si le niveau d’une hormone varie systématiquement au cours de la journée au lieu d’avoir un schéma aléatoire, ou si des événements tels que des crises d’épilepsie ont tendance à se regrouper ou à se produire de manière aléatoire dans le temps. Parfois, les résidus d’un modèle de régression ordinaire sont tracés en fonction de l’ordre dans lequel les sujets ont été accumulés pour s’assurer que le modèle est aléatoire (par exemple, il n’y a pas eu de tendance à l’apprentissage pour les enquêteurs).
Amplification du risque (risk magnification) : Un traitement, même s’il n’y a pas d’interactions avec les covariables de base, qui a un effet non nul sur une échelle relative, doit nécessairement avoir des effets absolus différents. La variation des différences absolues est l’amplification du risque due au risque de base. Les sujets dont le risque de base est proche de 0 ou de 1 n’ont nulle part où aller ; les différences de risque absolu sont moins restreintes au milieu de la distribution du risque de base. Les traitements présentent un avantage absolu plus important pour les patients les plus malades, jusqu’à un certain point, même si leurs effets relatifs sont universels.
Analyse de survie (survival analysis): L’analyse de survie est une branche de la statistique qui traite de l’analyse du temps écoulé jusqu’à un événement tel que le décès. L’analyse de survie se distingue par l’importance qu’elle accorde à l’estimation de l’évolution temporelle des événements et à la gestion de la censure. Voir modèle de Cox.
ANCOVA :
L’analyse de la covariance est simplement une régression multiple (c’est-à-dire un modèle linéaire) où une variable est d’un intérêt majeur et est catégorielle (par exemple, le groupe de traitement). Dans l’ANCOVA classique, il y a une variable de traitement et une covariable continue utilisée pour réduire la variation inexpliquée de la variable dépendante, augmentant ainsi la puissance.
ANOVA : L’analyse de la variance fait généralement référence à une analyse d’une variable dépendante continue où toutes les variables prédictives sont catégorielles. L’ANOVA à un facteur (one-way ANOVA), où il n’y a qu’une seule variable prédictive (facteur ; variable de regroupement), est une généralisation du test t à deux échantillons. L’ANOVA avec deux groupes est identique au test t. L’ANOVA à deux facteurs (two-way ANOVA) se réfère à deux variables prédictives, et si les deux sont autorisées à interagir dans le modèle, l’ANOVA à deux facteurs implique une classification croisée des observations simultanément par les deux facteurs. Il n’est pas approprié de se référer à des mesures répétées au sein des sujets en tant qu’ANOVA à deux facteurs (par exemple, traitement × temps). Une tableANOVA fait parfois référence à des statistiques pour des modèles plus complexes, où la variation expliquée des effets partiels et totaux est affichée et où des variables continues peuvent être incluses.
Biais (bias): Une erreur systématique. Exemples : une machine mal calibrée qui indique un taux de cholestérol trop élevé de 20 mg% en moyenne ; un questionnaire de satisfaction qui conduit les patients à ne jamais déclarer qu’ils sont insatisfaits de leurs soins médicaux ; l’utilisation de la tension artérielle la plus basse de chaque patient sur une période de 24 heures pour décrire les propriétés antihypertensives d’un médicament. Le biais est généralement lié à l’écart entre la moyenne de nombreuses estimations obtenues par échantillonnage répété et la valeur réelle d’un paramètre. Par conséquent, le biais est davantage lié aux statistiques fréquentistes qu’aux statistiques bayésiennes.
Big data – données volumineuses : Un ensemble de données trop volumineux pour tenir sur un ordinateur de bureau ordinaire.
Bootstrap : Technique de simulation permettant d’étudier les propriétés des statistiques sans avoir besoin de disposer d’une population infinie. L’utilisation la plus courante du bootstrap consiste à prélever des échantillons aléatoires (avec remplacement) dans l’ensemble de données original et à étudier la variation d’une certaine quantité d’intérêt. Chaque échantillon aléatoire comporte le même nombre d’observations que l’ensemble de données original. Certains des sujets originaux peuvent être omis de l’échantillon aléatoire et d’autres peuvent être échantillonnés plus d’une fois. Le bootstrap peut être utilisé pour calculer les écarts types et les limites de confiance (limites de compatibilité) sans supposer l’existence d’un modèle. Par exemple, si l’on prélève 200 échantillons avec remplacement dans l’ensemble de données original, que l’on calcule la médiane de l’échantillon à partir de chaque échantillon et que l’on calcule ensuite l’écart-type de l’échantillon des 200 médianes, le résultat sera une bonne estimation du véritable écart-type de la médiane de l’échantillon original. Le bootstrap peut également être utilisé pour valider en interne un modèle prédictif sans conserver les données des patients pendant le développement du modèle.
Censure (censoring):Lorsque la variable réponse est le temps écoulé avant un événement, les sujets qui n’ont pas été suivis suffisamment longtemps pour que l’événement se soit produit voient leur temps d’événement censuré au moment du dernier suivi. Ce type de censure est une censure à droite. Par exemple, dans une étude de suivi, les patients entrant dans l’étude au cours de la dernière année seront suivis pendant un an au maximum, de sorte que leur temps jusqu’à l’événement sera censuré à un an ou moins. La censure à gauche signifie que l’on sait que le temps jusqu’à l’événement est inférieur à une certaine valeur. Dans la censure par intervalle, on sait que le temps est compris dans un intervalle spécifié. La plupart des analyses statistiques supposent que la cause de la censure d’un sujet est indépendante de la cause de la survenue d’un événement. Si ce n’est pas le cas, on parle de censure informative. Par exemple, si un sujet est retiré d’un médicament en raison d’un échec thérapeutique, le temps de censure reflète indirectement un mauvais résultat clinique et l’analyse qui en résulte sera biaisée.
Classification et classificateur (classification and classifier) : Lorsque l’on considère les modèles d’association entre les entrées et les résultats catégoriels, la classification consiste à attribuer un résultat prédit sur la base de toutes les entrées. Un classificateur est un algorithme développé pour la classification. La classification est un choix forcé et le résultat n’est pas une probabilité. Elle peut être considérée comme une décision prématurée ou une décision basée sur l’optimisation d’une fonction d’utilité/perte/coût implicite ou explicite. Lorsque la fonction d’utilité n’est pas spécifiée par l’utilisateur final, la classification peut ne pas être compatible avec une bonne prise de décision. La classification ne tient pas compte des cas particuliers. La régression logistique est souvent considérée à tort comme un classificateur ; il s’agit d’un estimateur de probabilité direct. Le terme de classification est souvent utilisé à tort lorsque la variable de résultat est catégorielle (c’est-à-dire qu’elle représente des classes) et qu’un estimateur de probabilité est utilisé pour analyser les données afin de faire des prédictions de probabilité. Le terme correct pour cette situation est prédiction.
Conditionnement (conditioning): Conditionner quelque chose signifie supposer que cette chose est vraie ou, en termes plus statistiques, fixer sa valeur à une certaine constante ou supposer qu’elle appartient à un certain ensemble de valeurs. Nous pourrions dire que la pression artérielle systolique moyenne conditionnée par le fait que la personne soit de sexe féminin est de 125 mmHg, ce qui se traduit de manière concise par “chez les femmes, la pression artérielle systolique moyenne est de 125 mmHg”. Les énoncés de conditionnement sont des énoncés de type “si”. La notation utilisée pour le conditionnement dans les statistiques consiste à placer la condition qualifiante après une barre verticale. Voir marginalisation.
Comparaisons multiples (multiple comparisons): Il est fréquent qu’une étude implique le calcul de plusieurs p-values. Par exemple, l’investigateur peut souhaiter tester les effets du traitement dans trois groupes définis par l’étiologie de la maladie. Par exemple, l’investigateur peut souhaiter tester les effets du traitement dans 3 groupes définis par l’étiologie de la maladie, il peut tester les effets sur 4 variables différentes de réponse du patient, ou il peut rechercher une différence significative dans la pression artérielle à chacune des 24 mesures horaires. Lorsque plusieurs tests statistiques sont effectués, le risque qu’au moins l’un d’entre eux aboutisse à l’affirmation d’un effet alors qu’il n’y en a pas augmente avec le nombre de tests. C’est ce qu’on appelle “l’inflation de la probabilité d’affirmation de type I α”. Lorsque l’on souhaite contrôler la probabilité globale de type I, les tests individuels peuvent être effectués en utilisant un niveau α plus strict, ou les p-values individuelles peuvent être ajustées à la hausse. Ces ajustements sont généralement dictés par l’utilisation de statistiques fréquentistes, car les p-values représentent la probabilité d’obtenir un résultat aussi impressionnant s’il n’y a pas vraiment d’effet, et “aussi impressionnant” peut signifier “aussi impressionnant compte tenu du grand nombre de statistiques examinées”. Les comparaisons multiples et l’inflation de la probabilité de type I qui en découle sont uniquement le résultat des chances qu’un fréquentiste donne aux données d’être plus extrêmes. Dans l’inférence bayésienne, on traite des chances (préalables) que les vrais effets multiples inconnus soient importants, et la multiplicité en soi ne s’applique pas.
Cote (odds) : La probabilité qu’un événement se produise divisée par la probabilité qu’il ne se produise pas. Un événement qui se produit 0,90 fois a 9 chances sur 1 de se produire puisque
Courbe ROC (ROC curve): Lorsqu’un marqueur ordinal ou continu est utilisé pour diagnostiquer une maladie binaire, une courbe ROC (receiver operating characteristic) peut être tracée pour étudier la capacité de discrimination du marqueur. La courbe ROC est une représentation graphique de la sensibilité par rapport à la spécificité moins un de toutes les dichotomisations possibles du marqueur, en fonction de la variation des points de coupure. L’un des principaux problèmes de la courbe ROC est qu’elle incite le chercheur à publier des seuils pour classer de manière quelque peu arbitraire les patients en “malades” et “normaux”. En fait, lorsque l’analyse diagnostique est basée sur une étude de cohorte, la valeur du marqueur peut être convertie en une probabilité de maladie après le test, ce qui permet à différents médecins d’utiliser différents seuils lorsque le besoin s’en fait sentir (par exemple, en fonction des ressources disponibles). Un autre avantage de cette dernière approche est que la probabilité actuelle de la maladie définit également la probabilité d’une erreur. Par exemple, si un médecin décide de ne pas traiter lorsque la probabilité de la maladie est de 0,04, la probabilité de faux négatif est de 0,04. La surface sous la courbe ROC est une façon de résumer la discrimination diagnostique. Cette surface est identique à une autre mesure de discrimination plus intuitive et plus facile à calculer, à savoir la probabilité que, dans une paire de patients choisis au hasard, l’un avec et l’autre sans maladie, celui qui est atteint de la maladie soit celui dont la valeur du marqueur ou de la probabilité post-test est la plus élevée. Cette probabilité est également appelée probabilité de concordance entre les états pathologiques prédits et observés. Indice de corrélation de rang fréquemment utilisé, le Dxy de Somers est égal à 2 × (c – 1 ), où c est la probabilité de concordance (discrimination). Il est important de noter que les courbes ROC ne jouent aucun rôle dans la prise de décision formelle, car elles ignorent la fonction d’utilité (coût ; perte) ou le coût des faux positifs et des faux négatifs.
Covariable (covariate) : Voir prédicteur
Degrés de liberté (degree of freedom) : Le nombre de degrés de liberté (ddl ou df en andlais) a des significations quelque peu différentes selon le contexte. En général, le ddl est le nombre de paramètres “flottants” ou le nombre de possibilités offertes à un estimateur statistique ou à une méthode. Pour une variable continue Y , il existe deux types de ddl : le ddl du numérateur et le ddl du dénominateur. Le ddl du dénominateur est également appelée ddl d’erreur et correspond à la taille de l’échantillon moins le nombre de paramètres à estimer. C’est le dénominateur d’un estimateur de variance. Le ddl du numérateur est plus en phase avec les opportunités et correspond au nombre de paramètres actuellement pris en compte/testés. Par exemple, dans un test “bloc” visant à vérifier si la taille ou le poids est associé à la pression artérielle, le test a 2 ddl si l’on suppose la linéarité et l’absence d’interaction. Dans une ANOVA traditionnelle comparant 4 groupes, les comparaisons ont 3 ddl parce que 3 différences impliquant les 4 moyennes ou combinaisons de moyennes définiront de manière unique toutes les différences possibles dans les 4. On peut dire que le ddl pour une hypothèse est le nombre de possibilités que l’on donne aux associations d’être présentes (relations non plates), ce qui est le même que le nombre de restrictions que l’on doit placer sur les paramètres pour que l’hypothèse nulle d’absence d’association (relations plates) tienne. Voir également degrés de liberté effectifs.
Degrés de liberté effectifs (effective degrees of freedom): Lorsqu’un modèle est entièrement pré-spécifié et que les paramètres du modèle sont entièrement identifiés, les degrés de liberté effectifs pour l’ensemble du modèle ou pour un prédicteur dans le modèle sont les degrés de liberté habituels, c’est-à-dire le nombre de paramètres impliqués. Lorsqu’une analyse informelle, telle que l’inspection visuelle des relations, est impliquée et que cette analyse informelle est utilisée pour réduire le nombre de paramètres consacrés à une variable, les degrés de liberté effectifs (dle ou edf en anglais) seront plus importants que les ddl apparents dans l’analyse formelle. Le dle le plus grand est le nombre tel que lorsque des intervalles de confiance sont calculés ou que des tests d’hypothèse sont effectués, l’insertion de dle dans les formules habituelles aboutira à une couverture de confiance ou à des valeurs de p-value exactes parce que l’incertitude du modèle est prise en compte. Le dle entre également en jeu lorsque la pénalisation (shrinkage) est utilisée dans l’estimation des coefficients de régression. Le rétrécissement consiste à réduire les effets apparents des prédicteurs en rapprochant leurs coefficients de zéro. Cela rend le dle plus petit que le dddl apparent (nombre de paramètres). Dans ce cas, le dle est le nombre tel que certaines variances réelles (plus petites, en raison de la pénalisation) sont approximées en abaissant le ddl à le dle dans certaines formules. Une autre façon de voir les choses est qu’un rapport de vraisemblance χ2 statistique calculé pour le modèle après rétrécissement aura approximativement dle degrés de liberté. Voir également degrés de liberté.
Différence détectable (detectable difference): La valeur d’un véritable effet de traitement de la population (différence entre deux traitements) qui, si elle était maintenue, permettrait à un test statistique d’avoir exactement la puissance souhaitée. Si la différence détectable est supérieure à la différence minimale cliniquement importante, un essai clinique peut très bien ne pas détecter une différence cliniquement importante.
Différence minimale cliniquement importante (DMCI) (*minimum clinically important difference, MCID) : A ne pas confondre avec la différence détectable, la DMCI est une cible appropriée pour le calcul de la puissance, c’est-à-dire qu’une étude peut être dimensionnée de manière à ce que la puissance de détection de la DMCI soit raisonnable (disons 0,9). Dans les essais cliniques randomisés, la DICM est l’effet du traitement qui serait significatif pour les patients, c’est-à-dire l’effet que l’on ne voudrait pas manquer. La DICM ne doit jamais être dérivée des résultats observés, mais doit toujours être dérivée de l’expertise clinique et de ce que les patients jugent important.
Il est tragique de constater que, pour des raisons de budget ou de temps, de nombreux essais cliniques sont conçus pour détecter un effet supérieur à la MCID, ce qui a souvent pour conséquence de passer à côté de véritables effets cliniques.
Différence moyenne de Gini (Gini’s mean difference): Une mesure de la variabilité (dispersion) qui est beaucoup plus facile à interpréter que l’écart-type et plus robuste aux valeurs aberrantes, et qui s’applique également aux distributions non symétriques. Il s’agit de la différence absolue moyenne entre toutes les paires d’observations possibles. Il existe une formule de calcul rapide pour l’indice, qui est très efficace d’un point de vue statistique.
Discrimination (discrimination): La capacité de discrimination d’une variable ou d’un modèle est sa capacité à séparer les sujets ayant des réponses faibles des sujets ayant des réponses élevées. La surface de la courbe ROC est un moyen de quantifier la discrimination.
Distribution gaussienne (gaussian distribution) : Voir distribution normale.
Distribution normale (normal distribution) : Une distribution symétrique, en forme de cloche, qui est la plus utile pour approximer la distribution des estimateurs statistiques. Également appelée distribution gaussienne. La distribution normale ne permet pas d’approcher la distribution des données brutes. La forme en cloche de la distribution normale suit une équation mathématique rigide de la forme Pour une distribution normale, la probabilité qu’une mesure se situe à ±1,96 écart-type de la moyenne est de 0,95.
Distribution symétrique (symetric distribution): Une distribution dans laquelle les valeurs situées à gauche de la moyenne, dans une certaine mesure, ont autant de chances d’être observées que les valeurs situées à droite de la moyenne, dans la même mesure. Pour les distributions symétriques, la moyenne et la médiane de la population sont identiques et la distance entre les 25e et 50e centiles est égale à la distance entre les 50e et 75e centiles.
Données appariées (paired datas): Lorsque chaque sujet dispose de deux mesures de réponse, les données sont naturellement appariées et les deux réponses sont corrélées. La corrélation résulte du fait qu’il y a généralement plus de variation entre les sujets qu’il n’y en a à l’intérieur d’un même sujet. On peut parfois prendre la différence ou le rapport logarithmique des deux réponses pour chaque sujet, puis analyser ces “mesures d’effet” à l’aide d’une approche à un échantillon non apparié telle que le test de rang signé de Wilcoxon ou le test t apparié. Il faut veiller à ce que la mesure de l’effet soit correctement choisie afin qu’elle soit indépendante de la valeur de base.
Données longitudinales ou sérielles (longitudinal or serial data) : une variable de réponse mesurée à plus d’un moment après le temps zéro sur un sujet. L’analyse peut tenir compte des covariables de base ou comporter des covariables actualisées en fonction du temps.
Ecart-type (standard deviation) : Mesure de la variabilité (dispersion) des mesures entre les sujets. L’écart-type n’a une interprétation simple que si la distribution des données est gaussienne (normale) et, dans ce cas restrictif, la moyenne ±1,96 écart-type devrait couvrir 0,95 de la distribution de la mesure. L’écart-type est la racine carrée de la variance. Il ne s’applique pas très bien aux distributions asymétriques (asymétriques) et n’est pas robuste aux valeurs aberrantes.
Echantillon aléatoire (random sample): Un échantillon sélectionné par un dispositif aléatoire qui garantit que l’échantillon (s’il est suffisamment grand) est représentatif du groupe infini. Un échantillon probabiliste est un type d’échantillon aléatoire dans lequel chaque sujet possible a une probabilité connue d’être échantillonné, mais les probabilités peuvent varier. Par exemple, on peut souhaiter sur-échantillonner les Afro-Américains dans une étude pour assurer une bonne représentation. Dans ce cas, on peut échantillonner les Afro-Américains avec une probabilité de 1,0 et les autres avec une probabilité de 0,5.
Effet Hawthorne (Hawthorne effect) : Un changement dans la réponse d’un sujet qui résulte du fait que le sujet sait qu’il est observé.
Ensemble de risques (risk set) : L’ensemble des patients participant à l’étude à un moment donné (Bull & Spiegelhalter, 1997).
Erreur aléatoire (random error): Erreur causée par l’échantillonnage d’un groupe plutôt que par la connaissance de la valeur réelle d’une quantité telle que la pression artérielle moyenne pour l’ensemble du groupe, par exemple des hommes en bonne santé âgés de plus de 80 ans. On peut également parler d’erreurs aléatoires dans des mesures uniques pour des sujets individuels, par exemple l’erreur consistant à utiliser une mesure unique de la pression artérielle pour représenter la pression artérielle à long terme d’un sujet.
Erreur standard (standard error) : L’écart-type d’un estimateur statistique. Par exemple, l’écart-type d’une moyenne est appelé erreur-type de la moyenne et est égal à l’écart-type des mesures individuelles divisé par la racine carrée de la taille de l’échantillon. Les erreurs standard décrivent la précision d’un résumé statistique, et non la variabilité entre les sujets. Les erreurs standard deviennent nulles lorsque la taille de l’échantillon → ∞.
Essai contrôlé randomisé (randomized controlled trial): voir essai clinique
Estimand : Un paramètre statistique inconnu ou une fonction de plusieurs paramètres qui est considéré comme une cible d’intérêt dans une étude. Les exemples incluent les différences de traitement dans des moyennes ou médianes inconnues, les différences de risque spécifiques à une covariable, les différences de risque moyen par rapport à une distribution de covariables donnée, les différences d’incidence cumulative d’un événement à un moment donné, un rapport de risque, et les différences de temps moyen dans les états 6 à 10 dans un modèle de transition à 10 états. Dans les essais cliniques, il est souhaitable que l’estimand soit cliniquement pertinent.
Estimateur (estimator) : Une formule statistique qui transforme les données en une estimation d’un paramètre inconnu.
Estimateur de Kaplan-Meier (Kaplan-Meier estimator) : Un estimateur non paramétrique (sans distribution) de la fonction de survie (Kaplan & Meier (1958)) utilisé pour estimer la probabilité d’être exempt d’un événement (ou de l’un des types d’événements possibles) au moment t pour t allant de zéro à la fin du suivi. L’estimateur utilise des informations partielles lorsque le temps de suivi est censuré pour certains sujets. Pour ce faire, les dénominateurs diminuent à mesure que le temps de suivi t augmente, les dénominateurs représentant le nombre de sujets toujours exposés au risque de l’événement considéré et toujours suivis au moins jusqu’à t. L’estimateur repose sur les hypothèses suivantes : l’échantillon est homogène (chaque sujet a la même courbe de survie) et la censure est indépendante du risque imminent de l’événement. L’estimateur de Kaplan-Meier est un estimateur d’incidence cumulative.
Une violation de l’hypothèse de censure indépendante serait le retrait d’une patiente du suivi si son état s’aggrave.
Estimation (estimate): Une estimation statistique d’un paramètre basée sur les données. Voir paramètre. Les exemples incluent la moyenne de l’échantillon, la médiane de l’échantillon et les coefficients de régression estimés.
Estimation des moindres carrés (least square estimate): La valeur d’un coefficient de régression qui aboutit à la somme minimale des erreurs quadratiques, une erreur étant définie comme la différence entre une valeur observée et une valeur prédite de la variable dépendante.
Estimation du maximum de vraisemblance (maximum likelihood estimate) : Estimation d’un paramètre statistique (tel qu’un coefficient de régression, une moyenne, une variance ou un écart-type) qui correspond à la valeur de ce paramètre qui rend les données les plus susceptibles d’avoir été observées. Les EMV ont d’excellentes propriétés statistiques en général, telles que la convergence vers les valeurs de la population à mesure que la taille de l’échantillon augmente, et la meilleure précision parmi tous les estimateurs concurrents, lorsque le modèle statistique est correctement spécifié. Lorsque les données sont normalement distribuées, les estimations des coefficients de régression et des moyennes par le maximum de vraisemblance sont équivalentes aux estimations par les moindres carrés. Lorsque les données ne sont pas normalement distribuées (par exemple, résultats binaires ou temps de survie), le maximum de vraisemblance est la méthode standard pour estimer les coefficients de régression (par exemple, régression logistique, régression de Cox). Contrairement aux estimateurs bayésiens, les EMV (MLE en anglais) ne peuvent pas prendre en compte les informations extra-étudiantes. Les EMV peuvent être surajustées lorsque le contenu informatif des données ne permet pas une estimation fiable du nombre de paramètres impliqués (voir surajustement). Les EMV pénalisées peuvent résoudre ce problème en maximisant une fonction de vraisemblance logarithmique pénalisée. Lorsqu’il n’est pas permis d’utiliser des informations supplémentaires sur l’étude, l’EMV est considérée comme une technique d’estimation de référence. Voir fonction de vraisemblance.
Estimateur non paramétrique (nonparametric estimator) : Méthode d’estimation d’un paramètre sans supposer une distribution sous-jacente pour les données. Les exemples incluent les quantiles de l’échantillon, la distribution cumulative empirique et l’estimateur de la courbe de survie de Kaplan-Meier.
Essai clinique (clinical trial) : Bien qu’il soit presque toujours utilisé pour désigner une expérience randomisée, un essai clinique peut être n’importe quel type d’étude prospective sur des sujets humains dans laquelle des thérapies ou des stratégies cliniques sont comparées. Les traitements peuvent être attribués à des patients individuels ou à des groupes, ce qui inclut les essais randomisés en grappes. Dans le cas d’un essai clinique randomisé ou d’un essai contrôlé randomisé (ECR), le choix et le calendrier des traitements échappent au contrôle du médecin et du patient, mais sont (généralement) fixés à l’avance par un dispositif de randomisation. Ce dispositif peut être utilisé pour les modèles traditionnels de groupes parallèles ou pour les essais aléatoires contrôlés croisés. La randomisation est utilisée pour supprimer le lien entre les caractéristiques du patient et l’attribution du traitement, afin d’éviter tout biais de sélection du traitement dû à des facteurs connus et inconnus (au moment de la randomisation). Les ECR ne nécessitent pas de patients représentatifs, mais des effets de traitement représentatifs. Si une caractéristique du patient interagit avec l’effet du traitement et qu’un large éventail de patients sur la distribution du facteur d’interaction n’est pas inclus dans l’essai, les résultats de l’essai peuvent ne pas s’appliquer aux patients qui ne font pas partie (en ce qui concerne le facteur d’interaction) de ceux qui ont été étudiés. Par exemple, si l’âge est un modificateur d’effet pour le traitement et qu’un essai incluait principalement des patients âgés de 40 à 65 ans, le bénéfice relatif d’un traitement pour les personnes âgées de plus de 65 ans peut ne pas être estimable. Les essais contrôlés randomisés peuvent porter sur plus de deux thérapies. Le terme “contrôlé” dans essai contrôlé randomisé fait souvent référence à un groupe de traitement de référence qui est un placebo ou une norme de soins. Mais le groupe de comparaison peut être n’importe quoi, y compris des témoins actifs (comme dans les comparaisons directes de médicaments). L’essai contrôlé randomisé est l’étalon-or pour établir la causalité. Un ECR peut être mécaniste, comme dans une étude d’efficacité pure, une étude de politique ou de stratégie, ou une étude d’efficacité. Dans ce dernier cas, il s’agit d’imiter la pratique clinique sur le terrain.
Essai comparatif (comparative trial): Essais comportant deux groupes de traitement ou plus, conçus avec suffisamment de puissance ou de précision pour détecter des différences cliniques pertinentes dans l’efficacité du traitement entre les groupes.
Etalonnage (Calibration): Fiabilité (reliability) des valeurs prédites, c’est-à-dire dans quelle mesure les valeurs prédites concordent avec les valeurs observées. Pour un modèle prédictif, une courbe d’étalonnage est construite en reliant les valeurs prédites aux valeurs observées de manière régulière. La courbe d’étalonnage est évaluée par rapport à une ligne de 45∘. L’erreur d’étalonnage pourrait être appelée biais. L’erreur d’étalonnage est fréquemment évaluée pour les probabilités d’événements prédits. Si par exemple 0,4 fois il a plu alors que la probabilité de pluie prévue était de 0,4, la prévision de pluie est parfaitement calibrée. Il existe des catégories spécifiques d’étalonnage. L’étalonnage dans son ensemble fait référence à un précision moyenne. Si la probabilité moyenne de précipitations quotidiennes dans votre région était de 1/7 et qu’il pleuvait un jour sur sept chaque année, l’estimation de la probabilité serait parfaitement calibrée dans l’ensemble. L’étalonnage dans la petite zone se réfère à chaque niveau de probabilité prédite étant exact. Les jours où la probabilité de pluie était de 1/5, est ce qu’il a plus un cinquièle du temps ? On pourrait aller plus loin et définir l’étalonnage dans l’infime comme la mesure dans laquelle un type de sujet donné (disons un homme de 35 ans) et une probabilité de résultat donnée pour ce sujet sont précis. Ou une prévision de précipitations de 0,4 est-elle exacte au printemps ?
Etude cas-témoins (case-control study) : Une étude dans laquelle les sujets sont sélectionnés sur la base de leurs résultats, puis les expositions (traitements) sont déterminées. Par exemple, pour évaluer l’association entre la race et la mortalité opératoire, on peut sélectionner tous les patients qui sont décédés après une opération à cœur ouvert au cours d’une année donnée, puis sélectionner un nombre égal de patients qui ont survécu, en les appariant sur plusieurs variables autres que la race, de manière à égaliser (contrôler) leurs distributions entre les cas et les non-cas.
Etude de cohorte (cohorte study) Une étude dans laquelle tous les sujets répondant aux critères d’entrée sont inclus. Les critères d’entrée sont définis au départ, par exemple au moment du diagnostic ou du traitement.
Etude de non-infériorité (non inferiority study) : Une étude conçue pour montrer qu’un traitement n’est pas cliniquement significativement plus mauvais qu’un autre traitement. Indépendamment de la significativité ou de la non-significativité d’un test de supériorité traditionnel pour comparer deux traitements (avec H0 à une différence nulle), le nouveau traitement serait considéré comme non inférieur au traitement de référence si l’intervalle de confiance (intervalle de compatibilité) pour la différence réelle inconnue entre les traitements exclut une aggravation cliniquement significative de l’issue avec le nouveau traitement.
Les études de non-infériorité sont tristement célèbres pour l’utilisation de marges de non-infériorité beaucoup plus importantes que les MCID afin de réduire la taille “nécessaire” de l’échantillon. Il est courant, par exemple, de voir un protocole d’essai clinique dans lequel la marge est une augmentation de 25 % de la mortalité alors qu’une diminution de 10 % de la mortalité aurait été jugée valable dans une étude d’efficacité, ce qui permet de commercialiser un médicament dont l’augmentation potentielle de la mortalité est de 20 %.
Etude observationnelle (observational study) : Étude dans laquelle aucune condition expérimentale (par exemple, un traitement) n’est manipulée par l’enquêteur, c’est-à-dire que la randomisation n’est pas utilisée. Ces études sont fréquemment utilisées pour estimer les caractéristiques des sujets (moyennes, proportions, etc.) et pour évaluer les associations entre les variables. Elles présentent des limites connues pour les comparaisons thérapeutiques, en raison des facteurs de confusion inconnus.
Etude prospective (prospective study): Une étude dans laquelle l’étude est d’abord conçue, puis les sujets sont recrutés. Les études prospectives se caractérisent généralement par une collecte intentionnelle des données.
Etude rétrospective (retrospective study): Une étude dans laquelle les sujets étaient déjà inscrits avant que l’étude ne soit conçue, ou dans laquelle le résultat d’intérêt s’est produit avant le début de l’étude (comme dans une étude cas-témoins). Ces études présentent souvent des difficultés telles que l’absence de variables d’ajustement nécessaires (facteurs de confusion) et de données manquantes.
Fonction de densité de probabilité (probability density function) : Lorsqu’une variable aléatoire Y est continue, c’est-à-dire qu’elle peut prendre tous les nombres possibles dans un certain intervalle, la fonction de densité de probabilité est une fonction de y qui est la limite, lorsque la largeur δ d’un certain intervalle va jusqu’à zéro, de la probabilité que Y soit dans l’intervalle [y, y + δ], divisée par δ. Il s’agit de la dérivée première (pente) de la fonction de distribution de probabilité cumulée pour Y .
Fonction de survie (survival function) : La probabilité d’être exempt de l’événement à un moment donné (Bull & Spiegelhalter, 1997). La fonction de survie (également appelée courbe de survie) est généralement estimée par un modèle de Cox, un modèle de survie paramétrique ou, en l’absence de covariables, par des estimations de Kaplan-Meier éventuellement stratifiées par une variable de base purement catégorielle telle que le traitement.
Fonction de vraisemblance (likelihood function) : La probabilité des données observées en fonction des paramètres inconnus de la distribution des données. Nous utilisons ici le terme “probabilité” dans un sens large (et l’appelons “vraisemblance”) afin qu’il puisse s’appliquer à la fois aux variables de résultat discrètes et continues. Lorsque la variable de résultat Y ne peut prendre que des valeurs discrètes (par exemple, Y est binaire ou catégorielle), il est possible, à partir d’un modèle statistique, de calculer la probabilité exacte d’observer n’importe quelle valeur possible de Y. Dans ce cas, la probabilité conjointe de Y et de Y est calculée en fonction des paramètres inconnus de la distribution des données. Dans ce cas, la probabilité conjointe d’un ensemble de telles occurrences peut facilement être calculée. Lorsque les observations sont indépendantes, cette probabilité commune est le produit de toutes les probabilités individuelles. La fonction de vraisemblance est alors la probabilité conjointe que toutes les valeurs observées de Y se soient produites, en fonction des paramètres inconnus qui créent la distribution entière de Y d’une observation individuelle. Lorsque Y est continu, les éléments de probabilité qui composent la fonction de vraisemblance sont les valeurs de la fonction de densité de probabilité évaluées sur les données observées. Étant donné que les probabilités conjointes de nombreuses observations sont très faibles, et pour une autre raison qui sera bientôt évoquée, il est d’usage d’exprimer les logarithmes naturels des vraisemblances plutôt que d’utiliser l’échelle d’origine. Le logarithme de la vraisemblance obtenue par un modèle, c’est-à-dire le logarithme de la vraisemblance aux estimations du maximum de vraisemblance des paramètres inconnus, est une mesure d’information de référence et est utilisé pour calculer diverses statistiques, notamment R2, AIC et les tests d’association du rapport de vraisemblance χ2. Voir estimation du maximum de vraisemblance, qui est l’ensemble des valeurs des paramètres qui font que les données observées sont les plus susceptibles d’avoir été observées.
La probabilité réelle d’une valeur spécifique pour une variable continue est de zéro.
La probabilité qu’elles se produisent effectivement est maintenant sans objet puisque les valeurs Y ont déjà été observées.
Généralisation : Voir réplication, reproduction, robuste, généralisable
Hétérogénéité de l’effet du traitement (heterogeneity of treatment effect) : Variation de l’effet d’un traitement sur une échelle pour laquelle il est mathématiquement possible qu’un traitement ayant un effet non nul en moyenne ait le même effet pour différents types de sujets. L’Hétérogénéité de l’effet du traitement (HET) ne doit pas être considérée sur l’échelle du risque absolu (voir l’amplification du risque), mais plutôt sur une échelle relative telle que le logarithme des chances ou le logarithme du risque. Il est préférable de considérer l’HET comme un phénomène dû à une combinaison particulière de traitement et de patient, qui est mécaniste et pas seulement lié au risque généralisé auquel sont exposés les patients les plus malades. Par exemple, les patients souffrant d’une maladie coronarienne plus grave peuvent tirer un bénéfice relatif plus important de la revascularisation, et les patients qui métabolisent mal un médicament peuvent tirer un bénéfice relatif moins important de ce médicament. La variation de la réduction du risque absolu (RRA) due à un traitement est souvent considérée à tort comme une HTET. Étant donné que la RRA doit varier en fonction du sujet lorsqu’il existe des facteurs de risque et que l’effet global du traitement n’est pas nul, la variation de la RAR est une nécessité mathématique. Elle est dominée par le risque de base des sujets et il est donc plus exact de parler d’hétérogénéité des sujets plutôt que d’hétérogénéité des effets du traitement.
Heure d’entrée (entry time) : Le moment où un patient commence à contribuer à l’étude. Dans les études randomisées ou les études d’observation où tous les patients ont été observés avant le début de l’étude (par exemple, les études sur la survie après une intervention chirurgicale), le moment d’entrée et le moment d’origine de l’étude seront identiques. Toutefois, dans certaines études d’observation, le patient peut ne commencer le suivi qu’après le début de l’étude et ces patients ne contribuent au groupe d’étude qu’après leur “entrée tardive” (Bull & Spiegelhalter). (Bull & Spiegelhalter, 1997)
Hypothèse nulle (null hypothesis): Habituellement, mais pas nécessairement, une hypothèse d’absence d’effet, par exemple, pas de réduction de la tension artérielle moyenne ou pas de corrélation entre l’âge et la tension artérielle. L’hypothèse nulle, appelée H0, est souvent utilisée dans la branche fréquentiste de l’inférence statistique comme une “personne de paille” ; les statistiques classiques supposent souvent ce que l’on espère ne pas voir se produire (pas d’effet d’un traitement) et tentent de rassembler des preuves contre cette hypothèse (c’est-à-dire qu’elles tentent de rejeter H0). H0 spécifie généralement un point unique, comme une réduction de 0 mmHg de la pression artérielle, mais elle peut spécifier un intervalle, par exemple H0 : la réduction de la pression artérielle est comprise entre -1 et +1 mmHg. Les “hypothèses nulles” peuvent également être, par exemple, H0 : la corrélation entre X et Y est de 0,5.
Incidence cumulative : Pour un événement qui ne peut se produire qu’une seule fois, la probabilité d’avoir l’événement au moment t.
Inférence bayésienne (Bayesian inference) : Une branche des statistiques basée sur le théorème de Bayes. L’inférence bayésienne n’utilise pas les p-values et ne teste généralement pas les hypothèses. Elle exige que l’on spécifie formellement une distribution de probabilité encapsulant les connaissances préalables sur, par exemple, un effet de traitement(distrbution a priori). L’état des connaissances préalables peut être spécifié comme “aucune connaissance” en utilisant une distribution plate, bien que cela puisse conduire à des estimations farfelues et absurdes. Une fois la distribution préalable spécifiée, les données sont utilisées pour modifier l’état de connaissance préalable afin d’obtenir l’état de connaissance post-expérience. Les probabilités finales calculées dans le cadre bayésien sont les probabilités des différents effets du traitement. Le prix à payer pour pouvoir calculer des probabilités sur le processus de génération des données est la nécessité de spécifier une distribution préalable pour ancrer les calculs.
Inférence causale (causal inference) : L’étude de la manière dont les résultats varient en fonction des niveaux d’exposition lorsque cette exposition est manipulée. L’étude de l’inférence causale, lorsqu’elle est bien menée, porte généralement sur la définition des paramètres cibles, la définition précise des conditions dans lesquelles la causalité peut être déduite et l’évaluation de la sensibilité aux écarts par rapport à ces conditions. Dans une expérience randomisée et avec un insu (aveugle) adapté, dans laquelle toutes les unités expérimentales adhèrent à la manipulation expérimentale prévue dans le plan, la plupart des expérimentateurs sont prêts à faire une interprétation causale de l’effet expérimental sans autre forme de procès. Dans des situations plus complexes impliquant des données d’observation ou une adhésion imparfaite, les choses sont plus nuancées. Voir les sections 2.1-2.3 de Pearl pour plus d’informations (Pearl, Judea, 2009).
Inférence statistique fréquentiste (frequentis statistical) : C’est actuellement la philosophie statistique la plus couramment utilisée. Elle utilise les tests d’hypothèse, les probabilités d’assertion de type I et II, la puissance, les p-values, les limites de confiance (intervalles de compatibilité) et les ajustements des p-values pour tester plusieurs hypothèses à partir de la même étude. Les probabilités calculées à l’aide de méthodes fréquentistes, les p-values, sont des probabilités d’obtenir des valeurs statistiques. L’approche fréquentiste est également appelée approche d’échantillonnage car elle considère la distribution des statistiques sur des échantillons hypothétiques répétés de la même population. L’approche fréquentiste s’intéresse aux caractéristiques de fonctionnement à long terme des statistiques et des estimations. Pour cette raison et en raison de l’ordre rétrograde temps/information des p-values, les tests fréquentistes nécessitent des ajustements de multiplicité complexes, mais ne fournissent aucun principe directeur sur la manière exacte dont ces ajustements doivent être dérivés. Les statistiques fréquentistes impliquent la confusion de deux idées : (1) la probabilité a priori qu’une expérience génère des informations trompeuses (par exemple, la probabilité d’une affirmation d’un effet alors qu’il n’y a pas d’effet, c’est-à-dire la probabilité d’affirmation de type I α) et (2) la preuve d’une affirmation après l’exécution de l’expérience. Cette dernière ne devrait pas impliquer d’ajustement de multiplicité, mais comme c’est le cas pour la première, les fréquentistes ne savent pas comment interpréter la seconde lorsque plusieurs hypothèses sont testées ou lorsqu’une seule hypothèse est testée de manière séquentielle. La statistique fréquentiste, telle qu’elle est généralement pratiquée, met l’accent sur les tests d’hypothèses plutôt que sur l’estimation.
Insu ou aveugle (masking): Empêcher le sujet, le médecin traitant, l’enquêteur du patient, le directeur de l’étude ou le statisticien de savoir quel traitement est administré à un patient dans une étude comparative. Une étude en simple aveugle est une étude dans laquelle le patient ne sait pas quel traitement il reçoit. Une étude en double aveugle est une étude dans laquelle ni le patient, ni le médecin traitant, ni les autres personnes impliquées dans la collecte des données ne connaissent l’affectation du traitement. Une étude en triple aveugle est une étude dans laquelle le statisticien ne sait pas de quel traitement il s’agit.
Intelligence artificielle (artificial intelligence): Souvent confondue avec l’apprentissage automatique, l’IA est une procédure d’apprentissage flexible à partir de données, qui peut être construite à partir d’éléments de l’apprentissage automatique, mais qui se distingue par la création d’algorithmes sous-jacents de sorte que la “machine” puisse accepter de nouvelles données après que le développeur a achevé l’algorithme initial. De cette manière, la machine peut continuer à se mettre à jour, à s’affiner et à s’auto-apprendre. John McCarthy a défini l’intelligence artificielle comme “la science et l’ingénierie de la fabrication de machines intelligentes”.
Intention de traiter (intention-to-treat) : Les sujets d’un essai clinique randomisé sont analysés en fonction du groupe de traitement auquel ils ont été assignés, même s’ils n’ont pas reçu le traitement prévu ou s’ils n’en ont reçu qu’une partie. Si, dans une étude randomisée, une analyse est effectuée qui ne classe pas tous les patients dans les groupes dans lesquels ils ont été randomisés, l’étude ne peut plus être strictement interprétée comme un essai randomisé, c’est-à-dire que la randomisation est “rompue”. Les analyses en intention de traiter sont pragmatiques dans la mesure où elles reflètent la non-adhésion au traitement dans le monde réel.
Intervalle interquartile (inter-quartile range) : L’intervalle entre les quartiles extérieurs (25e et 75e percentiles). Il s’agit d’une mesure de l’étendue de la distribution des données (dispersion), c’est-à-dire d’un intervalle central contenant la moitié de l’échantillon.
Limites de confiance (confidence limits) : Dire que les limites de confiance à 0.95 pour une quantité inconnue sont [a, b] signifie que 0,95 des limites de confiance construites de façon similaire dans des échantillons répétés de la même population contiendraient la quantité inconnue. De manière grossière, on pourrait dire qu’elle est “sûre” à 0,95 que la valeur inconnue se trouve dans l’intervalle [a, b], bien que, dans l’école fréquentiste, les paramètres inconnus soient des constantes, de sorte qu’ils se trouvent soit à l’intérieur, soit à l’extérieur des intervalles et qu’il n’y ait pas de probabilités associées à ces événements. L’interprétation d’un seul intervalle de confiance dans les statistiques fréquentistes est très problématique et, en fait, le mot confiance est mal défini et n’était qu’une tentative de dissimuler ce problème. Il convient de noter qu’un intervalle de confiance ne doit être symétrique par rapport à une estimation ponctuelle que si la distribution de l’estimation ponctuelle est symétrique. De nombreux intervalles de confiance sont asymétriques, par exemple les intervalles pour les probabilités, les rapports de cotes et d’autres rapports. Une autre façon de définir un intervalle de confiance est l’ensemble de toutes les valeurs qui, en cas d’hypothèse nulle, ne seraient pas rejetées à un moins le niveau de confiance par un test statistique spécifique. Pour cette raison, les intervalles de confiance sont mieux appelés intervalles de compatibilité.
Machine learning (apprentissage automatique) : Une procédure algorithmique de prédiction ou de classification qui tend à être empirique, non paramétrique, flexible et qui ne capitalise pas sur l’additivité des effets des prédicteurs. Arthur Samuel a défini l’apprentissage automatique comme un “domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés”. L’apprentissage automatique n’utilise pas de modèle de données, c’est-à-dire une distribution de probabilité pour la variable de résultat compte tenu des données d’entrée, et ne met pas l’accent sur des paramètres interprétables. Parmi les exemples d’algorithmes d’apprentissage automatique, on peut citer les réseaux neuronaux, les machines à vecteurs de support, le bagging, le boosting, le partitionnement récursif et les forêts aléatoires. La régression ridge, le lasso, le filet élastique et d’autres techniques de régression pénalisée (qui ont des paramètres identifiés et font largement appel à des hypothèses d’additivité) relèvent des modèles statistiques plutôt que de l’apprentissage automatique. En permettant aux interactions d’ordre élevé d’être potentiellement aussi importantes que les effets principaux, l’apprentissage automatique est gourmand en données, car les tailles d’échantillon nécessaires pour estimer les effets d’interaction sont beaucoup plus importantes que les tailles d’échantillon nécessaires pour estimer les effets principaux additifs. L’apprentissage automatique ne doit pas être confondu avec l’intelligence artificielle.
Marginal, marginalisation (marginal, marginalization) : Une quantité marginale ou une estimation marginale est une quantité dont la moyenne est calculée sur certaines unités ou caractéristiques. Il s’agit d’une sorte de moyenne pondérée de quantités conditionnelles. Dans un tableau de fréquences 2 × 2 de quatre régions × deux états de résultats, chaque ligne est utilisée pour estimer la probabilité conditionnelle d’un résultat positif dans une région donnée. Les estimations marginales sur les régions additionnent chacune des deux colonnes sur toutes les lignes pour obtenir des estimations de probabilités marginales non spécifiques à une région. L’acte de marginalisation est l’acte de déconditionnement d’un facteur. Voir conditionnement.
Médiane (median) : Valeur telle que la moitié des valeurs des observations est inférieure et l’autre moitié supérieure à cette valeur. La médiane est également appelée 50e percentile ou quantile 0,5. La médiane de l’échantillon n’est pas fortement influencée par les valeurs aberrantes et peut donc être plus représentative des sujets “typiques”. Lorsque les données sont normalement distribuées (gaussiennes), la médiane de l’échantillon n’est pas aussi précise que la moyenne pour décrire la tendance centrale, son efficacité étant de
Modèle de Cox (Cox Model): Le modèle de régression des risques proportionnels de Cox (Cox, 1972) est un modèle permettant d’établir un lien entre un ensemble de variables descriptives du patient et le temps écoulé jusqu’au décès ou à un autre événement. Les analyses de Cox sont basées sur la courbe de survie complète. Le temps écoulé jusqu’à l’événement peut être censuré en raison d’une perte de suivi ou d’un autre événement, pour autant que la censure soit indépendante du risque de l’événement étudié. Les variables descriptives peuvent être utilisées de deux manières : en tant que partie du modèle de régression et en tant que facteurs de stratification. Pour les variables qui entrent comme régresseurs, le modèle spécifie l’effet relatif d’une variable par son impact sur le hasard ou le risque instantané de décès à tout moment depuis l’inscription. Pour les facteurs de stratification, aucune hypothèse n’est faite sur la façon dont ces facteurs affectent la survie, c’est-à-dire que l’hypothèse des risques proportionnels n’est pas faite. Des courbes de survie de forme distincte sont autorisées pour ces facteurs. Le test de logrank pour comparer deux distributions de survie est un cas particulier du modèle de Cox. Voir également analyse de survie. Les modèles de Cox sont utilisés pour estimer les rapports de risque ajustés.
Modèle linéaire généralisé (generalized linear model): Un modèle qui a la même forme de côté droit qu’un modèle de régression linéaire mais dont la variable dépendante peut être catégorielle ou avoir une distribution continue qui n’est pas normale. Les exemples de GLM comprennent la régression logistique binaire, la régression probit, la régression de Poisson et les modèles pour Y continu ayant une distribution γ, ainsi que le cas spécial de distribution gaussienne du modèle de régression linéaire. Les GLM peuvent être ajustés par des méthodes de maximum de vraisemblance, de quasi-vraisemblance ou de Bayes.
Modèle multi-états (multistate model): Modèle statistique qui tient compte des sujets qui passent (éventuellement dans un sens ou dans l’autre) d’un état à l’autre (par exemple, bien portant, malade, hospitalisé, décédé) au fil du temps. Ces modèles sont également appelés modèles de transition d’état. Les estimands sous-jacents sont des probabilités de transition d’état, par exemple la probabilité d’être hospitalisé au moment t + 1 à condition que le patient soit en vie à son domicile au moment t. Les probabilités de transition d’état peuvent être déconditionnées en utilisant les règles standard des probabilités pour obtenir des probabilités inconditionnelles appelées probabilités d’occupation d’état, par exemple la probabilité qu’un patient soit hospitalisé ou décédé au jour 3, quel que soit son état au jour 2. Les modèles multi-états peuvent être spécifiés en temps discret ou en temps continu, ce dernier se concentrant sur les intensités ou les taux d’aléa. Les modèles en temps discret sont plus faciles à interpréter car ils utilisent des probabilités ordinaires, des incidences cumulées, etc.
Les modèles multi-états sont les moyens les plus généraux de modéliser plusieurs types d’événements, permettant des événements absorbants (décès), des événements récurrents (hospitalisation), des états catégoriels, des états ordinaux et des données manquantes.
Modèle paramétrique (parametric model) : Modèle basé sur une fonction mathématique ayant quelques paramètres inconnus. Généralement, le nombre de paramètres dans un modèle paramétrique n’augmente pas avec la taille de l’échantillon, et une distribution spécifique est supposée pour la variable dépendante Y , conditionnellement à X. Voir aussi modèle semi-paramétrique.
Modèle multivariable (multivariable model) : Modèle reliant plusieurs variables prédictives (facteurs de risque, traitements, etc.) à une seule réponse ou variable dépendante. Les variables prédictives peuvent être continues, binaires ou catégorielles. Lorsqu’une variable continue est utilisée, une hypothèse de linéarité est faite à moins que la variable ne soit élargie pour inclure des termes non linéaires. Les variables catégorielles sont modélisées à l’aide de variables muettes afin de ne pas supposer d’affectations numériques aux catégories.
Modèle multivarié (multivariate model): Un modèle qui prédit simultanément plus d’une variable dépendante, par exemple un modèle pour prédire la pression artérielle systolique et diastolique ou un modèle pour prédire la pression artérielle systolique 5 min. et 60 min. après l’administration d’un médicament.
Modèle semi-paramétrique (semiparametruc model): Des hypothèses “paramétriques” peuvent être formulées pour certains aspects d’un modèle, tandis que d’autres composantes peuvent être estimées de manière “non paramétrique”. Dans la procédure de régression de Cox, un modèle paramétrique pour le risque relatif est superposé à une estimation non paramétrique du risque de base (Bull & Spiegelhalter, 1997). Comme le modèle logistique ordinal à probabilités proportionnelles, le modèle semiparamétrique de Cox (risques proportionnels) est entièrement paramétrique du côté droit et non paramétrique du côté gauche (variable dépendante Y ). Ces types de modèles semiparamétriques ont essentiellement une ordonnée à l’origine pour chaque valeur distincte de Y apparaissant dans les données, ce qui permet d’estimer la distribution de Y d’une manière très similaire à la fonction de distribution cumulative empirique, un estimateur de distribution non paramétrique
Modèle de régression linéaire (linear regression model) : Il est également appelé MCO ou moindres carrés ordinaires et se réfère à la régression pour une variable dépendante continue, et généralement au cas où les résidus sont supposés être gaussiens. Le modèle linéaire est parfois appelé modèle linéaire général, à ne pas confondre avec le modèle linéaire généralisé où la distribution peut prendre de nombreuses formes non gaussiennes.
Modèle de régression logistique (logistic regression model) : Modèle de régression multivariable reliant une ou plusieurs variables prédictives aux probabilités de divers résultats. Le modèle logistique le plus couramment utilisé est le modèle logistique binaire (Spanos et al., 1989 ; Walker & Duncan, 1967) qui prédit la probabilité d’un événement en fonction de plusieurs variables. Il existe plusieurs types de modèles logistiques ordinaux pour prédire une variable de résultat ordinale, ainsi qu’un modèle logistique polytomique pour les réponses catégorielles. Les modèles binaires et polytomiques généralisent le test du χ2 pour tester l’association entre des variables catégorielles. Un modèle
Le modèle ordinal le plus couramment utilisé, le modèle des chances proportionnelles (Brazer et al., 1991), généralise le test de rang de Wilcoxon à deux échantillons. Les modèles logistiques binaires sont utiles pour prédire des événements pour lesquels le temps n’est pas très important. Ils peuvent être utilisés pour prédire des événements à un moment précis, mais cela peut entraîner une perte d’informations. Les modèles logistiques sont utilisés pour estimer les rapports de cotes ajustés ainsi que les probabilités d’événements.
Modèle de transition d’état (state transition model) : Voir modèle multi-états
Modèle statistique (statistical model): Un modèle avec des paramètres identifiés qui comprend un modèle pour les données par le biais d’une distribution de probabilité et favorise l’additivité des effets. Parmi les exemples de modèles statistiques, on peut citer la régression linéaire ordinaire avec l’hypothèse d’une distribution gaussienne pour les résidus, la régression logistique, la régression des risques proportionnels de Cox, les modèles longitudinaux, la régression par quantile, la régression par crête, le lasso et le filet élastique.
Moyenne (mean) : Moyenne arithmétique, c’est-à-dire la somme de toutes les valeurs divisée par le nombre d’observations. La moyenne d’une variable binaire est égale à la proportion de uns car la somme de toutes les valeurs zéro et un est égale au nombre de uns. La moyenne peut être fortement influencée par des valeurs aberrantes. Lorsque les queues de la distribution ne sont pas lourdes, cette influence des valeurs plus extrêmes est ce qui donne à la moyenne son efficacité par rapport à d’autres estimateurs tels que la médiane. Lorsque la distribution des données est symétrique, la moyenne et la médiane de la population sont identiques. La moyenne de l’échantillon est un meilleur estimateur de la médiane de la population que la médiane de l’échantillon, lorsque la distribution des données est symétrique et de type gaussien.
Niveau de signification (significance level) : Valeur prédéfinie de α par rapport à laquelle les p-values sont jugées afin de rejeter H0 (voir probabilité d’assertion de type I). Parfois, la p-value elle-même est appelée niveau de signification.
Niveau de signification nominal (nominal significance model): Dans le contexte de comparaisons multiples impliquant plusieurs tests statistiques, le niveau de signification apparent α de chaque test est appelé niveau de signification nominal. La probabilité globale d’assertion de type I pour l’étude, c’est-à-dire la probabilité d’au moins une assertion positive lorsque l’effet réel est nul, sera supérieure à α.
Nombre nécessaire pour traiter (number needed to treat) : Quantité qui s’applique à une situation extrêmement simplifiée et irréaliste dans laquelle (1) il existe un horizon temporel particulier t et (2) tous les patients ont le même risque absolu d’avoir une issue à l’instant t, c’est-à-dire qu’il n’existe pas de facteurs de risque (sinon le NNT ne peut pas être un nombre unique). Plus précisément, le NNT est le nombre de patients à traiter pour éviter un mauvais résultat à l’instant t, qui est la réciproque de la différence de risque absolu entre deux traitements. Lorsqu’il existe des facteurs de risque, la différence de risque absolu varie énormément selon les types de patients, de sorte qu’un NNT peut ne pas s’appliquer à n’importe quel membre de la population de patients. En règle générale, les patients les plus malades bénéficient davantage du traitement, de sorte que la différence de risque s’amplifie et que le NNT diminue pour eux. Le NNT pose un grand nombre de problèmes graves, détaillés ici. Les intervalles de confiance pour le NNT sont problématiques mais, qu’ils soient correctement ou incorrectement calculés, ils sont souvent si larges qu’ils jettent le doute sur l’utilisation de l’estimation ponctuelle.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
Origine du temps (time origin): Le début de l’histoire que l’étude vise à raconter. Dans les études d’observation, les patients peuvent être observés avant ou après l’origine temporelle de l’étude (Bull & Spiegelhalter, 1997), mais on tente souvent de définir l’origine temporelle comme la date du diagnostic, du début de l’exposition ou du traitement. Dans les essais randomisés, l’origine temporelle est la date de la randomisation.
Overfitting : Dans le contexte d’un outil de prédiction développé à l’aide d’un modèle statistique ou d’une procédure algorithmique telle que l’apprentissage automatique, la tendance des valeurs prédites à être trop extrêmes. Des prédictions trop extrêmes font que la courbe d’étalonnage présente des symptômes de régression vers la moyenne : un aplatissement de la courbe qui devient moins raide que la ligne d’identification de 45∘. En cas d’ajustement excessif, les valeurs prédites faibles sont trop faibles et/ou les valeurs prédites élevées sont trop élevées. Le surajustement est synonyme de surinterprétation causée par le découpage des données en morceaux qui n’ont pas d’énormes dénominateurs. La cause du surajustement est généralement le fait d’avoir trop de caractéristiques candidates dans un paramètre de sélection de caractéristiques d’apprentissage supervisé (informé par Y ) ou d’estimer trop de paramètres dans un modèle pré-spécifié. Chaque paramètre estimé peut être sans biais, mais les prédictions sont formées par la combinaison de tous les paramètres et, à moins que le modèle ne soit intentionnellement sous-adapté à l’aide de la pénalisation (rétrécissement ; régularisation), la combinaison des paramètres présente le phénomène des “valeurs faibles trop faibles ou des valeurs élevées trop élevées”. Ce phénomène est dû en partie au tri des valeurs prédites ou à la sélection de sujets dont les prédictions sont extrêmes. Il est possible que la valeur prédite moyenne globale ne soit pas biaisée, même en cas de surajustement extrême. C’est pourquoi il est important d’estimer l’ensemble de la courbe d’étalonnage.
Paramètre (parameter) : Une quantité inconnue telle que la moyenne de la population, la variance de la population, la différence entre deux moyennes ou le coefficient de régression.
Percentile, quantile (percentile, quantile): Le p-ième percentile est la valeur telle que des valeurs des observations sont inférieures à cette valeur. Le p-ième quantile est la valeur telle que np des valeurs des observations sont inférieures à cette valeur. Les percentiles et les quantiles ne fonctionnent bien que pour les variables continues, et ne donnent pas de bons résultats s’il y a beaucoup d’égalités dans les données. Par exemple, s’il y a beaucoup d’égalités au niveau de la médiane, l’ajout de nombreuses valeurs extrêmement élevées aux données peut ne pas faire bouger la médiane dans certains cas, et l’ajout d’une valeur extrême peut faire bouger la médiane de façon importante dans d’autres cas. Voir aussi quartiles.
Phase I (phase I): Etudes visant à obtenir des informations préliminaires sur la posologie, l’absorption, le métabolisme et la relation entre la toxicité et le schéma posologique du traitement.
Phase II (phase II): études visant à déterminer la faisabilité et à estimer l’activité et la sécurité du traitement dans les maladies (ou, par exemple, les types de tumeurs) pour lesquelles le traitement semble prometteur. Elle génère des hypothèses qui seront testées ultérieurement.
Phase III (phase III) : Essai comparatif visant à déterminer l’efficacité et la sécurité d’un nouveau traitement par rapport à une thérapie standard. Ces essais représentent généralement la preuve la plus rigoureuse de l’efficacité du traitement (essais pivots) et constituent la dernière étape avant l’homologation du produit…
Phase IV (phase IV): Etudes post-commercialisation des produits homologués.
Précision (precision) : Degré d’absence d’erreur aléatoire. La précision d’un estimateur statistique est liée à l’erreur attendue qui se produit lors de l’approximation de la valeur des données infinies. En d’autres termes, lorsque vous essayez d’estimer une mesure dans une population, la précision est liée à l’erreur dans l’estimation. La précision peut donc être considérée comme une “marge d’erreur” dans l’estimation d’une valeur inconnue. La précision peut être quantifiée par la largeur d’un intervalle de confiance (compatibilité) et parfois par l’écart-type de l’estimateur (erreur-type). Pour les intervalles de confiance, une “marge d’erreur” est calculée afin que l’intervalle cité ait une certaine probabilité de contenir la vraie valeur (par exemple, la différence moyenne de population). Certains auteurs définissent la précision comme la réciproque de la variance d’une estimation. Selon cette définition, la précision augmente linéairement avec la taille de l’échantillon. Si, au contraire, on définit la précision sur l’échelle de mesure originale plutôt que sur son carré (c’est-à-dire si l’on utilise l’erreur standard ou la largeur d’un intervalle de confiance), la précision augmente comme la racine carrée de la taille de l’échantillon.
Prédicteur, variable explicative, facteur de risque, covariable, covariable, variable indépendante (predictor, explanatory variable, risk factor, covariate, covariable, independent variable: quantités qui peuvent être associées à un résultat meilleur ou pire (Bull & Spiegelhalter, 1997). Sans autre information, les variables prédictives (covariables) sont considérées comme mesurées au départ. Les covariables dépendantes du temps sont mises à jour à l’aide de mesures postérieures à la ligne de base. Les effets des covariables externes de temps sont faciles à interpréter. Par exemple, dans une étude croisée, la nouvelle affectation du traitement à un mois (le moment du croisement) était déjà connue au moment de la randomisation. Les effets des covariables externes dépendantes du temps sont faciles à interpréter. Les covariables internes dépendantes du temps (par exemple, la mise à jour des mesures de cholestérol) peuvent refléter l’évolution de l’état du sujet. Une situation particulièrement difficile à interpréter est celle d’un essai randomisé dans lequel on estime l’effet du traitement (supposé constant) après ajustement des covariables internes dépendantes du temps.
Probabilité (probability): La probabilité qu’un événement se produise, qu’un événement invisible se soit déjà produit ou qu’une affirmation soit vraie est un nombre compris entre 0 et 1 inclus, de sorte que (1) parmi tous les résultats possibles (y compris les non-événements), la probabilité qu’un résultat possible se produise est de 1, et (2) la probabilité qu’un ensemble d’événements mutuellement exclusifs (c’est-à-dire une union d’événements) se produise est la somme des probabilités des événements individuels. La signification attachée à la métrique connue sous le nom de probabilité dépend de l’utilisateur ; elle peut représenter la fréquence relative à long terme d’observations répétables, un degré de croyance ou une mesure de la véracité ou de la plausibilité. Dans l’école fréquentiste, la probabilité d’un événement désigne la limite de la fraction à long terme des occurrences de l’événement. Cette notion de probabilité implique que la même expérience qui a généré le résultat en question peut être répétée à l’infini. Même une pièce de monnaie change après 100 000 tirages. De même, certains peuvent affirmer qu’un patient est “unique” et qu’il n’est pas possible de répéter la même expérience. On pourrait raisonnablement affirmer qu’une “répétition” ne désigne pas le même patient au même stade de la maladie, mais plutôt tout patient présentant la même gravité de la maladie (mesurée avec la technologie actuelle). D’autres écoles de probabilités n’exigent pas du tout la notion de réplication. Par exemple, l’école de la probabilité subjective (associée à l’école bayésienne) “considère la probabilité comme une mesure du degré de croyance d’un sujet donné dans l’occurrence d’un événement ou, plus généralement, dans la véracité d’une affirmation donnée” (voir P. 55 de Kotz & Johnson (1988)). de Finetti a défini la probabilité subjective en termes de paris et de cotes dans les paris. Une personne neutre à l’égard du risque serait prête à parier P dollars qu’un événement se produira lorsque le gain est de 1 dollar et que sa probabilité subjective est P pour l’événement. Le domaine d’application des probabilités est très important. Nous supposons que l’état réel de l’événement (par exemple, mort/sauvage) est inconnu et nous supposons également que l’information à laquelle la probabilité est subordonnée (par exemple, Pr{décès | homme, âge=70}) est celle à laquelle nous comparerions la probabilité. En d’autres termes, nous ne nous demandons pas si Pr(décès | homme, âge=70) est exact par rapport à Pr(décès | homme, âge=70, moyennebp=45, patient en descente). Il est difficile de trouver une probabilité qui ne soit vraiment pas conditionnelle. Ce qui est conditionné est important.
Les probabilités sont d’une utilité maximale lorsque, comme dans le cas de l’inférence bayésienne, elles s’appuient sur ce qui est connu pour fournir une prévision de ce qui est inconnu. Il s’agit de probabilités “à terme” ou de probabilités de “flux d’informations à terme”. Les probabilités à terme peuvent être utilement sorties de leur contexte plus souvent que les probabilités à rebours, car elles n’ont pas besoin de prendre en compte “ce qui aurait pu se produire”. Dans les statistiques fréquentistes, la valeur P est une probabilité de flux d’information à rebours, conditionnelle à la taille de l’effet inconnu. C’est la raison pour laquelle les valeurs P doivent être ajustées en fonction de l’examen de données multiples (“ce qui aurait pu se produire”), alors que la probabilité postérieure bayésienne actuelle remplace simplement toutes les probabilités postérieures calculées lors de l’examen de données antérieures, parce qu’elles sont désormais conditionnées par les données actuelles. Comme l’a écrit IJ Good, les axiomes définissant les “règles” selon lesquelles les probabilités doivent fonctionner (par exemple, une probabilité est comprise entre 0 et 1) ne définissent pas ce qu’une probabilité signifie réellement. Il affirme également que toutes les probabilités sont subjectives, car elles dépendent des connaissances de l’observateur.
Ce sont les axiomes de probabilité de Kolmogorov. Toutes les autres règles de probabilité peuvent être dérivées de ces axiomes.
Probabilité d’affirmation de type I α (type I assertion probability α): Souvent appelée, à tort, probabilité de faux positif, il s’agit de la probabilité de rejeter H0 (c’est-à-dire de déclarer une “signification statistique” – ce qui n’est pas recommandé) lorsque l’hypothèse nulle est supposée être vraie. La probabilité d’affirmation de type I est souvent appelée α et correspond à la probabilité d’affirmer un effet alors que toute affirmation d’effet est par définition fausse. Elle est généralement appelée “taux”, ce qui n’est pas exact. Dans l’usage courant, la probabilité de type I est la probabilité que la p-value nominale soit < 0,05 s’il n’y a pas d’effet. Elle sera de 0,05 lorsque (1) une seule p-value est calculée, (2) toutes les hypothèses du modèle et du plan expérimental faites par le calcul de la p-value sont exactement vraies, et (3) la p-value est calculée exactement. Voir ici pour une discussion détaillée de la distinction entre les probabilités d’affirmation et les probabilités d’erreur de décision.
On peut dire que α est la probabilité d’indiquer un effet lorsqu’il n’y en a pas, mais c’est très différent de la probabilité de se tromper en affirmant qu’un effet est présent. Cette probabilité ne peut être dérivée d’une probabilité d’affirmer un effet étant donné que l’effet est nul. La probabilité de se tromper en affirmant un effet est calculée correctement en prenant un moins la probabilité postérieure bayésienne de la présence d’un effet.
Probabilité d’affirmation de type II β (type II assertion probability): Souvent appelée à tort probabilité de faux négatif, il s’agit de la probabilité de ne pas affirmer un effet (c’est-à-dire de ne pas rejeter H0) alors qu’il existe réellement une ampleur spécifique de l’effet. La probabilité de type II est appelée β, qui correspond à un moins la puissance du test. En d’autres termes, la puissance du test est de 1 – β. Cette probabilité β est souvent appelée à tort “taux”.
La probabilité de type II peut être appelée probabilité d’une affirmation faussement négative, mais elle est très différente de la probabilité qu’il y ait un effet lorsque l’on n’affirme pas d’effet. Cette probabilité ne peut être dérivée de la probabilité de ne pas affirmer un effet étant donné que l’effet est à un certain niveau non nul. La probabilité postérieure bayésienne d’un effet est la probabilité inconditionnelle (à l’exception des données) d’un effet non nul.
Probabilité conditionnelle (conditional probability) : La probabilité de la véracité d’une déclaration ou d’un événement A étant donné qu’une condition spécifique B est remplie ou qu’un événement B s’est déjà produit, désignée par P(A|B). Il s’agit d’une probabilité en présence de la connaissance capturée par B. Par exemple, si la condition B est qu’une personne soit de sexe masculin, la probabilité conditionnelle est la probabilité de A pour les hommes. On pourrait dire qu’il n’existe pas de probabilité totalement inconditionnelle. Dans cet exemple, on conditionne implicitement les humains, même si l’on ne tient pas compte du sexe de la personne.
Probabilité postérieure (posterior probability) : Dans un contexte bayésien, il s’agit de la probabilité d’un événement après utilisation des informations contenues dans les données. En d’autres termes, il s’agit de la probabilité antérieure d’un événement après sa mise à jour avec les données. La probabilité postérieure peut également être appelée probabilité post-test si l’on assimile un test de diagnostic à des “données” (voir également la courbe ROC).
Probabilité préalable (prior probability) : La probabilité d’un événement telle qu’elle peut être évaluée au mieux avant l’expérience. Dans les tests de diagnostic, cette probabilité est appelée probabilité pré-test. La probabilité préalable peut provenir d’un objectif. Il peut s’agir d’un modèle basé sur des informations précédemment disponibles, ou d’un avis d’expert. Dans certaines analyses bayésiennes, les probabilités préalables sont exprimées sous la forme de distributions de probabilités qui sont des lignes plates, afin de refléter l’absence totale de connaissances sur un événement. Ces distributions sont appelées distributions non informatives, plates ou de référence, et les analyses fondées sur elles laissent les données “parler d’elles-mêmes”.
Puissance (power) : Dans un cadre fréquentiste, la probabilité de rejeter l’hypothèse nulle pour une valeur donnée de l’effet inconnu. La puissance pourrait également être appelée la sensibilité du test statistique à détecter cet effet. La puissance augmente lorsque la taille de l’échantillon et l’effet inconnu réel augmentent et lorsque la variabilité inter-sujets diminue. Dans une comparaison entre deux groupes, la puissance augmente généralement à mesure que le rapport de répartition se rapproche de 1:1. Pour une expérience donnée, il est souhaitable d’utiliser un test statistique censé avoir une puissance (sensibilité) maximale. Un test statistique moins puissant aura la même puissance qu’un meilleur test appliqué après avoir écarté certaines observations. Par exemple, la recherche de différences dans la proportion de patients souffrant d’hypertension dans une étude portant sur 500 patients peut avoir la même puissance qu’une étude portant sur 350 patients et utilisant la pression artérielle comme variable continue. Voir probabilité de type II. Dans un paradigme bayésien, la puissance peut être définie comme la probabilité que la probabilité postérieure d’un effet soit élevée. Voir également MCID.
P-value : La probabilité d’obtenir un résultat (par exemple, les statistiques t ou χ2) aussi ou plus extrême que la statistique observée si H0 était vrai. Un test de niveau α rejetterait H0 si P ≤ α. Cependant, la peut être indiquée au lieu de choisir une valeur arbitraire de α. Exemples : (1) Un investigateur a comparé deux groupes randomisés pour les différences de pression artérielle systolique, les deux pressions moyennes étant de 134,4 mmHg et 138,2 mmHg. Elle a obtenu une p-value bilatérale = 0,03. Cela signifie que s’il n’y a vraiment pas de différence dans les moyennes de la population, on s’attendrait à trouver une différence dans les moyennes supérieure à 3,8 mmHg dans les deux groupes 0.03 fois du temps. L’enquêteur pourrait conclure qu’il existe des preuves d’un effet du traitement sur la pression artérielle systolique moyenne si les hypothèses du test statistique sont vraies. (2) Un enquêteur a obtenu P = 0,23 pour tester une corrélation égale à zéro, la corrélation de l’échantillon étant de 0,08. La probabilité d’obtenir une corrélation aussi grande ou plus grande en valeur absolue si la corrélation de la population est nulle est de 0,23. Aucune conclusion n’est possible, si ce n’est que (a) davantage de données sont nécessaires et (b) il n’existe aucune preuve convaincante pour ou contre une corrélation nulle. Pour ces deux exemples, des intervalles de compatibilité (de confiance) seraient utiles. La valeur P n’est pas la probabilité que l’hypothèse nulle soit vraie, ni la probabilité que les résultats soient dus au hasard. La valeur P est calculée en supposant que les résultats sont dus au hasard.
Qualité de l’ajustement (goodness of fit) : Évaluation de la concordance des données avec un modèle hypothétique (par exemple, l’indépendance des facteurs de ligne et de colonne dans un tableau de contingence ou la forme d’une relation de régression) ou une distribution hypothétique (par exemple, la comparaison d’un histogramme avec les fréquences attendues de la distribution normale).
Quartiles (quartiles): Les 25e et 75e centiles et la médiane. Ces trois valeurs divisent la distribution d’une variable en quatre intervalles contenant un nombre égal d’observations. Voir percentiles et quantiles.
Rapport de cotes : Le rapport de cotes pour comparer deux groupes (A, B) sur leurs probabilités d’obtenir un résultat est la probabilité que l’événement se produise pour le groupe A divisée par la probabilité qu’il se produise pour le groupe B. Si PA et PB représentent la probabilité du résultat pour les deux groupes de sujets, le rapport de cotes A : B est . Les rapports de cotes sont compris dans l’intervalle [0, ∞]. Un rapport de cotes pour un traitement est une mesure de l’effet relatif de ce traitement sur un résultat binaire. En tant que mesures sommaires, les rapports de cotes présentent des avantages par rapport aux rapports de risque : ils ne dépendent pas de l’un des deux résultats possibles qualifiés d’“événement”, et tout rapport de cotes peut s’appliquer à n’importe quelle probabilité de résultat dans le groupe de référence. Pour cette raison, on constate souvent que les rapports de cotes permettant de comparer les traitements sont relativement constants entre les différents types de patients. Il n’en va pas de même pour les rapports de risque ou les différences de risque, qui dépendent du niveau de risque dans le groupe de référence.
Rapport de risque (hazard ratio): Le rapport des taux de risque à un moment t unique, pour deux types de sujets. Les rapports de risque se situent dans l’intervalle [0, ∞] et constituent souvent un bon moyen de résumer les effets relatifs de deux traitements à un moment précis t. Lorsque le rapport de risque est indépendant de t, le rapport fournit une interprétation causale prospective de l’intention de traiter. Comme les odds ratios, les hazard ratios peuvent s’appliquer à n’importe quel niveau de risque pour le groupe de référence. Il convient de noter qu’un rapport de hasard est différent d’un rapport de risque, ce dernier étant le rapport de deux probabilités simples et non le rapport de deux taux.
Lorsque le rapport de risque n’est pas constant, un modèle statistique qui permet de le faire varier peut encore être utilisé pour estimer des quantités en intention de traiter, telles que l’incidence cumulative des résultats à un moment donné ou la durée de survie moyenne restreinte.
Ratio d’allocation (allocation ratio): Dans un essai randomisé en groupes parallèles de deux traitements, c’est le rapport entre les tailles des échantillons des deux groupes.
Règle ou théorème de Bayes (Bayes’ rule or theorem) :
La probabilité que l’événement A se produise si l’événement B s’est produit est égale à la probabilité que B se produise si A s’est produit, multipliée par la probabilité (inconditionnelle) que A se produise et divisée par la probabilité (inconditionnelle) que B se produise. La règle de Bayes découle immédiatement de la loi de probabilité conditionnelle qui stipule que
.
Règle de notation de la précision appropriée (proper accuracy scoring rule): Lorsqu’elle est appliquée à la prédiction de résultats catégoriels, une règle de notation de la précision des probabilités est une mesure qui est optimisée lorsque les probabilités prédites sont les probabilités de résultats réels. Parmi les exemples de scores de précision appropriés, on peut citer le score de Brier, le score de probabilité logarithmique et le log-vraisemblance d’un modèle statistique correct. Des exemples de règles de notation incorrectes, c’est-à-dire de règles optimisées par un modèle erroné, sont la proportion classée correctement, la sensibilité, la spécificité, la précision, le rappel et l’indice c (aire sous la courbe caractéristique d’exploitation du récepteur).
Régression à la moyenne (regression to the mean) : Tendance d’une variable ayant une valeur extrême lors de sa première mesure à avoir une valeur plus typique lors de sa deuxième mesure. Par exemple, supposons que les sujets doivent avoir un taux de cholestérol LDL > 190 mg% pour pouvoir participer à une étude, et que le taux médian de cholestérol LDL des sujets qualifiés lors de la visite de dépistage est de 230 mg%. La valeur médiane du cholestérol LDL lors de la deuxième visite pourrait être de 200 mg%, avec plusieurs sujets ayant des valeurs inférieures à 190. C’est ce que l’on appelle le “sophomore slump” au baseball ; les joueurs de deuxième année sont surveillés alors qu’ils ont connu des années phénoménales en tant que débutants. La régression à la moyenne prend également de nombreuses autres formes, toutes dues au fait que les variables ou les sous-groupes ne sont pas examinés au hasard, mais plutôt parce qu’ils semblent “impressionnants” : (1) On peut comparer 5 traitements avec un contrôle et choisir le traitement qui présente la différence la plus importante. Lors d’une étude répétée, la réponse moyenne de ce traitement s’avérera beaucoup plus proche de celle du contrôle. (2) Dans un essai contrôlé randomisé, les chercheurs peuvent souhaiter estimer l’effet du traitement dans plusieurs sous-groupes. Ils constatent que chez 40 diabétiques gauchers, le traitement multiplie la mortalité par 0,4. Si l’étude est reproduite, ils constateront que la réduction de la mortalité chez les diabétiques gauchers est beaucoup plus proche de la réduction de la mortalité dans l’ensemble de l’échantillon de patients. (3) Des chercheurs étudient l’association entre 40 facteurs de risque possibles et un certain résultat, et constatent que le facteur ayant l’association la plus forte a une corrélation de 0,5 avec la réponse. En répétant l’expérience, la corrélation sera beaucoup plus faible. Ce résultat est très proche de ce qui se produit lors de la sélection progressive des variables, où les variables les plus significatives statistiquement sélectionnées verront leur importance (coefficients de régression) largement surestimée.
Risques proportionnels (proportional hazards): Cette hypothèse est remplie si deux catégories de patients sont comparées et que leur rapport de risque est constant dans le temps (bien que les risques instantanés puissent varier) (Bull & Spiegelhalter, 1997).
Risque relatif ou ratio de risque (relative risk or risk ratio) : Le rapport des probabilités de deux événements. Contrairement aux odds ratio et aux hazard ratio, les ratios de risques ne peuvent pas être constants, mais doivent dépendre du risque de base (par exemple, le risque pour un sujet qui ne présente pas de facteur de risque). Par exemple, un ratio de risque de 2 ne peut s’appliquer qu’aux sujets dont le risque de base est < 1/2 . Contrairement au rapport de cotes, le rapport de risque dépend grandement de celui des deux résultats qui est qualifié d’« événement » ; un taux de mortalité n’est pas égal au taux de survie. Le terme risque relatif est souvent utilisé de manière inappropriée pour décrire un rapport de cotes ou un rapport de risque. (Bull et Spiegelhalter, 1997).
Réplication, reproduction, robustesse, généralisation (replication, reproduction, robust, generalization) : La reproduction consiste à exécuter ce qui est apparemment la même analyse de données que celle utilisée par les auteurs originaux, sur leurs données. La réplication consiste à effectuer l’analyse originale sur de nouvelles données. Un résultat robuste consiste à obtenir en grande partie le même résultat avec une analyse différente sur l’ensemble de données d’origine. La généralisation consiste à opérationnaliser différemment l’expérience et l’analyse, à utiliser de nouvelles données et à obtenir en grande partie le même résultat (par exemple, en utilisant une plate-forme de génétique, de protéomique ou d’imagerie différente ou en traduisant un questionnaire dans une autre langue et en réalisant une enquête dans un autre pays). La généralisation est également considérée comme la validation du fait qu’un traitement fonctionne de la même manière sur des patients différents de ceux d’une étude clinique. La reproductibilité potentielle signifie que les chercheurs ont fourni un code de manipulation et d’analyse des données qui est entièrement autonome et qui pourrait être exécuté par une autre personne pour obtenir tous les résultats analytiques obtenus par les chercheurs initiaux.
Résidu (residuals): Une quantité statistique qui ne devrait pas être liée à certaines autres variables parce que leurs effets devraient déjà avoir été soustraits. Dans la régression multiple ordinaire, le résidu le plus couramment utilisé est la différence entre les valeurs prédites et les valeurs observées.
Risque (risk): Souvent utilisé comme un autre nom pour désigner la probabilité, mais une définition plus précise est la probabilité d’un événement défavorable × la gravité de la perte qu’entraînerait la survenance de cet événement.
Temps de survie (survival time): Intervalle entre l’origine temporelle et l’apparition de l’événement ou la censure (Bull & Spiegelhalter, 1997).
Test bilatéral (two_sided test) : Un test qui n’est pas directionnel et qui conduit à une p-value bilatérale. Si l’hypothèse nulle H0 est que deux traitements ont le même résultat en termes de mortalité, une alternative bilatérale est que la différence de mortalité n’est pas nulle. Les p-values bilatérales sont plus importantes que les p-values unilatérales (elles sont doubles si la distribution de la statistique du test est symétrique). Elles peuvent être considérées comme un ajustement de multiplicité qui permettrait d’affirmer qu’un traitement réduit ou augmente la mortalité. Voir également test unilatéral.
Science des données : Un mariage homosexuel entre les statistiques et l’informatique.
Sensibilité et spécificité (*sensitivity and specificity): Une façon de quantifier l’utilité d’un test de diagnostic lorsque la maladie et le test sont tous deux binaires. La sensibilité est la probabilité qu’un patient atteint de la maladie ait un test positif, et la spécificité est la probabilité qu’un patient non atteint de la maladie ait un test négatif. Comme ces probabilités sont conditionnelles au résultat, elles sont plus utiles pour les études rétrospectives cas-témoins. En général, il est plus naturel et plus utile d’étudier les variations des probabilités de maladie après le test en fonction des différents résultats du test et des différentes caractéristiques du patient avant le test car (1) en général, la sensibilité et la spécificité varient en fonction du type de patient diagnostiqué, (2) la sensibilité augmente avec la gravité de la maladie présente à moins que la maladie ne soit tout ou rien, (3) la spécificité peut varier en fonction des gradations de la quantité préclinique de la maladie et (4) de nombreux tests diagnostiques sont basés sur des mesures continues plutôt que binaires (Hlatky et al., 1984). Les modèles multivariables sont très utiles pour estimer les probabilités post-test. L’étalonnage et la discrimination des probabilités post-test peuvent être quantifiés.
Taille effective de l’échantillon (effective dergrees of freedom) : En ce qui concerne les variables de résultats, la taille de l’échantillon pour une analyse d’une réponse continue sans lien dans les données, de sorte que l’analyse de la réponse continue a la même puissance statistique que l’analyse de la variable de réponse originale en utilisant la taille d’échantillon apparente la plus élevée. Pour une étude avec une taille d’échantillon n sur une réponse continue Y, la taille effective de l’échantillon est n. Pour le délai d’attente, la taille effective de l’échantillon est n. Dans l’analyse d’événements pour des données censurées à droite à partir d’une distribution exponentielle ou à l’aide du modèle des risques proportionnels de Cox/test de Logrank, la taille effective de l’échantillon est le nombre d’événements observés. Pour Y ordinal, ou Y continu avec quelques égalités, une façon d’estimer ess est de trouver la taille de l’échantillon qui fait qu’un test de Wilcoxon à deux échantillons basé sur une réponse sans égalités a la même puissance qu’un test de Wilcoxon basé sur un échantillon de plus grande taille, l’ampleur des égalités étant celle observée dans les données réelles. Voir ce document pour plus d’informations.
Taux (rate): Un rapport tel qu’un changement par unité de temps. Les taux sont souvent des limites et ne doivent pas être confondus avec les probabilités. Ces dernières sont contraintes d’être comprises entre 0 et 1, alors qu’il n’y a pas de contraintes sur les valeurs possibles pour les taux. Un taux peut également être un rapport tel que “chutes par distance parcourue” ou “bactéries par unité de surface”. R. A. Fisher a défini un taux comme un rapport entre deux quantités ayant des unités de mesure différentes.
Taux de risque (hazard rate) : Le risque instantané qu’un patient subisse un événement particulier à chaque moment spécifié (Bull & Spiegelhalter, 1997). Le taux instantané avec lequel un événement se produit à un moment donné. Il s’agit de la probabilité que l’événement se produise entre le temps t et le temps t + δ, étant donné qu’il ne s’est pas encore produit au temps t, divisée par δ, δ devenant de plus en plus petit. Notez que les taux, contrairement aux probabilités, peuvent dépasser 1,0 parce qu’ils sont des quotients.
Temps de survie moyen restreint (restricted mean survival time) : La RMST représente la durée moyenne pendant laquelle les sujets ne subissent aucun événement sur l’intervalle [0, τ]. Il s’agit d’un cas particulier du modèle multi-états plus général qui peut gérer plusieurs types d’événements et des événements récurrents dans l’estimation des probabilités d’occupation de l’état, par exemple le nombre moyen de jours en vie et non hospitalisés.
Tests non paramétriques (non parametric test): Un test qui fait des hypothèses minimales sur la distribution des données ou sur certains paramètres d’un modèle statistique. Les tests non paramétriques pour les variables ordinales ou continues sont généralement basés sur les rangs des valeurs des données. Ces tests ne sont pas affectés par une transformation univoque des données, par exemple en prenant les logs. Même si les données proviennent d’une distribution normale, les tests de rang perdent très peu d’efficacité (ils ont une efficacité relative de si la distribution est normale) par rapport aux tests paramétriques tels que le test t et le test de corrélation linéaire. Si les données ne sont pas normales, un test de classement peut être beaucoup plus efficace que le test paramétrique correspondant. Pour ces raisons, il n’est pas très fructueux de tester la normalité des données et de décider ensuite entre les approches paramétriques et non paramétriques. En outre, les tests de normalité ne sont pas toujours très puissants. Parmi les exemples de tests non paramétriques, citons le test de Wilcoxon-Mann-Whitney à deux échantillons, le test de Wilcoxon signé à un échantillon (généralement utilisé pour les données appariées) et les tests de corrélation de rangs de Spearman, Kendall ou Somers. Même si les tests non paramétriques ne supposent pas de distribution spécifique pour un groupe, ils supposent un lien entre les distributions de deux groupes. Par exemple, le test du logrank suppose des risques proportionnels, c’est-à-dire que la courbe de survie du groupe A est une puissance de la courbe de survie du groupe B. Le test de Wilcoxon, pour une puissance optimale, suppose que les distributions cumulées sont proportionnelles.
Test paramétrique (parametric test) : Un test qui émet des hypothèses spécifiques sur la distribution des données ou des hypothèses spécifiques sur les paramètres du modèle. Les exemples incluent le test t et le test de corrélation linéaire du moment du produit de Pearson.
Test unilatéral (one sided test) : Test conçu pour tester une hypothèse directionnelle, produisant une p-value unilatérale. Par exemple, on peut tester l’hypothèse nulle H0 selon laquelle il n’y a pas de différence de mortalité entre deux traitements, l’hypothèse alternative étant que le nouveau médicament réduit la mortalité. Voir également test bilatéral.
Valeur critique (critcal value) : La valeur d’une statistique de test (par exemple, t, F, χ2, z) qui, si elle est dépassée par la statistique de test observée, se traduirait par une signification statistique à un niveau α choisi ou mieux. Pour un test z (test d’écart normal), le niveau critique de z est de 1,96 lorsque α = 0,05 pour un test bilatéral. Pour les tests t et F, les valeurs critiques diminuent à mesure que la taille de l’échantillon augmente, car la pénalité liée à l’estimation de la variance de la population est moins importante lorsque n est grand.
Validation croisée (cross validation) : Cette technique consiste à exclure m patients à la fois, à ajuster un modèle sur les n – m patients restants et à obtenir une évaluation impartiale de la précision prédictive sur les m patients. La moyenne des estimations est calculée sur ≥ n/m répétitions. La validation croisée fournit des estimations qui présentent plus de variations que celles issues du bootstrapping. Elle peut nécessiter > 200 ajustements de modèles pour produire des estimations précises de la précision prédictive.
Variable binaire (binary variable) : Une variable qui n’a que deux valeurs possibles, généralement zéro et un.
Variable catégorielle (categorical variable): Variable n’ayant que certaines valeurs possibles pour lesquelles il n’existe pas d’ordre logique des valeurs. Également appelée variable ou facteur nominal, polytomique ou catégorielle discrète.
Variable continue (continuous variable) : Une variable qui peut prendre n’importe quel nombre de valeurs possibles. En pratique, lorsqu’une variable peut prendre au moins, disons, 10 valeurs, elle peut être traitée comme une variable continue. Par exemple, elle peut être représentée sur un nuage de points et certains calculs significatifs peuvent être effectués à l’aide de cette variable.
Variable dépendante, réponse, résultat (dependent, response, outcome, endpoint variable) : une variable temporelle binaire, catégorielle, ordinale, continue ou censurée qui est considérée comme la cible d’une prédiction ou d’une intervention. Dans ce dernier cas, la variable réponse est supposée mesurer une réponse au traitement quelque temps après le début de celui-ci (ou après la randomisation pour un traitement). La variable dépendante peut être univariée, c’est-à-dire mesurée à un moment donné ou représentant le temps écoulé jusqu’à un premier événement, ou multivariée, représentant plusieurs variables de réponse (par exemple, la pression artérielle systolique et diastolique) ou représentant une variable de réponse mesurée longitudinalement.
Variable ordinale (ordinal variable) : Variable catégorielle pour laquelle il existe un ordre précis des catégories. Par exemple, la gravité des douleurs lombaires peut être classée comme suit : aucune, légère, modérée, grave, et codée à l’aide de ces noms ou de codes numériques tels que 0, 1, 2, 10. L’espacement entre les codes n’est pas important.
Variance (variance): Mesure de la dispersion ou de la variabilité d’une distribution, égale à la valeur moyenne du carré de la différence entre les mesures et la mesure moyenne de la population. À partir d’un échantillon de mesures, la variance est estimée par la variance de l’échantillon, qui est la somme des carrés des différences par rapport à la moyenne de l’échantillon, divisée par le nombre de mesures moins 1. Le moins 1 est une sorte de “pénalité” qui corrige l’estimation de la moyenne de la population avec la moyenne de l’échantillon. Les variances ne sont généralement utiles que lorsque les mesures suivent une distribution normale ou au moins symétrique.
Variable fictive (dummy variable) : Un dispositif utilisé dans un modèle de régression multivariable pour décrire un prédicteur catégoriel sans supposer une notation numérique. Le terme “variable indicatrice” serait plus approprié. Par exemple, les traitements A, B, C peuvent être décrits par les deux variables prédictives muettes X1 et X2, où X1 est une variable binaire prenant la valeur 1 si le traitement du sujet est B et 0 sinon, et X2 prend la valeur 1 si le sujet suit le traitement C et 0 sinon. Les deux variables nominales définissent complètement 3 catégories, car lorsque X1 = X2 = 0, le traitement est A.
Richard Goldstein a apporté de précieux ajouts et clarifications au glossaire ainsi que des citations supplémentaires de statistiques médicales. Comme indiqué dans le glossaire, plusieurs définitions proviennent de (Bull & Spiegelhalter, 1997). Merci à Sebastian Baumeister pour la définition de “confounder”. Raphael Peter a étendu la définition du taux. Rob Zinkov et Raphael Peter ont contribué à la définition des essais cliniques. Julia Rohrer a fourni l’essentiel des définitions de la reproductibilité, de la réplicabilité, de la robustesse et de la généralisabilité. Ronan Conroy a amélioré les définitions de l’intervalle interquartile et de l’étude observationnelle et a incité à améliorer le modèle paramétrique et à créer une définition des degrés de liberté. Merci à Bryan Shepherd d’avoir indiqué la meilleure définition formelle de la confusion. Andrew Spieker a fourni la définition de l’inférence causale.
En conclusion, j’espère que cette traduction du glossaire de Frank Harrell a rendu les concepts statistiques plus clairs et accessibles pour les francophones. L’idée était de démystifier ces termes parfois intimidants, et de les rendre aussi simples et compréhensibles que possible. Si, en parcourant ce glossaire, vous pensez à des termes qui mériteraient d’être ajoutés ou si vous avez des suggestions de définitions plus précises, n’hésitez pas à les partager en commentaire. Vos contributions sont précieuses et aideront notre communauté à s’enrichir et à progresser ensemble.
Retrouver le planning et les programmes de mes formations ici 👇👇👇
Retrouver mes propositions de services ici 👇👇👇
C’est possible en faisant un don sur la page Tipeee du blog
© 2025 Tous droits réservés
Enregistrez vous pour recevoir gratuitement mes fiches « aide mémoire » (ou cheat sheets) qui vous permettront de réaliser facilement les principales analyses biostatistiques avec le logiciel R et pour être informés des mises à jour du site.
7 réponses
Merci pour votre travail ! très instructif.
Bonjour,
Je tiens à vous remercier pour les différentes publications que vous avez réalisées et qui sont toujours très utiles.
Je ferai juste une remarque sur les définitions d’ Étalonnage et de Fiabilité qui s’éloignent des définitions de références données par le VIM JCGM 200:2012 Internationnal vacabulary of metrology en accès libre sur le site du BIPM.
Même si chaque corps de métier à son propre vocabulaire, les définitions données par le VIM ont été adoptées par l’ensemble des acteurs de la recherche et de l’industrie.
Merci encore pour votre travail.
Bonjour,
Merci pour ce glossaire, peut-être serait-il possible de l’enrichir par l’ajout des termes « redressement » et « variable auxiliaire » ?
Bien cordialement
Bonjour,
Merci pour cet article très complet. très utile lors de la rédaction d’article ou manuscrit en français où il est parfois difficile de trouver le bon terme n français tellement les termes en anglais sont partout
Encore une fois quelque chose de très utile.
Cordialement
Un grand merci pour ce travail magnifique !
J’exprime toute ma gratitude pour ce glossaire qui nous oriente dans la science statistique à travers son langage et son esprit d’orientation scientifique.