10 packages pour accélérer et simplifier vos analyses statistiques

library(summarytools) library(tidyverse) # utilisation des données tobacco du package summarytools tobacco <- summarytools::tobacco %>% select(-samp.wgts) # suppression d'une variable sas intérêt summarytools :: descr(tobacco) Descriptive Statistics tobacco N: 1000 age BMI cigs.per.day ----------------- -------- -------- -------------- Mean 49.60 25.73 6.78 Std.Dev 18.29 4.49 11.88 Min 18.00 8.83 0.00 Q1 34.00 22.93 0.00 Median 50.00 25.62 0.00 Q3 66.00 28.65 11.00 Max 80.00 39.44 40.00 MAD 23.72 4.18 0.00 IQR 32.00 5.72 11.00 CV 0.37 0.17 1.75 Skewness -0.04 0.02 1.54 SE.Skewness 0.08 0.08 0.08 Kurtosis -1.26 0.26 0.90 N.Valid 975.00 974.00 965.00 Pct.Valid 97.50 97.40 96.50

summarytools :: descr(tobacco, stats = c("mean", "sd", "min", "max")) Descriptive Statistics tobacco N: 1000 age BMI cigs.per.day ------------- ------- ------- -------------- Mean 49.60 25.73 6.78 Std.Dev 18.29 4.49 11.88 Min 18.00 8.83 0.00 Max 80.00 39.44 40.00

summarytools :: freq(tobacco) Variable(s) ignored: age, BMI, cigs.per.day Frequencies tobacco$gender Type: Factor Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- F 489 50.00 50.00 48.90 48.90 M 489 50.00 100.00 48.90 97.80 <NA> 22 2.20 100.00 Total 1000 100.00 100.00 100.00 100.00 tobacco$age.gr Type: Factor Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- 18-34 258 26.46 26.46 25.80 25.80 35-50 241 24.72 51.18 24.10 49.90 51-70 317 32.51 83.69 31.70 81.60 71 + 159 16.31 100.00 15.90 97.50 <NA> 25 2.50 100.00 Total 1000 100.00 100.00 100.00 100.00 tobacco$smoker Type: Factor Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- Yes 298 29.80 29.80 29.80 29.80 No 702 70.20 100.00 70.20 100.00 <NA> 0 0.00 100.00 Total 1000 100.00 100.00 100.00 100.00 tobacco$diseased Type: Factor Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- Yes 224 22.40 22.40 22.40 22.40 No 776 77.60 100.00 77.60 100.00 <NA> 0 0.00 100.00 Total 1000 100.00 100.00 100.00 100.00 tobacco$disease Type: Character Freq % Valid % Valid Cum. % Total % Total Cum. --------------------- ------ --------- -------------- --------- -------------- Cancer 34 15.32 15.32 3.40 3.40 Cholesterol 21 9.46 24.77 2.10 5.50 Diabetes 14 6.31 31.08 1.40 6.90 Digestive 12 5.41 36.49 1.20 8.10 Hearing 14 6.31 42.79 1.40 9.50 Heart 20 9.01 51.80 2.00 11.50 Hypertension 36 16.22 68.02 3.60 15.10 Hypotension 11 4.95 72.97 1.10 16.20 Musculoskeletal 19 8.56 81.53 1.90 18.10 Neurological 10 4.50 86.04 1.00 19.10 Other 2 0.90 86.94 0.20 19.30 Pulmonary 20 9.01 95.95 2.00 21.30 Vision 9 4.05 100.00 0.90 22.20 <NA> 778 77.80 100.00 Total 1000 100.00 100.00 100.00 100.00

ctable(tobacco$smoker, tobacco$diseased, chisq = TRUE) Cross-Tabulation, Row Proportions smoker * diseased Data Frame: tobacco -------- ---------- ------------- ------------- --------------- diseased Yes No Total smoker Yes 125 (41.9%) 173 (58.1%) 298 (100.0%) No 99 (14.1%) 603 (85.9%) 702 (100.0%) Total 224 (22.4%) 776 (77.6%) 1000 (100.0%) -------- ---------- ------------- ------------- --------------- ---------------------------- Chi.squared df p.value ------------- ---- --------- 91.7088 1 0 ----------------------------

ctable(tobacco$smoker, tobacco$diseased, chisq = TRUE, prop = "c") Cross-Tabulation, Column Proportions smoker * diseased Data Frame: tobacco -------- ---------- -------------- -------------- --------------- diseased Yes No Total smoker Yes 125 ( 55.8%) 173 ( 22.3%) 298 ( 29.8%) No 99 ( 44.2%) 603 ( 77.7%) 702 ( 70.2%) Total 224 (100.0%) 776 (100.0%) 1000 (100.0%) -------- ---------- -------------- -------------- ---------------

library(gtsummary) # pour supprimer la marque de milliers theme_gtsummary_language("en", big.mark = "") Setting theme `language: en` tobacco %>% tbl_summary( by=diseased, # strate digits=list(all_categorical()~c(0,2), all_continuous()~2), statistic = list(all_continuous() ~ "{mean} ({sd})", all_categorical() ~ "{n} ({p}%)"))

Characteristic	Yes, N = 224¹	No, N = 776¹
gender
F	111 (50.23%)	378 (49.93%)
M	110 (49.77%)	379 (50.07%)
Unknown	3	19
age	53.07 (18.84)	48.61 (18.02)
Unknown	7	18
age.gr
18-34	47 (21.66%)	211 (27.84%)
35-50	48 (22.12%)	193 (25.46%)
51-70	74 (34.10%)	243 (32.06%)
71 +	48 (22.12%)	111 (14.64%)
Unknown	7	18
BMI	26.41 (4.57)	25.53 (4.45)
Unknown	4	22
smoker	125 (55.80%)	173 (22.29%)
cigs.per.day	14.83 (15.26)	4.42 (9.47)
Unknown	5	30
disease
Cancer	34 (15.32%)	0 (NA%)
Cholesterol	21 (9.46%)	0 (NA%)
Diabetes	14 (6.31%)	0 (NA%)
Digestive	12 (5.41%)	0 (NA%)
Hearing	14 (6.31%)	0 (NA%)
Heart	20 (9.01%)	0 (NA%)
Hypertension	36 (16.22%)	0 (NA%)
Hypotension	11 (4.95%)	0 (NA%)
Musculoskeletal	19 (8.56%)	0 (NA%)
Neurological	10 (4.50%)	0 (NA%)
Other	2 (0.90%)	0 (NA%)
Pulmonary	20 (9.01%)	0 (NA%)
Vision	9 (4.05%)	0 (NA%)
Unknown	2	776
¹ n (%); Mean (SD)

gender

111 (50.23%)

378 (49.93%)

110 (49.77%)

379 (50.07%)

Unknown

age

53.07 (18.84)

48.61 (18.02)

Unknown

age.gr

18-34

47 (21.66%)

211 (27.84%)

35-50

48 (22.12%)

193 (25.46%)

51-70

74 (34.10%)

243 (32.06%)

71 +

48 (22.12%)

111 (14.64%)

Unknown

BMI

26.41 (4.57)

25.53 (4.45)

Unknown

smoker

125 (55.80%)

173 (22.29%)

cigs.per.day

14.83 (15.26)

4.42 (9.47)

Unknown

disease

Cancer

34 (15.32%)

0 (NA%)

Cholesterol

21 (9.46%)

0 (NA%)

Diabetes

14 (6.31%)

0 (NA%)

Digestive

12 (5.41%)

0 (NA%)

Hearing

14 (6.31%)

0 (NA%)

Heart

20 (9.01%)

0 (NA%)

Hypertension

36 (16.22%)

0 (NA%)

Hypotension

11 (4.95%)

0 (NA%)

Musculoskeletal

19 (8.56%)

0 (NA%)

Neurological

10 (4.50%)

0 (NA%)

Other

2 (0.90%)

0 (NA%)

Pulmonary

20 (9.01%)

0 (NA%)

Vision

9 (4.05%)

0 (NA%)

Unknown

776

¹ n (%); Mean (SD)

library(ggstatsplot) ggbetweenstats(data = iris, x = Species, y = Sepal.Length, title = "Length of Sepal by Species", xlab = "Species", ylab = "Sepal.Length", type = "p", var.equal = TRUE)

library(parameters) library(summarytools) # pour les data tobacco diseased.fit <- glm(diseased ~gender+ smoker + age.gr + BMI, data=tobacco, family = "binomial") model_parameters(diseased.fit, exponentiate = TRUE) Parameter | Odds Ratio | SE | 95% CI | z | p ------------------------------------------------------------------- (Intercept) | 4.95 | 2.60 | [1.78, 14.02] | 3.04 | 0.002 gender [M] | 0.98 | 0.17 | [0.71, 1.37] | -0.09 | 0.927 smoker [No] | 4.74 | 0.80 | [3.41, 6.61] | 9.23 | < .001 age gr [35-50] | 0.97 | 0.24 | [0.60, 1.58] | -0.12 | 0.907 age gr [51-70] | 0.79 | 0.18 | [0.50, 1.24] | -1.00 | 0.318 age gr [71 +] | 0.56 | 0.15 | [0.33, 0.95] | -2.16 | 0.030 BMI | 0.96 | 0.02 | [0.92, 0.99] | -2.22 | 0.027 Uncertainty intervals (profile-likelihood) and p-values (two-tailed) computed using a Wald z-distribution approximation.

library(finalfit) explanatory = c("gender", "age.gr", "smoker", "BMI") explanatory_multi = c("age.gr", "smoker", "BMI") dependent = 'diseased' summarytools::tobacco %>% finalfit(dependent, explanatory, explanatory_multi) Dependent: diseased Yes No OR (univariable) gender F 111 (22.7) 378 (77.3) - M 110 (22.5) 379 (77.5) 1.01 (0.75-1.37, p=0.939) age.gr 18-34 47 (18.2) 211 (81.8) - 35-50 48 (19.9) 193 (80.1) 0.90 (0.57-1.40, p=0.629) 51-70 74 (23.3) 243 (76.7) 0.73 (0.48-1.10, p=0.134) 71 + 48 (30.2) 111 (69.8) 0.52 (0.32-0.82, p=0.005) smoker Yes 125 (41.9) 173 (58.1) - No 99 (14.1) 603 (85.9) 4.40 (3.22-6.03, p<0.001) BMI Mean (SD) 26.4 (4.6) 25.5 (4.4) 0.96 (0.92-0.99, p=0.011) OR (multivariable) - - - 1.00 (0.62-1.61, p=0.988) 0.82 (0.53-1.28, p=0.394) 0.54 (0.32-0.90, p=0.018) - 4.45 (3.22-6.19, p<0.001) 0.96 (0.92-1.00, p=0.033)

library(emmeans) emmeans(SL.aov, pairwise ~ Species, adjust = "tukey") $emmeans Species emmean SE df lower.CL upper.CL setosa 5.01 0.0728 147 4.86 5.15 versicolor 5.94 0.0728 147 5.79 6.08 virginica 6.59 0.0728 147 6.44 6.73 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value setosa - versicolor -0.930 0.103 147 -9.033 <.0001 setosa - virginica -1.582 0.103 147 -15.366 <.0001 versicolor - virginica -0.652 0.103 147 -6.333 <.0001 P value adjustment: tukey method for comparing a family of 3 estimates

library(emmeans) diseased.fit <- glm(diseased ~ smoker , data=tobacco, family = "binomial") emmeans(diseased.fit, pairwise ~ smoker, type = "response") $emmeans smoker prob SE df asymp.LCL asymp.UCL Yes 0.581 0.0286 Inf 0.524 0.635 No 0.859 0.0131 Inf 0.831 0.883 Confidence level used: 0.95 Intervals are back-transformed from the logit scale $contrasts contrast odds.ratio SE df null z.ratio p.value Yes / No 0.227 0.0363 Inf 1 -9.272 <.0001 Tests are performed on the log odds ratio scale

ToothGrowth$dose <- as.factor(ToothGrowth$dose) TG.aov <- aov(len ~ supp*dose, contrasts=list(dose=contr.sum, supp=contr.sum), data=ToothGrowth) emmeans(TG.aov, pairwise ~ supp|dose, adjust = "tukey")$contrasts dose = 0.5: contrast estimate SE df t.ratio p.value OJ - VC 5.25 1.62 54 3.233 0.0021 dose = 1: contrast estimate SE df t.ratio p.value OJ - VC 5.93 1.62 54 3.651 0.0006 dose = 2: contrast estimate SE df t.ratio p.value OJ - VC -0.08 1.62 54 -0.049 0.9609

mtcars$am <- as.factor(mtcars$am) mtcars.fit <- lm(mpg~ wt + am + wt:am, data=mtcars) emtrends(mtcars.fit, pairwise ~ am, var = "wt", infer=TRUE) $emtrends am wt.trend SE df lower.CL upper.CL t.ratio p.value 0 -3.79 0.786 28 -5.4 -2.18 -4.819 <.0001 1 -9.08 1.212 28 -11.6 -6.60 -7.493 <.0001 Confidence level used: 0.95 $contrasts contrast estimate SE df lower.CL upper.CL t.ratio p.value am0 - am1 5.3 1.44 28 2.34 8.26 3.667 0.0010 Confidence level used: 0.95 emmip(mtcars.fit , am ~ wt, cov.reduce = range,linearg = list(size=

library(report) # création d'un jeu de données avec les espèces versicolor et virginica iris2<- iris %>% dplyr::filter(Species != "setosa") %>% droplevels() report(t.test(Sepal.Length ~ Species, data = iris2, var.equal = TRUE)) Warning: Unable to retrieve data from htest object. Returning an approximate effect size using t_to_d(). Warning: Function `format_text()` is deprecated and will be removed in a future release. Please use `text_format()` instead. Effect sizes were labelled following Cohen's (1988) recommendations. The Two Sample t-test testing the difference of Sepal.Length by Species (mean in group versicolor = 5.94, mean in group virginica = 6.59) suggests that the effect is negative, statistically significant, and large (difference = -0.65, 95% CI [-0.88, -0.42], t(98) = -5.63, p < .001; Cohen's d = -1.14, 95% CI [-1.56, -0.71])

library(summarytools) # pour les data tobacco diseased.fit <- glm(diseased ~ smoker + age.gr + BMI, data=tobacco, family = "binomial") library(GGally) ggcoef_model(diseased.fit, exponentiate = TRUE)

17 réponses

Laurent Chevaillier dit :
4 juillet 2024 à 7 h 12 min
Merci pour ce tour d’horizon magistral
Répondre
Alexandre Flouret dit :
4 juillet 2024 à 8 h 39 min
Merci pour ses découvertes c’est top !
Pour ma part j’aime beaucoup le package rstatix, il me permet d’utiliser le système de pipe avec les outils tidyverse =). Dans ce même package la fonction get_summary_stat semble assez proche de summarytools :: descr().
Le package pour extraire les paramètres d’équation, j’adore !
Une bonne journée
Répondre
Jérémie DOKO dit :
4 juillet 2024 à 8 h 49 min
Bonjour Madame. Votre article est très intéressant. Pas plus tard qu’hier j’ai découvert GGally et appliqué. Merci beaucoup. J’ai trouvé solution à mes soucis d’analyse statistique. Ravi de faire partie de votre belle communauté.
Répondre
BONOU dit :
4 juillet 2024 à 9 h 54 min
Bonjour
Excellent travail qui motive à utiliser davantage R
Je vous suggère de penser à un autre package de R qui s’appelle ARSENAL
Cordialement
Répondre
Nathalie Lévêque dit :
4 juillet 2024 à 10 h 52 min
Bonjour Claire
c’est génial, merci infiniment pour cet article.
Nathalie
Répondre
Batumbo dit :
4 juillet 2024 à 11 h 20 min
C’est genial Mme pour ce travail bien fait. Je suis heureux de faire partie de ta communauté.
Répondre
Salissou Abdou dit :
4 juillet 2024 à 13 h 04 min
Bonjour Claire c’est super merci
Répondre
Francois Gardavaud dit :
4 juillet 2024 à 14 h 51 min
Merci pour ce résumé
Arsenal est également un must have pour les tables 1.
Répondre
Babacar Ngom dit :
4 juillet 2024 à 15 h 39 min
Bonjour Claire,
Article interessant et tres instructif pour les utilIsateurs de R.
Top..
Merci!
Répondre
Hadidja dit :
6 juillet 2024 à 10 h 54 min
Je vous remercie pour votre hostilité
Répondre
Hadidja dit :
6 juillet 2024 à 10 h 55 min
Je vous remercie pour votre hospitalité
Répondre
Hadidja dit :
6 juillet 2024 à 10 h 56 min
Merci pour votre hospitalité
Répondre
Sidi dit :
6 juillet 2024 à 11 h 42 min
Bonjour,
Je vous remercie pour ces explications autour de ces pckages, irremplaçables.
Excellent
Sidi
Répondre
BAHOUAR dit :
10 juillet 2024 à 22 h 39 min
Merci infiniment pour vos efforts de partage, c’est très intéressant et très pédagogique !
Répondre
Lanceï KABA dit :
16 juillet 2024 à 18 h 42 min
C’est super
Répondre
Paul Armand KWATE NJEWA dit :
8 août 2024 à 10 h 09 min
Bonjour Claire
comme tu sais si bien le faire, très digeste.
Merci du partage
Répondre
Cyrille dit :
9 octobre 2024 à 9 h 51 min
Bonjour,
Merci beaucoup, cet article est une mine d’information !
Répondre

10 packages pour accélérer et simplifier vos analyses statistiques

Table des matières

Analyses descriptives complètes avec summarytool

Analyses descriptives sur-mesure avec le package gtsummary

Vérification des conditions d’application des tests et modèles statistiques avec le package performance

Visualisation des distributions et comparaisons avec le package ggstatsplot

Obtenir les coefficients dans l’échelle de son choix avec le package parameters

Obtenir les coefficients des analyses uni-variées et multivariées avec le package finalfit

Test post hoc avec le package emmeans

Obtenir l’équation de modèles avec equatiomatic

Rédiger les conclusions des tests statistiques avec le package report

Visualiser les résultats de modèle de régression avec le package GGally

Autres packages que j’utilise régulièrement pour les analyses statistiques

Conclusion

17 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez vous former à R, ou aux statistiques ?

Vous avez besoin d'un assitance pour analyser vos données ?

Vous souhaitez soutenir mon travail ?

Aide mémoire off'R ;)

10 packages pour accélérer et simplifier vos analyses statistiques

Table des matières

Analyses descriptives complètes avec summarytool

Analyses descriptives sur-mesure avec le package gtsummary

Vérification des conditions d’application des tests et modèles statistiques avec le package performance

Visualisation des distributions et comparaisons avec le package ggstatsplot

Obtenir les coefficients dans l’échelle de son choix avec le package parameters

Obtenir les coefficients des analyses uni-variées et multivariées avec le package finalfit

Test post hoc avec le package emmeans

Obtenir l’équation de modèles avec equatiomatic

Rédiger les conclusions des tests statistiques avec le package report

Visualiser les résultats de modèle de régression avec le package GGally

Autres packages que j’utilise régulièrement pour les analyses statistiques

Conclusion

17 réponses

Laisser un commentaire Annuler la réponse

Vous souhaitez vous former à R, ou aux statistiques ?

Vous avez besoin d'un assitance pour analyser vos données ?

Vous souhaitez soutenir mon travail ?​

Aide mémoire off'R ;)

Vous souhaitez soutenir mon travail ?