Analyses statistiques descriptives de données numériques – partie 2
Dans ce nouveau post, je vais vous montrer comment réaliser simplement des analyses statistiques descriptives de vos données numériques avec le logiciel R. Comme expliqué dans la première partie de cette série sur les analyses statistiques descriptives il s’agit d’estimer un certain nombre de paramètres de position et de dispersion.
Pour réaliser facilement des analyses statistiques descriptives, il est important que vos données soient structurées selon un format dit tidy. Selon ce format :
1. les variables sont en colonne, et chaque variable mesurée doit correspondre à une seule colonne. 2. les observations sont en lignes, et si plusieurs observations ontété faites pour une variable donnée, ces observations doivent êtresur des lignes différentes. 3. A l’intersection des lignes et des colonnes se trouvent les valeursmesurées.
Pour illustrer cet article, je vais utiliser le jeu de données `iris` qui se trouve dans le package `dataset` qui est chargé par défaut par le logiciel R à chaque ouverture de session. Il n’est donc pas nécessaire d’importer le jeu de données dans R. Néanmoins les étapes pour importer un jeu de données dans le logiciel R sont décrites ici.
1. Le jeu de données irisPour visualiser les 10 premières lignes du jeu de données `iris`, utilisez `head(iris,10)`. De la même façon vous pouvez afficher les 5 (par exemple) dernières lignes en utilisant `tail(iris,5)`.
> head(iris, 10) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa 8 5.0 3.4 1.5 0.2 setosa 9 4.4 2.9 1.4 0.2 setosa 10 4.9 3.1 1.5 0.1 setosa > > tail(iris,5) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 146 6.7 3.0 5.2 2.3 virginica 147 6.3 2.5 5.0 1.9 virginica 148 6.5 3.0 5.2 2.0 virginica 149 6.2 3.4 5.4 2.3 virginica 150 5.9 3.0 5.1 1.8 virginica
Le jeu de données *iris* est bien sous la forme dit *tidy*, puisque les variables sont en colonne, les observations en ligne, et les valeurs mesurées à l’intersection des lignes et des colonnes.
Le jeu de données *iris* est composé de 5 variables:
– Sepal.Length – Sepal.Width – Petal.Length – Petal.Width – Species
Les quatre premières sont des variables numériques continues, et la cinquième est une variable catégorielle à 3 modalités (setosa /versicolor / virginica).
La commande `str(iris)` permet de connaitre les types des variables (numérique / catégorielle (ou facteur)), alors que la commande `levels(iris$Species)` permet d’avoir accès aux différentes modalités de la variable catégorielle.
> str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ... >levels(iris$Species) [1] "setosa" "versicolor" "virginica"
2.Utilisation des fonctions summary, var et sd
2.1 Utilisation de la fonction summary
Ces 3 fonctions appartiennent respectivement aux packages `base` et `stats` qui sont automatiquement installés et chargés à l’ouverture de chaque session de R. Il n’y a donc rien à faire de particulier pour pouvoir utiliser ces fonctions. La fonction `summary` est une fonction clé des analyses statistiques descriptives. Lorsque la variable considérée est numérique, cette fonction renvoie :
- le minimum
- le premier quartile
- la médiane
- la moyenne
- le troisième quartile
- le maximum
- le nombre de valeurs manquante (NA pour *Not Available*).
Lorsque la variable considérée est catégorielle, la fonction `summary`renvoie uniquement :
- le nombre de données pour chacune des modalités,
- le nombre total de données manquantes.
La fonction `summary` peut être appliquée sur un jeu de données entier, une variable spécifique d’un jeu de données, ou encore sur un vecteur de données. Un vecteur de données correspond plus ou moins à une colonne de chiffres ou de texte sous Excel.
# utilisation de summary sur un jeu de données entier > summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 # utilisation de la fonction summary sur une variable > summary(iris$Sepal.Length) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.300 5.100 5.800 5.843 6.400 7.900 # création d'un vecteur de valeurs numériques my_vect <- c(5,1,9,54,85,66,21,58,12,77,59) # affichage du vecteur > my_vect [1] 5 1 9 54 85 66 21 58 12 77 59 # utilisation de la fonction summary sur le vecteur > summary(my_vect) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 10.50 54.00 40.64 62.50 85.00
2.2 Estimation des paramètres descriptifs par groupe avec la fonction summary
La fonction `summary` peut également être appliquée par groupe. Imaginons par exemple que l’on souhaite obtenir les paramètres décrits précédemment mais pour chaque modalité de la variable Species. Pour cela on utilise la commande `by(jeu_de_données, variable_grpe, summary)`.
# sur le jeu de données entier > by(iris, iris$Species, summary) iris$Species: setosa Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.300 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200 versicolor: 0 Median :5.000 Median :3.400 Median :1.500 Median :0.200 virginica : 0 Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.246 3rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300 Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600 ------------------------------------------------------------------------------- iris$Species: versicolor Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.900 Min. :2.000 Min. :3.00 Min. :1.000 setosa : 0 1st Qu.:5.600 1st Qu.:2.525 1st Qu.:4.00 1st Qu.:1.200 versicolor:50 Median :5.900 Median :2.800 Median :4.35 Median :1.300 virginica : 0 Mean :5.936 Mean :2.770 Mean :4.26 Mean :1.326 3rd Qu.:6.300 3rd Qu.:3.000 3rd Qu.:4.60 3rd Qu.:1.500 Max. :7.000 Max. :3.400 Max. :5.10 Max. :1.800 ------------------------------------------------------------------------------- iris$Species: virginica Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.900 Min. :2.200 Min. :4.500 Min. :1.400 setosa : 0 1st Qu.:6.225 1st Qu.:2.800 1st Qu.:5.100 1st Qu.:1.800 versicolor: 0 Median :6.500 Median :3.000 Median :5.550 Median :2.000 virginica :50 Mean :6.588 Mean :2.974 Mean :5.552 Mean :2.026 3rd Qu.:6.900 3rd Qu.:3.175 3rd Qu.:5.875 3rd Qu.:2.300 Max. :7.900 Max. :3.800 Max. :6.900 Max. :2.500 # sur une seule variable du jeu de données > by(iris$Sepal.Length, iris$Species, summary) iris$Species: setosa Min. 1st Qu. Median Mean 3rd Qu. Max. 4.300 4.800 5.000 5.006 5.200 5.800 -------------------------------------------------------- iris$Species: versicolor Min. 1st Qu. Median Mean 3rd Qu. Max. 4.900 5.600 5.900 5.936 6.300 7.000 -------------------------------------------------------- iris$Species: virginica Min. 1st Qu. Median Mean 3rd Qu. Max. 4.900 6.225 6.500 6.588 6.900 7.900
2.3 Estimation de l’écart type et de la variance avec les fonctions `var` et `sd`
En revanche, la fonction `summary` ne renvoie ni variance ni écart type. Il est donc nécessaire d’estimer séparément ces deux paramètres de dispersion à l’aide des fonctions `var` et `sd`. Ces fonctions appartiennent également au package `stats`; elles peuvent donc être utilisées immédiatement.
Néanmoins, contrairement à la fonction `summary`, ces deux fonctions ne peuvent pas s’appliquer sur un jeu de données entier, mais uniquement sur une variable numérique d’un jeu de données, ou sur un vecteur de données numériques.
var(iris$Sepal.Length) [1] 0.6856935 sd(iris$Sepal.Length) [1] 0.8280661 var(my_vect) [1] 979.8545 sd(my_vect) [1] 31.30263
Par contre, il est possible d’estimer la variance ou l’écart type de plusieurs variables d’un même jeu de données en une seule commande. Pour cela il faut utiliser la fonction `map` du package `purrr`. Ce package n’est pas importé et chargé par défaut, il faut donc faire ces deux étapes avant d’utiliser la fonction `map`.
Pour importer le package `purrr` utilisez l’onglet *package* de la fenêtre en bas à droite de R Studio, puis le sous onglet *Install* en écrivez *purrr* dans l’espace dédié. Chargez ensuite ce package (c’est ce qui permet d’avoir accés aux fonctions et aux jeux de données d’un package) à l’aide de la commande `library(purrr)`.
library(purrr) map(iris[,c(1:4)],var) # estimation de la variances des variables 1 à 4 du jeu de données iris $Sepal.Length [1] 0.6856935 $Sepal.Width [1] 0.1899794 $Petal.Length [1] 3.116278 $Petal.Width [1] 0.5810063 map(iris[,c(1,2,4)],sd) # estimation de l'écart type des variables 1, 2 et 4 du jeu de données iris $Sepal.Length [1] 0.8280661 $Sepal.Width [1] 0.4358663 $Petal.Width [1] 0.7622377
3.Utilisation de la fonction `stats.desc` du package `pastecs`
La fonction `stats.desc` du package `pastecs` est également très intéressante pour réaliser des analyses statistiques descriptives. Elle est un peu plus complexe à utiliser mais elle permet d’estimer un grand nombre de paramètres, c’est ce qui la rend particulièrement complète.
3.1 Les paramètres de base
Cette fonction renvoie notamment :–nbr.val
: le nombre de données
– nbr.null
: le nombre de valeurs nulles (valeurs non définies)
– nbr.na
: le nombre de données manquantes :
– min
: le min
– max
: le max
– range
: le range = max-min
– sum
: la somme des valeurs (rarement intéressant de mon point devu)
– median
: la médiane
– mean
: la moyenne
– SE.mean
: l’erreur standard de la moyenne (sem)
– CI.mean.0.95
: l’erreur marginale à 95% de la moyenne (selon laloi de Student à n-1 degrés de libertés)
– var
: la variance des données observées
– std.dev
: l’écart type des données observées
– coef.var
: le coefficient de variationL’erreur marginale à 95% de la moyenne est la quantité à soustraire à la moyenne pour construire la borne inférieure de l’intervalle de confiance à 95% de la moyenne, et inversement à additionner à la moyenne pour construire la borne supérieure. Le coefficient de variation est le rapport de l’écart type des observations sur leur moyenne, soit `std.dev / mean`. Il s’agit d’une mesure de la dispersion relative. Ce paramètre peut être employé pour comparer la dispersion de deux variables ayant des unités différentes.
> library(pastecs) > stat.desc(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species nbr.val 150.00000000 150.00000000 150.0000000 150.00000000 NA nbr.null 0.00000000 0.00000000 0.0000000 0.00000000 NA nbr.na 0.00000000 0.00000000 0.0000000 0.00000000 NA min 4.30000000 2.00000000 1.0000000 0.10000000 NA max 7.90000000 4.40000000 6.9000000 2.50000000 NA range 3.60000000 2.40000000 5.9000000 2.40000000 NA sum 876.50000000 458.60000000 563.7000000 179.90000000 NA median 5.80000000 3.00000000 4.3500000 1.30000000 NA mean 5.84333333 3.05733333 3.7580000 1.19933333 NA SE.mean 0.06761132 0.03558833 0.1441360 0.06223645 NA CI.mean.0.95 0.13360085 0.07032302 0.2848146 0.12298004 NA var 0.68569351 0.18997942 3.1162779 0.58100626 NA std.dev 0.82806613 0.43586628 1.7652982 0.76223767 NA coef.var 0.14171126 0.14256420 0.4697441 0.63555114 NA
3.2 Estimation des paramètres de base par groupe
Ces paramètres descriptifs peuvent facilement être estimés par groupe, comme ici pour chaque modalité de la variable *Species*.
by(iris,iris$Species,pastecs::stat.desc)
by(iris,iris$Species,pastecs::stat.desc)
iris$Species: setosa
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
nbr.val 50.00000000 50.0000000 50.00000000 50.00000000 NA
nbr.null 0.00000000 0.0000000 0.00000000 0.00000000 NA
nbr.na 0.00000000 0.0000000 0.00000000 0.00000000 NA
min 4.30000000 2.3000000 1.00000000 0.10000000 NA
max 5.80000000 4.4000000 1.90000000 0.60000000 NA
range 1.50000000 2.1000000 0.90000000 0.50000000 NA
sum 250.30000000 171.4000000 73.10000000 12.30000000 NA
median 5.00000000 3.4000000 1.50000000 0.20000000 NA
mean 5.00600000 3.4280000 1.46200000 0.24600000 NA
SE.mean 0.04984957 0.0536078 0.02455980 0.01490377 NA
CI.mean.0.95 0.10017646 0.1077289 0.04935476 0.02995025 NA
var 0.12424898 0.1436898 0.03015918 0.01110612 NA
std.dev 0.35248969 0.3790644 0.17366400 0.10538559 NA
coef.var 0.07041344 0.1105789 0.11878522 0.42839670 NA
-------------------------------------------------------------------------------
iris$Species: versicolor
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
nbr.val 50.00000000 50.00000000 50.00000000 50.00000000 NA
nbr.null 0.00000000 0.00000000 0.00000000 0.00000000 NA
nbr.na 0.00000000 0.00000000 0.00000000 0.00000000 NA
min 4.90000000 2.00000000 3.00000000 1.00000000 NA
max 7.00000000 3.40000000 5.10000000 1.80000000 NA
range 2.10000000 1.40000000 2.10000000 0.80000000 NA
sum 296.80000000 138.50000000 213.00000000 66.30000000 NA
median 5.90000000 2.80000000 4.35000000 1.30000000 NA
mean 5.93600000 2.77000000 4.26000000 1.32600000 NA
SE.mean 0.07299762 0.04437778 0.06645545 0.02796645 NA
CI.mean.0.95 0.14669422 0.08918050 0.13354722 0.05620069 NA
var 0.26643265 0.09846939 0.22081633 0.03910612 NA
std.dev 0.51617115 0.31379832 0.46991098 0.19775268 NA
coef.var 0.08695606 0.11328459 0.11030774 0.14913475 NA
-------------------------------------------------------------------------------
iris$Species: virginica
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
nbr.val 50.00000000 50.00000000 50.00000000 50.00000000 NA
nbr.null 0.00000000 0.00000000 0.00000000 0.00000000 NA
nbr.na 0.00000000 0.00000000 0.00000000 0.00000000 NA
min 4.90000000 2.20000000 4.50000000 1.40000000 NA
max 7.90000000 3.80000000 6.90000000 2.50000000 NA
range 3.00000000 1.60000000 2.40000000 1.10000000 NA
sum 329.40000000 148.70000000 277.60000000 101.30000000 NA
median 6.50000000 3.00000000 5.55000000 2.00000000 NA
mean 6.58800000 2.97400000 5.55200000 2.02600000 NA
SE.mean 0.08992695 0.04560791 0.07804970 0.03884138 NA
CI.mean.0.95 0.18071498 0.09165253 0.15684674 0.07805468 NA
var 0.40434286 0.10400408 0.30458776 0.07543265 NA
std.dev 0.63587959 0.32249664 0.55189470 0.27465006 NA
coef.var 0.09652089 0.10843868 0.09940466 0.13556271 NA
>
3.3 Les paramètres d’estimation de la normalité
La fonction `stat.desc` permet également d’évaluer la normalité de la distribution des valeurs observées, par l’intermédiaire de plusieurs paramètres accessibles en ajoutant l’argument `norm=TRUE`. Ces paramètres supplémentaires sont :
–skewness
: le coefficient d’asymétrie g1
– skew.2SE
: la statistique g1/ (2*SE_g1)
– kurtosis
: le coefficient d’applatissement g2
– kurt.2SE
: la statistique g2/ (2*SE_g2)
– normtest.W
: la statistique W du test de normalité de Shapiro Wilks
– normtest.p
: la pvalue du test de Shapiro de Shapiro-WilksVoici un exemple :stat.desc(iris, norm=TRUE)
stat.desc(iris, norm=TRUE)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
nbr.val 150.00000000 150.00000000 1.500000e+02 1.500000e+02 NA
nbr.null 0.00000000 0.00000000 0.000000e+00 0.000000e+00 NA
nbr.na 0.00000000 0.00000000 0.000000e+00 0.000000e+00 NA
min 4.30000000 2.00000000 1.000000e+00 1.000000e-01 NA
max 7.90000000 4.40000000 6.900000e+00 2.500000e+00 NA
range 3.60000000 2.40000000 5.900000e+00 2.400000e+00 NA
sum 876.50000000 458.60000000 5.637000e+02 1.799000e+02 NA
median 5.80000000 3.00000000 4.350000e+00 1.300000e+00 NA
mean 5.84333333 3.05733333 3.758000e+00 1.199333e+00 NA
SE.mean 0.06761132 0.03558833 1.441360e-01 6.223645e-02 NA
CI.mean.0.95 0.13360085 0.07032302 2.848146e-01 1.229800e-01 NA
var 0.68569351 0.18997942 3.116278e+00 5.810063e-01 NA
std.dev 0.82806613 0.43586628 1.765298e+00 7.622377e-01 NA
coef.var 0.14171126 0.14256420 4.697441e-01 6.355511e-01 NA
skewness 0.30864073 0.31261470 -2.694109e-01 -1.009166e-01 NA
skew.2SE 0.77924478 0.78927812 -6.801988e-01 -2.547904e-01 NA
kurtosis -0.60581253 0.13870468 -1.416857e+00 -1.358179e+00 NA
kurt.2SE -0.76961200 0.17620762 -1.799947e+00 -1.725403e+00 NA
normtest.W 0.97609027 0.98491787 8.762681e-01 9.018349e-01 NA
normtest.p 0.01018116 0.10115427 7.412263e-10 1.680465e-08 NA
>
Lorsque le coefficient d’asymétrie skewness
est > 0, cela témoigne d’une queue de distribution sur la droite, et d’une médiane inférieure à la moyenne.Inversement, lorsque l’indice de skewness est <0, cela témoigne d’une queue de distribution sur la gauche, et d’une médiane supérieure à la moyenne.Lorsque le coefficient d’asymétrie `skewness` est inférieur à -1 ou supérieur à 1, alors l’asymétrie de la distribution est considérée comme étant très marquée. Lorsqu’il est compris entre \[-1 ; -1/2\] ou entre \[1/2, 1\], l’asymétrie est considérée comme étant modérée. Lorsqu’il est compris entre \[-1/2 ; 1/2\], la distribution est considérée comme étant symétrique.
La statistique g1/ (2*SE_g1), nommée `skew.2SE`, permet d’évaluer la significativité du coefficient d’asymétrie. Si `skew.2SE` est supérieure à 1, ou inférieure à -1, alors le coefficient d’asymétrie est significativement différent de 0. La distribution s’éloigne alors de la normalité.
Le coefficient d’aplatissement g2 nommé `kurtosis` est moins utilisé que le coefficient d’asymétrie. Lorsque sa statistique g2 / (2*SE_g2), nommée `kurt.2SE` est supérieure à 1, ou inférieur à -1, alors le coefficient d’aplatissement est significativement différent de 0. La distribution s’éloigne alors de la normalité.
Le test de Shapiro-Wilk permet d’évaluer la normalité de la distribution des données observées. Si sa p-value, nommée ici `normtest.p` est inférieure à 0.05 alors la normalité est rejetée.
Ces informations sont disponibles dans la page d'[aide de la fonction `stat.desc`.
Détecter si la distribution des données observées s’écarte de la normalité permet notamment de choisir une méthode adéquate pour estimer l’intervalle de confiance de la moyenne. En effet, en cas d’écart à la normalité, l’intervalle de confiance par utilisation de la loi de Student (paramètre `CI.mean.0.95`) peut s’avérer biaisé. Dans ce cas il est préférable d’estimer l’intervalle de confiance de la moyenne par une approche de bootstrap non paramétrique.
4. Estimation de l’intervalle de confiance de la moyenne par bootstrap
Le principe du `bootstrap` est de générer un grand nombre d’échantillons (par exemple 1000) à partir des valeurs observées.
Chacun des 1000 échantillons bootstrap est créé à partir des valeurs observées, en les tirant au sort avec remise. Cela signifie que dans un échantillon bootstrap donné, certaines valeurs apparaitront plusieurs fois et que d’autre valeurs ne seront pas présentes du tout. Ensuite, chaque échantillon bootstrap est considéré séparément et la moyenne de chaque échantillon bootstrap est calculée. Les 1000 moyennes sont ensuite ordonnées de la plus petite à la plus grande et les percentiles 2.5 et 97.5 sont estimés. Le percentile 2.5 correspond au seuil en dessous duquel seules 2.5% des moyennes ordonnées sont présentes. De la même façon, le percentile 97.5 correspond au seuil au dessus duquel seules 2.5% des moyennes estimées ordonnées sont présentes. Ces valeurs constitueront les bornes inférieure et supérieure de l’intervalle de confiance à 95%.
Je vais vous montrer très succinctement comment calculer l’intervalle de confiance à 95% d’une moyenne avec la fonction `boot` du package du même nom . Pour cela, il est d’abord nécessaire d’importer et de charger ce package `boot`.
Ensuite, il faut créer une fonction `moyenne` tel que ci-dessous. C’est cette fonction qui sera passée en argument à la foncion `boot`.
library(boot) # création de la fonction moyenne pour la fonction boot moyenne<-function(data,indice) { data.star <- data[indice] moy <- mean(data.star,na.rm=TRUE) } #permet de fixer la graine des tirages aléatoires et donc d'obtenir des résultats toujours identiques set.seed(1234) # realisation des échantillons bootstrap et estimation des moyennes b1 <- boot(iris$Sepal.Length, statistic= moyenne, R=1000) Enfin, l'objet `b1` que nous venons de créer est passé en arugment de la fonction `boot.ci`, qui calcule l'intervalle de confiance dit `percentile` boot.ci(b1) Warning in boot.ci(b1): bootstrap variances needed for studentized intervals BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 1000 bootstrap replicates CALL : boot.ci(boot.out = b1) Intervals : Level Normal Basic 95% ( 5.709, 5.976 ) ( 5.699, 5.969 ) Level Percentile BCa 95% ( 5.718, 5.988 ) ( 5.718, 5.990 ) Calculations and Intervals on Original Scale
En réalité, la fonction `boot.ci` estime plusieurs types d’intervalle de confiance. Celui qui nous intéresse ici est le type *Percentile*.
J’espère qu’avec cet article vous saurez, à présent, réaliser facilement les analyses descriptives de vos variables numériques. Si vous utilisez d’autres fonctions que celles décrites dans cet article , n’hésitez pas à me les indiquer dans un commentaire.
Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R Retrouvez ici la première partie de cet article.Poursuivez votre lecture
- Analyses statistiques descriptives de données numériques – partie 1
- Comment réaliser une description efficace de vos données
- Faire une table one ultra facilement
- Créer une table 1 avec R
- Utilisez le package skimr en complément du package pastecs pour réaliser vos analyses statistiques descriptives
- Faites de belles tables descriptives avec summarytools !
Bonjour
J’ai du mal a saisir la commande set. seed(1234)
Est ce que ca veut dire qu’on va faire 1000 echantillons ou bien 1234?!
Merci pour votre reponse.
Bonjour,
Ni l’un ni l’autre, c’est seulement un chiffre (que l’on appelle graine ou seed) qui permet de générer une certaine séquence de nombres aléatoires. Vous trouverez plus d’infos ici : http://www.journaldunet.com/developpeur/tutoriel/theo/060324-generer-le-hasard.shtml
Bonne continuation
Bonjour
Quelle est la fonction à utiliser pour déterminer le coefficient de variation pour une donné de pluie ?
Il me semble que la fonction stat.desc() du package pastecs renvoie un coefficient de variation.
très bon article. merci