Analyses statistiques descriptives de données numériques - partie 2

Analyses statistiques descriptives de données numériques – partie 2

Dans ce nouveau post, je vais vous montrer comment réaliser simplement des analyses statistiques descriptives de vos données numériques avec le logiciel R. Comme expliqué dans la première partie de cette série sur les analyses statistiques descriptives il s’agit d’estimer un certain nombre de paramètres de position et de dispersion.

Pour réaliser facilement des analyses statistiques descriptives, il est important que vos données soient structurées selon un format dit tidy. Selon ce format :

1. les variables sont en colonne, et chaque variable mesurée doit correspondre à une seule colonne. 2. les observations sont en lignes, et si plusieurs observations ontété faites pour une variable donnée, ces observations doivent êtresur des lignes différentes. 3. A l’intersection des lignes et des colonnes se trouvent les valeursmesurées.

Pour illustrer cet article, je vais utiliser le jeu de données `iris` qui se trouve dans le package `dataset` qui est chargé par défaut par le logiciel R à chaque ouverture de session. Il n’est donc pas nécessaire d’importer le jeu de données dans R. Néanmoins les étapes pour importer un jeu de données dans le logiciel R sont décrites ici.

1. Le jeu de données iris

Pour visualiser les 10 premières lignes du jeu de données `iris`, utilisez `head(iris,10)`. De la même façon vous pouvez afficher les 5 (par exemple) dernières lignes en utilisant `tail(iris,5)`.

> head(iris, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1           5.1         3.5          1.4         0.2  setosa
2           4.9         3.0          1.4         0.2  setosa
3           4.7         3.2          1.3         0.2  setosa
4           4.6         3.1          1.5         0.2  setosa
5           5.0         3.6          1.4         0.2  setosa
6           5.4         3.9          1.7         0.4  setosa
7           4.6         3.4          1.4         0.3  setosa
8           5.0         3.4          1.5         0.2  setosa
9           4.4         2.9          1.4         0.2  setosa
10          4.9         3.1          1.5         0.1  setosa
> 
> tail(iris,5)
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
146          6.7         3.0          5.2         2.3 virginica
147          6.3         2.5          5.0         1.9 virginica
148          6.5         3.0          5.2         2.0 virginica
149          6.2         3.4          5.4         2.3 virginica
150          5.9         3.0          5.1         1.8 virginica

Le jeu de données *iris* est bien sous la forme dit *tidy*, puisque les variables sont en colonne, les observations en ligne, et les valeurs mesurées à l’intersection des lignes et des colonnes.

Le jeu de données *iris* est composé de 5 variables:

– Sepal.Length – Sepal.Width – Petal.Length – Petal.Width – Species

Les quatre premières sont des variables numériques continues, et la cinquième est une variable catégorielle à 3 modalités (setosa /versicolor / virginica).

La commande `str(iris)` permet de connaitre les types des variables (numérique / catégorielle (ou facteur)), alors que la commande `levels(iris$Species)` permet d’avoir accès aux différentes modalités de la variable catégorielle.

> str(iris)

'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

>levels(iris$Species)

[1] "setosa" "versicolor" "virginica"

2.Utilisation des fonctions summary, var et sd

2.1 Utilisation de la fonction summary

Ces 3 fonctions appartiennent respectivement aux packages `base` et `stats` qui sont automatiquement installés et chargés à l’ouverture de chaque session de R. Il n’y a donc rien à faire de particulier pour pouvoir utiliser ces fonctions. La fonction `summary` est une fonction clé des analyses statistiques descriptives. Lorsque la variable considérée est numérique, cette fonction renvoie :

le minimum
le premier quartile
la médiane
la moyenne
le troisième quartile
le maximum
le nombre de valeurs manquante (NA pour *Not Available*).

Lorsque la variable considérée est catégorielle, la fonction `summary`renvoie uniquement :

le nombre de données pour chacune des modalités,
le nombre total de données manquantes.

La fonction `summary` peut être appliquée sur un jeu de données entier, une variable spécifique d’un jeu de données, ou encore sur un vecteur de données. Un vecteur de données correspond plus ou moins à une colonne de chiffres ou de texte sous Excel.

# utilisation de summary sur un jeu de données entier
> summary(iris) 

Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500    

# utilisation de la fonction summary sur une variable
> summary(iris$Sepal.Length) 
 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  4.300   5.100   5.800   5.843   6.400   7.900 

# création d'un vecteur de valeurs numériques
my_vect <- c(5,1,9,54,85,66,21,58,12,77,59) 
 
# affichage du vecteur
> my_vect 

[1] 5 1 9 54 85 66 21 58 12 77 59

# utilisation de la fonction summary sur le vecteur 
> summary(my_vect) 
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.00   10.50   54.00   40.64   62.50   85.00

2.2 Estimation des paramètres descriptifs par groupe avec la fonction summary

La fonction `summary` peut également être appliquée par groupe. Imaginons par exemple que l’on souhaite obtenir les paramètres décrits précédemment mais pour chaque modalité de la variable Species. Pour cela on utilise la commande `by(jeu_de_données, variable_grpe, summary)`.

# sur le jeu de données entier
> by(iris, iris$Species, summary)

iris$Species: setosa
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.300   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:4.800   1st Qu.:3.200   1st Qu.:1.400   1st Qu.:0.200   versicolor: 0  
 Median :5.000   Median :3.400   Median :1.500   Median :0.200   virginica : 0  
 Mean   :5.006   Mean   :3.428   Mean   :1.462   Mean   :0.246                  
 3rd Qu.:5.200   3rd Qu.:3.675   3rd Qu.:1.575   3rd Qu.:0.300                  
 Max.   :5.800   Max.   :4.400   Max.   :1.900   Max.   :0.600                  
------------------------------------------------------------------------------- 
iris$Species: versicolor
  Sepal.Length    Sepal.Width     Petal.Length   Petal.Width          Species  
 Min.   :4.900   Min.   :2.000   Min.   :3.00   Min.   :1.000   setosa    : 0  
 1st Qu.:5.600   1st Qu.:2.525   1st Qu.:4.00   1st Qu.:1.200   versicolor:50  
 Median :5.900   Median :2.800   Median :4.35   Median :1.300   virginica : 0  
 Mean   :5.936   Mean   :2.770   Mean   :4.26   Mean   :1.326                  
 3rd Qu.:6.300   3rd Qu.:3.000   3rd Qu.:4.60   3rd Qu.:1.500                  
 Max.   :7.000   Max.   :3.400   Max.   :5.10   Max.   :1.800                  
------------------------------------------------------------------------------- 
iris$Species: virginica
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.900   Min.   :2.200   Min.   :4.500   Min.   :1.400   setosa    : 0  
 1st Qu.:6.225   1st Qu.:2.800   1st Qu.:5.100   1st Qu.:1.800   versicolor: 0  
 Median :6.500   Median :3.000   Median :5.550   Median :2.000   virginica :50  
 Mean   :6.588   Mean   :2.974   Mean   :5.552   Mean   :2.026                  
 3rd Qu.:6.900   3rd Qu.:3.175   3rd Qu.:5.875   3rd Qu.:2.300                  
 Max.   :7.900   Max.   :3.800   Max.   :6.900   Max.   :2.500  

# sur une seule variable du jeu de données
> by(iris$Sepal.Length, iris$Species, summary)

iris$Species: setosa
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.300 4.800 5.000 5.006 5.200 5.800
 --------------------------------------------------------
 iris$Species: versicolor
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.900 5.600 5.900 5.936 6.300 7.000
 --------------------------------------------------------
 iris$Species: virginica
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 4.900 6.225 6.500 6.588 6.900 7.900

2.3 Estimation de l’écart type et de la variance avec les fonctions `var` et `sd`

En revanche, la fonction `summary` ne renvoie ni variance ni écart type. Il est donc nécessaire d’estimer séparément ces deux paramètres de dispersion à l’aide des fonctions `var` et `sd`. Ces fonctions appartiennent également au package `stats`; elles peuvent donc être utilisées immédiatement.

Néanmoins, contrairement à la fonction `summary`, ces deux fonctions ne peuvent pas s’appliquer sur un jeu de données entier, mais uniquement sur une variable numérique d’un jeu de données, ou sur un vecteur de données numériques.

var(iris$Sepal.Length)

[1] 0.6856935

sd(iris$Sepal.Length)

[1] 0.8280661

var(my_vect)

[1] 979.8545

sd(my_vect)

[1] 31.30263

Par contre, il est possible d’estimer la variance ou l’écart type de plusieurs variables d’un même jeu de données en une seule commande. Pour cela il faut utiliser la fonction `map` du package `purrr`. Ce package n’est pas importé et chargé par défaut, il faut donc faire ces deux étapes avant d’utiliser la fonction `map`.

Pour importer le package `purrr` utilisez l’onglet *package* de la fenêtre en bas à droite de R Studio, puis le sous onglet *Install* en écrivez *purrr* dans l’espace dédié. Chargez ensuite ce package (c’est ce qui permet d’avoir accés aux fonctions et aux jeux de données d’un package) à l’aide de la commande `library(purrr)`.

library(purrr)
 map(iris[,c(1:4)],var) # estimation de la variances des variables 1 à 4 du jeu de données iris

$Sepal.Length
 [1] 0.6856935

$Sepal.Width
 [1] 0.1899794

$Petal.Length
 [1] 3.116278

$Petal.Width
 [1] 0.5810063

map(iris[,c(1,2,4)],sd) # estimation de l'écart type des variables 1, 2 et 4 du jeu de données iris

$Sepal.Length
 [1] 0.8280661

$Sepal.Width
 [1] 0.4358663

$Petal.Width
 [1] 0.7622377

3.Utilisation de la fonction `stats.desc` du package `pastecs`

La fonction `stats.desc` du package `pastecs` est également très intéressante pour réaliser des analyses statistiques descriptives. Elle est un peu plus complexe à utiliser mais elle permet d’estimer un grand nombre de paramètres, c’est ce qui la rend particulièrement complète.

3.1 Les paramètres de base

Cette fonction renvoie notamment :– nbr.val : le nombre de données – nbr.null : le nombre de valeurs nulles (valeurs non définies) – nbr.na : le nombre de données manquantes : – min : le min – max : le max – range : le range = max-min – sum : la somme des valeurs (rarement intéressant de mon point devu) – median : la médiane – mean : la moyenne – SE.mean : l’erreur standard de la moyenne (sem) – CI.mean.0.95 : l’erreur marginale à 95% de la moyenne (selon laloi de Student à n-1 degrés de libertés) – var : la variance des données observées – std.dev : l’écart type des données observées – coef.var : le coefficient de variation

L’erreur marginale à 95% de la moyenne est la quantité à soustraire à la moyenne pour construire la borne inférieure de l’intervalle de confiance à 95% de la moyenne, et inversement à additionner à la moyenne pour construire la borne supérieure. Le coefficient de variation est le rapport de l’écart type des observations sur leur moyenne, soit `std.dev / mean`. Il s’agit d’une mesure de la dispersion relative. Ce paramètre peut être employé pour comparer la dispersion de deux variables ayant des unités différentes.

> library(pastecs)
> stat.desc(iris)
             Sepal.Length  Sepal.Width Petal.Length  Petal.Width Species
nbr.val      150.00000000 150.00000000  150.0000000 150.00000000      NA
nbr.null       0.00000000   0.00000000    0.0000000   0.00000000      NA
nbr.na         0.00000000   0.00000000    0.0000000   0.00000000      NA
min            4.30000000   2.00000000    1.0000000   0.10000000      NA
max            7.90000000   4.40000000    6.9000000   2.50000000      NA
range          3.60000000   2.40000000    5.9000000   2.40000000      NA
sum          876.50000000 458.60000000  563.7000000 179.90000000      NA
median         5.80000000   3.00000000    4.3500000   1.30000000      NA
mean           5.84333333   3.05733333    3.7580000   1.19933333      NA
SE.mean        0.06761132   0.03558833    0.1441360   0.06223645      NA
CI.mean.0.95   0.13360085   0.07032302    0.2848146   0.12298004      NA
var            0.68569351   0.18997942    3.1162779   0.58100626      NA
std.dev        0.82806613   0.43586628    1.7652982   0.76223767      NA
coef.var       0.14171126   0.14256420    0.4697441   0.63555114      NA

3.2 Estimation des paramètres de base par groupe

Ces paramètres descriptifs peuvent facilement être estimés par groupe, comme ici pour chaque modalité de la variable *Species*.

by(iris,iris$Species,pastecs::stat.desc)

 by(iris,iris$Species,pastecs::stat.desc)
iris$Species: setosa
             Sepal.Length Sepal.Width Petal.Length Petal.Width Species
nbr.val       50.00000000  50.0000000  50.00000000 50.00000000      NA
nbr.null       0.00000000   0.0000000   0.00000000  0.00000000      NA
nbr.na         0.00000000   0.0000000   0.00000000  0.00000000      NA
min            4.30000000   2.3000000   1.00000000  0.10000000      NA
max            5.80000000   4.4000000   1.90000000  0.60000000      NA
range          1.50000000   2.1000000   0.90000000  0.50000000      NA
sum          250.30000000 171.4000000  73.10000000 12.30000000      NA
median         5.00000000   3.4000000   1.50000000  0.20000000      NA
mean           5.00600000   3.4280000   1.46200000  0.24600000      NA
SE.mean        0.04984957   0.0536078   0.02455980  0.01490377      NA
CI.mean.0.95   0.10017646   0.1077289   0.04935476  0.02995025      NA
var            0.12424898   0.1436898   0.03015918  0.01110612      NA
std.dev        0.35248969   0.3790644   0.17366400  0.10538559      NA
coef.var       0.07041344   0.1105789   0.11878522  0.42839670      NA
------------------------------------------------------------------------------- 
iris$Species: versicolor
             Sepal.Length  Sepal.Width Petal.Length Petal.Width Species
nbr.val       50.00000000  50.00000000  50.00000000 50.00000000      NA
nbr.null       0.00000000   0.00000000   0.00000000  0.00000000      NA
nbr.na         0.00000000   0.00000000   0.00000000  0.00000000      NA
min            4.90000000   2.00000000   3.00000000  1.00000000      NA
max            7.00000000   3.40000000   5.10000000  1.80000000      NA
range          2.10000000   1.40000000   2.10000000  0.80000000      NA
sum          296.80000000 138.50000000 213.00000000 66.30000000      NA
median         5.90000000   2.80000000   4.35000000  1.30000000      NA
mean           5.93600000   2.77000000   4.26000000  1.32600000      NA
SE.mean        0.07299762   0.04437778   0.06645545  0.02796645      NA
CI.mean.0.95   0.14669422   0.08918050   0.13354722  0.05620069      NA
var            0.26643265   0.09846939   0.22081633  0.03910612      NA
std.dev        0.51617115   0.31379832   0.46991098  0.19775268      NA
coef.var       0.08695606   0.11328459   0.11030774  0.14913475      NA
------------------------------------------------------------------------------- 
iris$Species: virginica
             Sepal.Length  Sepal.Width Petal.Length  Petal.Width Species
nbr.val       50.00000000  50.00000000  50.00000000  50.00000000      NA
nbr.null       0.00000000   0.00000000   0.00000000   0.00000000      NA
nbr.na         0.00000000   0.00000000   0.00000000   0.00000000      NA
min            4.90000000   2.20000000   4.50000000   1.40000000      NA
max            7.90000000   3.80000000   6.90000000   2.50000000      NA
range          3.00000000   1.60000000   2.40000000   1.10000000      NA
sum          329.40000000 148.70000000 277.60000000 101.30000000      NA
median         6.50000000   3.00000000   5.55000000   2.00000000      NA
mean           6.58800000   2.97400000   5.55200000   2.02600000      NA
SE.mean        0.08992695   0.04560791   0.07804970   0.03884138      NA
CI.mean.0.95   0.18071498   0.09165253   0.15684674   0.07805468      NA
var            0.40434286   0.10400408   0.30458776   0.07543265      NA
std.dev        0.63587959   0.32249664   0.55189470   0.27465006      NA
coef.var       0.09652089   0.10843868   0.09940466   0.13556271      NA
>

3.3 Les paramètres d’estimation de la normalité

La fonction `stat.desc` permet également d’évaluer la normalité de la distribution des valeurs observées, par l’intermédiaire de plusieurs paramètres accessibles en ajoutant l’argument `norm=TRUE`. Ces paramètres supplémentaires sont :

– skewness : le coefficient d’asymétrie g1 – skew.2SE : la statistique g1/ (2*SE_g1) – kurtosis : le coefficient d’applatissement g2 – kurt.2SE : la statistique g2/ (2*SE_g2) – normtest.W : la statistique W du test de normalité de Shapiro Wilks – normtest.p : la pvalue du test de Shapiro de Shapiro-WilksVoici un exemple :

stat.desc(iris, norm=TRUE)

stat.desc(iris, norm=TRUE)
             Sepal.Length  Sepal.Width  Petal.Length   Petal.Width Species
nbr.val      150.00000000 150.00000000  1.500000e+02  1.500000e+02      NA
nbr.null       0.00000000   0.00000000  0.000000e+00  0.000000e+00      NA
nbr.na         0.00000000   0.00000000  0.000000e+00  0.000000e+00      NA
min            4.30000000   2.00000000  1.000000e+00  1.000000e-01      NA
max            7.90000000   4.40000000  6.900000e+00  2.500000e+00      NA
range          3.60000000   2.40000000  5.900000e+00  2.400000e+00      NA
sum          876.50000000 458.60000000  5.637000e+02  1.799000e+02      NA
median         5.80000000   3.00000000  4.350000e+00  1.300000e+00      NA
mean           5.84333333   3.05733333  3.758000e+00  1.199333e+00      NA
SE.mean        0.06761132   0.03558833  1.441360e-01  6.223645e-02      NA
CI.mean.0.95   0.13360085   0.07032302  2.848146e-01  1.229800e-01      NA
var            0.68569351   0.18997942  3.116278e+00  5.810063e-01      NA
std.dev        0.82806613   0.43586628  1.765298e+00  7.622377e-01      NA
coef.var       0.14171126   0.14256420  4.697441e-01  6.355511e-01      NA
skewness       0.30864073   0.31261470 -2.694109e-01 -1.009166e-01      NA
skew.2SE       0.77924478   0.78927812 -6.801988e-01 -2.547904e-01      NA
kurtosis      -0.60581253   0.13870468 -1.416857e+00 -1.358179e+00      NA
kurt.2SE      -0.76961200   0.17620762 -1.799947e+00 -1.725403e+00      NA
normtest.W     0.97609027   0.98491787  8.762681e-01  9.018349e-01      NA
normtest.p     0.01018116   0.10115427  7.412263e-10  1.680465e-08      NA
>

Lorsque le coefficient d’asymétrie skewness est > 0, cela témoigne d’une queue de distribution sur la droite, et d’une médiane inférieure à la moyenne.Inversement, lorsque l’indice de skewness est <0, cela témoigne d’une queue de distribution sur la gauche, et d’une médiane supérieure à la moyenne.

Lorsque le coefficient d’asymétrie `skewness` est inférieur à -1 ou supérieur à 1, alors l’asymétrie de la distribution est considérée comme étant très marquée. Lorsqu’il est compris entre \[-1 ; -1/2\] ou entre \[1/2, 1\], l’asymétrie est considérée comme étant modérée. Lorsqu’il est compris entre \[-1/2 ; 1/2\], la distribution est considérée comme étant symétrique.

La statistique g1/ (2*SE_g1), nommée `skew.2SE`, permet d’évaluer la significativité du coefficient d’asymétrie. Si `skew.2SE` est supérieure à 1, ou inférieure à -1, alors le coefficient d’asymétrie est significativement différent de 0. La distribution s’éloigne alors de la normalité.

Le coefficient d’aplatissement g2 nommé `kurtosis` est moins utilisé que le coefficient d’asymétrie. Lorsque sa statistique g2 / (2*SE_g2), nommée `kurt.2SE` est supérieure à 1, ou inférieur à -1, alors le coefficient d’aplatissement est significativement différent de 0. La distribution s’éloigne alors de la normalité.

Le test de Shapiro-Wilk permet d’évaluer la normalité de la distribution des données observées. Si sa p-value, nommée ici `normtest.p` est inférieure à 0.05 alors la normalité est rejetée.

Ces informations sont disponibles dans la page d'[aide de la fonction `stat.desc`.

Détecter si la distribution des données observées s’écarte de la normalité permet notamment de choisir une méthode adéquate pour estimer l’intervalle de confiance de la moyenne. En effet, en cas d’écart à la normalité, l’intervalle de confiance par utilisation de la loi de Student (paramètre `CI.mean.0.95`) peut s’avérer biaisé. Dans ce cas il est préférable d’estimer l’intervalle de confiance de la moyenne par une approche de bootstrap non paramétrique.

4. Estimation de l’intervalle de confiance de la moyenne par bootstrap

Le principe du `bootstrap` est de générer un grand nombre d’échantillons (par exemple 1000) à partir des valeurs observées.

Chacun des 1000 échantillons bootstrap est créé à partir des valeurs observées, en les tirant au sort avec remise. Cela signifie que dans un échantillon bootstrap donné, certaines valeurs apparaitront plusieurs fois et que d’autre valeurs ne seront pas présentes du tout. Ensuite, chaque échantillon bootstrap est considéré séparément et la moyenne de chaque échantillon bootstrap est calculée. Les 1000 moyennes sont ensuite ordonnées de la plus petite à la plus grande et les percentiles 2.5 et 97.5 sont estimés. Le percentile 2.5 correspond au seuil en dessous duquel seules 2.5% des moyennes ordonnées sont présentes. De la même façon, le percentile 97.5 correspond au seuil au dessus duquel seules 2.5% des moyennes estimées ordonnées sont présentes. Ces valeurs constitueront les bornes inférieure et supérieure de l’intervalle de confiance à 95%.

Je vais vous montrer très succinctement comment calculer l’intervalle de confiance à 95% d’une moyenne avec la fonction `boot` du package du même nom . Pour cela, il est d’abord nécessaire d’importer et de charger ce package `boot`.

Ensuite, il faut créer une fonction `moyenne` tel que ci-dessous. C’est cette fonction qui sera passée en argument à la foncion `boot`.

library(boot)

# création de la fonction moyenne pour la fonction boot
  moyenne<-function(data,indice)
  {

data.star <- data[indice]
  moy <- mean(data.star,na.rm=TRUE)
  }

#permet de fixer la graine des tirages aléatoires et donc d'obtenir des résultats toujours identiques
  set.seed(1234)

# realisation des échantillons bootstrap et estimation des moyennes
  b1 <- boot(iris$Sepal.Length, statistic= moyenne, R=1000)

Enfin, l'objet `b1` que nous venons de créer est passé en arugment de la fonction `boot.ci`, qui calcule l'intervalle de confiance dit `percentile`

boot.ci(b1)

Warning in boot.ci(b1): bootstrap variances needed for studentized
  intervals

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
  Based on 1000 bootstrap replicates

CALL :
  boot.ci(boot.out = b1)

Intervals :
  Level Normal Basic
  95% ( 5.709, 5.976 ) ( 5.699, 5.969 )

Level Percentile BCa
  95% ( 5.718, 5.988 ) ( 5.718, 5.990 )
  Calculations and Intervals on Original Scale

En réalité, la fonction `boot.ci` estime plusieurs types d’intervalle de confiance. Celui qui nous intéresse ici est le type *Percentile*.

J’espère qu’avec cet article vous saurez, à présent, réaliser facilement les analyses descriptives de vos variables numériques. Si vous utilisez d’autres fonctions que celles décrites dans cet article , n’hésitez pas à me les indiquer dans un commentaire.

Si cet article vous a plu, ou vous a été utile, et si vous le souhaitez, vous pouvez soutenir ce blog en faisant un don sur sa page Tipeee 🙏👉 Cliquez ici pour soutenir le blog Statistiques et Logiciel R Retrouvez ici la première partie de cet article.

Poursuivez votre lecture

Étiqueté description tutoriel

5 réponses

Fellous samir dit :
7 avril 2020 à 14 h 34 min
Bonjour
J’ai du mal a saisir la commande set. seed(1234)
Est ce que ca veut dire qu’on va faire 1000 echantillons ou bien 1234?!
Merci pour votre reponse.
Répondre
1. Claire Della Vedova dit :
  8 avril 2020 à 11 h 34 min
  Bonjour,
  Ni l’un ni l’autre, c’est seulement un chiffre (que l’on appelle graine ou seed) qui permet de générer une certaine séquence de nombres aléatoires. Vous trouverez plus d’infos ici : http://www.journaldunet.com/developpeur/tutoriel/theo/060324-generer-le-hasard.shtml
  Bonne continuation
  Répondre
2. Stephen dit :
  22 avril 2020 à 12 h 10 min
  Bonjour
  Quelle est la fonction à utiliser pour déterminer le coefficient de variation pour une donné de pluie ?
  Répondre
  1. Claire Della Vedova dit :
    1 mai 2020 à 22 h 23 min
    Il me semble que la fonction stat.desc() du package pastecs renvoie un coefficient de variation.
    Répondre
lamine dit :
2 octobre 2020 à 2 h 54 min
très bon article. merci
Répondre

DellaData

Transformez vos données en connaissances