TP1 StatDesc R
TP1 StatDesc R
TP1 StatDesc R
Mouhamed A. NIANG
LTI/ESP-Formation Permanente
Université CHEIKH ANTA DIOP
Dakar
[email protected]
07 Décembre 2009
Cette fiche comprend des exercices portant sur les principaux paramètres de dispersion : la variance, l’écart-type et le
coefficient de variation.
Exercice 1
Les données sleep donnent l’augmentation ou la diminution du temps de sommeil (variable extra) chez deux groupes de
patients traités par deux médicaments (la variable group prend les valeurs 1 ou 2). On dispose de 20 données.
data(sleep)
sleep
1. Créer un vecteur g1 contenant la variable extra du groupe 1
g1 = sleep$extra[1 : 10]
# plusieurs syntaxes
# ou sleep$extra[sleep$group == 1]
# ou sleep$extra[which (sleep$group == 1)]
puis, un vecteur g2 contenant la variable extra du groupe 2
2. Représenter l’histogramme (en utilisant la fonction hist avec l’option proba=TRUE, voir l’aide) des données g1 puis
ajouter sur ce graphique des droites verticales de couleurs différentes correspondant
• à la moyenne (fonction mean)
• à la médiane (fonction median)
• aux quartiles Q1 et Q3 (fonction quantile)
Ajouter une légende.
hist(g1)
abline(v=mean(g1))
—–etc———
legend(—–à-complèter—–)
1. Enregistrez chaque vecteur de notes sous les noms respectifs groupe1, groupe2 et groupe3.
2. Calculez la moyenne de chaque groupe. Que constatez-vous ? Peut-on dire que les enseignants ont noté de la même
façon ?
1
3. Vous venez de calculer la moyenne de la note de chaque groupe d’étudiants. Chaque groupe constitue un échantillon
de l’ensemble des étudiants. La moyenne est alors appelée moyenne empirique. Rappel de la définition. Si on note xi
la note du ième élève du groupe 1, alors la moyenne empirique du groupe 1 est notée x̄ et
n
P
xi
i=1
x̄ =
n
Retrouvez la moyenne en utilisant les commandes sum et length.
4. Utilisez la commande hist pour représenter la répartition des notes de chaque groupe. Peut-on observer une différence
de notation entre les groupes ? Recommandation : Superposez les trois histogrammes. N’oubliez pas de rendre les
informations comparables.
5. On regroupe les trois vecteurs dans un seul appelé notes et on construit une variable qualitative groupes à trois
modalités: 1, 2 et 3.
notes < −c(groupe1, groupe2, groupe3)
groupes < −rep(c(1, 2, 3), c(length(groupe1), length(groupe2), length(groupe3)))
groupes < −f actor(groupes)
Réalisez la représentation graphique montrant les trois boı̂tes à moustaches des notes selon les groupes. Utilisez
maintenant la commande stripchart pour représenter les notes au sein de chaque groupe. Peut-on observer une différence
de notation entre les groupes ?
6. Pour étudier la dispersion au sein d’un échantillon, on calcule un paramètre dit paramètre de dispersion appelé variance
empirique, et noté s2 .
n
P 2
(xi − x̄)
i=1
s2 =
n
Remarquez que ce paramètre s’exprime dans les unités de la variable élevées au carré. Dans le cas d’une étude
descriptive, on préfère utiliser l’ écart-type (noté s) : racine de la variance.
v
n
2
uP
u
t (xi − x̄)
s = i=1
n
Calculez la variance empirique de chaque groupe en utilisant les commandes sum et length.
7. Calculez les écarts-type de chaque groupe en utilisant la commande sqrt.
8. Analysez les relations entre les variances (ou les écarts type) et les représentations graphiques. Donnez une conclusion.
9. Utilisez la commande var de R pour calculer la variance de la note de chaque groupe. Retrouvez-vous les mêmes valeurs
qu’à la question précédente ?
10. En fait, R calcule la quantité suivante :
n
P 2
(xi − x̄)
i=1
var =
n−1
Il s’agit de la variance estimée de la population à partir d’un échantillon. Par quel coefficient doit-on multiplier la
valeur obtenue par la commande var pour obtenir le même résultat qu’à la question 6) ?
Exercice 3
Etude de la série nottem : relevé de températures à Nottingham pendant 20 ans (une donnée par mois)
1. Tracer la série de données
plot(nottem)
et commenter l’allure de la courbe
2. On organise les données sous la forme d’une matrice (12 colonnes, 20 lignes) telle que la première colonne contient les
données du mois de janvier.
DT = matrix(nottem, ncol=12 , byrow =T)
2
4. Représenter les différentes années sur un même graphique. Commenter
5. Expliquer et commenter le graphique suivant
boxplot(data.frame(DT))
6. Construire la courbe des températures moyennes à Nottingham
7. Ajouter sur le graphique la courbe des minima et des maxima.
Exercice 4
Nombre de classes dans un histogramme
L’option nclass (ou breaks) de la fonction hist permet d’ajuster le nombre de classes de l’histogramme. Par défaut, il est fixé
par la formule de Sturges nc = [1 + Log2 (n)] où [ ] désigne la partie entière.
1. Simuler n = 100 variables aléatoires iid suivant la loi gaussienne standard.
2. Sur une même page ( par(mf row = c(3, 3)) ) : tracer l’histogramme de l’ échantillon simulé en faisant varier le nombre
de classes. Prendre par exemple nclass ∈ {3, 5, 8, 10, 15, 20, 25, 30, 50}
3. Refaire la question précédente avec un échantillon simulé suivant la loi exponentielle de paramètre 1, puis avec un
échantillon simulé suivant la loi de Cauchy
4. Commenter les résultats.
Exercice 5
Il existe d’autres paramètres descriptifs de la variabilité comme par exemple le coefficient de variation :
ecart − type
cv =
moyenne
qui présente l’avantage d’être sans unité. Il permet deux types d’étude :
a comparer la variabilité de plusieurs variables quantitatives mesurées au sein d’un même échantillon
1. On donne la moyenne et l’écart-type de quatre mesures anthropométriques réalisées sur un même groupe de garçons
âgés de 14 ans.
Quelle est, de ces quatre mesures, celle qui présente le plus de variabilité à l’âge de 14 ans ?
2. Chez les filles, l’âge de 7 ans correspond au premier pic pubertaire. On s’attend donc à ce qu’une différence de taille
entre filles et garçons commence à apparaı̂tre. Qu’en est-il ?
3. Chez les garçons, la puberté a lieu entre 12 et 17 ans. A quel âge peut-on observer la plus grande variabilité de la
taille? La question a un sens dans la mesure où là encore, ce sont les mêmes garçons mesurés à des âges différentes.
3
Exercice 6
On connait la taille et le poids de 21 adultes atteints de trisomie 21.
poidsT21 <- c(65.5, 64.5, 54.5, 46.9, 72.7, 48.2, 53.1, 61.4, 66.9, 69.7, 76.1, 71.9, 92.6, 55.4, 52.7, 62.3, 66.4, 61.5, 68.2, 62.3,
65.1)
tailleT21 <- c(1.55, 1.55, 1.58, 1.49, 1.59, 1.53, 1.46, 1.48, 1.41, 1.68, 1.69, 1.58, 1.56, 1.58, 1.39, 1.41, 1.35, 1.37, 1.41, 1.55,
1.48)
1. Calculer l’indice de masse corporelle de ces adultes.
2. Quelle est, parmi ces trois variables, taille, poids et indice de masse corporelle, celle qui admet la plus grande variabilité?
3. On donne les moyennes et les écarts type de la taille et du poids d’adultes issus d’une population ne présentant aucune
pathologie.
a Réaliser une comparaison ”descriptive” de la variabilité de la taille et du poids pour les deux groupes.
b Peut-on calculer la moyenne et l’écart-type de l’indice de masse corporelle à partir du tableau précédent ?