Stats Papier
Stats Papier
Stats Papier
STATISTIQUE
DESCRIPTIVE
1.0
PROBL104
Novembre 2017
Table des
matières
Objectifs...........................................................................................................................................5
Introduction......................................................................................................................................7
I - Représentation des données statistiques......................................................................................9
A. Série statistique......................................................................................................................9
B. Exercice : Série statistique discrète.....................................................................................16
C. Exercice...............................................................................................................................16
D. Exercice...............................................................................................................................16
E. Exercice...............................................................................................................................17
F. Exercice................................................................................................................................17
G. Exercice : Série statistique continue....................................................................................17
H. Exercice : Effectif corrigés dans une série statistique.........................................................18
I. Exercice : Fonctions de repartition.......................................................................................19
J. Exercice................................................................................................................................20
II - Paramètres statistiques.............................................................................................................23
A. Moyenne et variance............................................................................................................23
B. Exercice...............................................................................................................................26
C. Exercice : Exercice de niveau plus difficile........................................................................27
III - Corrélation..............................................................................................................................29
A. Ajustement linéaire..............................................................................................................30
IV - Exercice..................................................................................................................................33
V - Exercice...................................................................................................................................35
Conclusion.....................................................................................................................................37
Bibliographie.................................................................................................................................39
3
4
Objectifs
5
Introduction
Le but de la statistique est de traiter des données (en général en grand nombre) en vue d'en
tirer une information utile. Ces données proviennent d'un sondage, de mesures sur un
central téléphonique,d'une enquête, d'un recensement,etc..., et sont donc des réalisations
d'un phénomène aléatoire.
En statistique, la donnée de base est la donnée d'une réalisation x de la variable aléatoire X
de loi inconnue P supposée appartenir à un certain ensemble de probabilités.
A partir d'une observation X(ω), on essaie d'avoir des informations sur la loi.
La famille des lois possibles est ce que l'on appelle le modèle statistique. Le modèle
statistique décrit l'information dont on dispose a priori sur le phénomène aléatoire considéré
et l'ensemble des paramètres inconnus. Il décrit tout ce qu'on ignore sur le phénomène
aléatoire.
Dans cet leçon, notre sujet est d'introduire les méthodes de traitement des données
collectées
Il existe de nombreux logiciels de statistique qui permettent de mieux se familiariser avec
les notions de statistique (Excel , R, IBM SPSS, Scilab, Matlab, ...). Dans ce cours , nous
utilisons le logiciel Scilab qui est un très bon logiciel assez complet. Les exemples des
différentes sections sont accompagnés de leur code Scilab.
Le logiciel Scilab est téléchargeable à l’adresse
suivante :https://www.scilab.org/fr/download/latest (Télécharger la version 32 bits pour
windows)
Une vidéo1 pour vos premiers pas sous Scilab est disponible
Un polycopié introductif (cf. ) à l'utilisation de Scilab est disponible (chapitre 1)
Un polycopié introductif (cf. ) de l'utilisation de Scilab dans la statistique est également
disponible
1 - https://youtu.be/_GgtRCtds2s
7
Représentation
I
I-
des données
statistiques
Objectifs
À la fin de cette section, vous serez capable :
• Organiser les données sous formes de classes
représentatives
A. Série statistique
Défi nition
Soit P un ensemble, appelé ≪ population ≫,
alors une variable statistique est une application :
9
Représentation des données statistiques
Attention
Dans la pratique on s’intéresse surtout à l'univers image X(P)-1 et on identifie
souvent une variable statistique avec la liste des valeurs X(i) prises par la variable.
Dans ce cas on parle en général de série statistique.
effectif ni
fréquence
fi
Série continue
10
Représentation des données statistiques
effectif ni
fréquenc
e fi
Si N est l'effectif total on a
effectif ni 11 18 18 16 16 21
11
Représentation des données statistiques
effectif ni 27 31 24 18
Défi nition
Soit X une série statistique alors la fonction de répartition de X est donnée par :
12
Représentation des données statistiques
13
Représentation des données statistiques
effectif ni 11 18 18 16 16 21
14
Représentation des données statistiques
15
Représentation des données statistiques
Attention
Les fichiers contenant le code Scilab pour la série discrète X (cf. ) et la série
continue Y sont disponibles (cf. )
Exercice
Dans un test objectif comportant 10 questions, un professeur a relevé le nombre
de bonnes réponses de chacun des ses 80 étudiants. Il a obtenu les données
brutes suivantes :
2 3 5 5 4 6 6 5 4 3 7 7 7 6 2 7 7 9 8 10 5 6 6 8 6 6 3 7 3 5 9 7 6 4 7 5 9 9 6 9 6 3
9 8 8 7 5 6 10 6 9 7 7 7 4 7 10 8 7 10 3 5 8 5 8 7 4 8 10 7 4 6 6 8 7 7 7 8 8 9
Quelle est la population totale ?
Exercice
Déterminer la variable statistique X de l'exercice précédent. la réponse doit être
donnée sous la forme d'une assertion entre double-côtes. Par exemple X ="Le
numéro de la face supérieure du dé"
Exercice
La variable statistique X est continue ?
Vrai
Faux
C. Exercice
Donner le tableau des effectifs de la série statistique. On notera les résultats sous
forme d'un ensemble de couples . par exemple {(1,10), (4,13), (10,23)}. le premier
terme du couple correspond à la modalité et le second à l'effectif
D. Exercice
Donner le tableau des fréquences de la série statistique. On notera les résultats
sous forme d'un ensemble de couples . par exemple {(1,10), (4,13), (10,23)}. le
16
Représentation des données statistiques
E. Exercice
Donner le tableau des effectifs cumulés de la série statistique. On notera les
résultats sous forme d'un ensemble de couples . par exemple {(1,10), (4,13),
(10,23)}. le premier terme du couple correspond à la modalité et le second à la
fréquence cumulée
F. Exercice
Combien d’étudiants ont répondu moins de sept fois correctement ?
Exercice
La série statistique Y est-elle continue ?
vrai
faux
Exercice
Nous voulons regrouper les données en classes de largeur 10 Lequel des
tableaux suivants représente les données de la série statistique Y
17
Représentation des données statistiques
modalité ] ] ] ] ]190,200]
150,160 160,170 170,180 180,190
] ] ] ]
Effectif 12 24 30 12 24
Effectif 4 21 39 28 8
Effectif 4 21 39 28 8.
Effectif 10 15 21 18 28 8
Exercice
18
Représentation des données statistiques
|xi - xi-1| 14 5 5 5 10 10
|xi - xi-1| 15 5 5 5 10 10
|xi - xi-1| 15 5 5 5 10 10
|xi - xi-1| 15 5 5 5 10 10
Exercice
Yao qui est gardien de but de l’équipe de football de don équipe note le nombre
de buts encaissés par son équipe au cours de chaque match. Pour la dernière
saison , il a compilé toutes ses données sous la forme du tableau suivant :
19
Représentation des données statistiques
Xi= 0 1 2 3 4 5 6 7 10
ni 5 12 14 8 7 4 2 1 1
fi
cumul
Exercice
Lesquels des graphiques sont représentatifs de la serie statistique X ?
J. Exercice
Exercice
On considère la série statistique Y qui mesure les temps de parcours (en
20
Représentation des données statistiques
minutes) des 40 participants d'une course de vitesse. Les données ont été
relevées et sont résumées dans le tableau suivant :
Classes ]43, 45] ]45, 47] ]47, 49] ]49, ]51, ]53, ]55, 57]
(minutes) 51] 53] 55]
]bi-1,bi]
Effectif ni 2 3 7 11 8 6 3
y=(11/240)x -467/240
y=(11/80)x-515/80
y=(25/512)x+10/180
21
Paramètres
II
II -
statistiques
Objectifs
A la fin de cette section, vous serez capables de :
Estimer les paramètres tels que la moyenne et la
variance
A. Moyenne et variance
Attention
Il faut distinguer le calcul de la moyenne dans le cas d'une série statistique discrète
de celui d'une série statistique continue
Exemple
Nous reprenons notre série statistique discrète X . Nous pouvons calculer
directement la moyenne à partir du tableau construit dans la section précédente
23
Paramètres statistiques
moyenne
approchée est définie par
Exemple
Nous allons estimer la moyenne de la série statistique Y. Nous avons regroupé les
données de Y en quatre classes de largeur 5.
modalité ]0 ;5] ]5 ;10] ]10 ;15] ]15 ;20]
effectif ni 27 31 24 18
valeur
Complément
Pour une variable continue si on a pas accès aux donnees brutes on pourra aussi
calculer une variance et un écart-type approche (comme pour la moyenne
approchée).
24
Paramètres statistiques
Complément
Dans la pratique on calcule la variance à l'aide de la formule de Koening suivante
effectif ni 11 18 18 16 16 21
Tout d'abord on estime la moyenne de X. Cela peut être fait par les méthodes vues
précédemment et on obtient que moy (X)=2.71.
0n construit la nouvelle série statistique Y =X -moy(X).
La variance est alors la moyenne de la série Y 2. Un calcul nous donne
var(X)=2.8059. l'écart-type qui est la racine carrée de la variance est alors de 1.67
Remarque
Cette deuxième méthode sera surtout utile dans l'estimation de la variance d'une
série statistique continue
Nous allons donner une définition qui généralise la notion de variance au cas deux
séries statistiques distinctes
25
Paramètres statistiques
B. Exercice
Dans un groupe de 10 personnes, on mesure les tailles t i, en cm :
Exercice
On définit une nouvelle série xi =ti-160. On construit la nouvelle série x i= ti-
moy(xi). laquelle des assertions suivantes est vérifiée ?
ti -10 -7 -3 -2 -2 2 5 5 8 14
Exercice
Moyenne de la série statistique xi
161
160
Exercice
Variance de la série statistique xi
26
Paramètres statistiques
Var(Xi) = 52.222
Var(Xi)=0
Var(Xi)=2457
Exercice
Exprimez les paramètres de la série initiale ti
moy(ti)=161 var(ti)=52.222
moy(ti)=160 var(ti)= 47
moy(ti)=0 var(ti)=52.222
Exercice
Que est le mode de cette série statistique
Exercice
Quelle est la valeur de la médiane cette série statistique
27
Paramètres statistiques
3.5
2.5
Exercice
Donner la valeur de l'inter-quartile de cette série statistique
28
Corrélation
III
III -
Objectifs
A la fin de cette section, vous serez capables de :
• Estimer les corrélations existantes entre les données
observées
En statistique il est souvent important de rechercher s'il existe un lien entre deux
variables X et Y , lien qui, dans l’idéal, pourrait s'exprimer par une équation de la
forme Y = aX + b.
Considérons par exemple les 2 séries statistiques suivantes :
X ="La moyenne sur 20 en mathématiques au semestre 1"
Y="La moyenne générale sur 20 obtenue au premier semestre "
Les données brutes sont dans le fichier suivant (cf. )
On voudrait quantifier le lien entre ces deux variables statistiques. Si on place les
points de coordonnées (Xi, Yi) sur un graphe on obtient le ”nuage” suivant :
ces points semblent à première vue alignés sur une droite, cela signifie qu'on peut
quantifier le lien entre Y et X par une équation de la forme Y = aX + b. Le but est
donc de trouver les coefficients a et b de telle sorte que la droite y = ax + b
passe au plus prés du maximum de points comme sur la figure suivante 'droite en
bleue). C'est ce qu'on appelle faire une régression linéaire.
29
Corrélation
A. Ajustement linéaire
Nous allons apprendre à déterminer les coefficients a et b. Pour cela nous allons
utiliser la méthode des moindres carres. Cette méthode consiste à minimiser
l'erreur globale qu'on comment en écrivant que Y = aX + b .
Fondamental
Soient X et Y deux séries statistiques alors la méthode des moindres carres consiste
à chercher la ”meilleure” droite, d'équation y = ax + b, passant par le nuage de
points (X, Y ) comme étant la droite qui minimise la somme des carrés des écarts
entre les points (Xi, Yi) et (Xi, aXi + b) c'est à dire on cherche a et b qui minimisent la
fonction
et
Attention
on remarquera que l'ajustement de Y par rapport à X n'est pas le même que
l'ajustement de X par rapport à Y
30
Corrélation
alors le nuage de points (X, Y ) est d'autant plus proche de la droite d'ajustement
linéaire de Y en X que |ρ| est proche de 1. En particulier tous les points du nuage
sont sur la droite y = ax + b si et seulement si ρ = 1
La corrélation sera dite forte (resp. faible) si
Exemple
Nous allons reprendre l'exemple introductif de cette section avec nos deux séries
statistiques :
X ="La moyenne sur 20 en mathématiques au semestre 1"
Y="La moyenne générale sur 20 obtenue au premier semestre "
Le fichier suivant contient les données brutes des deux séries ainsi que le code
Scilab (cf. ) que vous pourrez utiliser pour générer les paramètres et tracer les
courbes présentées dans le cours.Afin de déterminer les paramètres de la droite
d'ajustement ,on effectue les étapes suivantes :
1) Estimation des paramètres de chaque série :
31
Exercice
IV
IV -
Exercice
Parùi les assertions suivantes, lesquelles sont vérifiées ?
Exercice
Lesquelles des affirmations suivantes sont vérifiées ?
cov(X, Y)=cov(Y, X)
COV(X,Y)=5.358226
COV(X,Y)=93345643
COV(X,Y)=Var(X)Var(Y)
COV(X,Y)=E(XY)
Exercice
Estimer les paramètres de la droite d'ajustement linéaire.Les données seront
exprimées sous la forme d'une liste de 3 nombres réels. Par exemple a
33
Exercice
Exercice
LA corrélation entre Y et X est forte :
Vrai
Faux
34
Exercice
V
V-
On soupçonne que l'acidité d'un sol (ph) est liée à la présence d'aluminium
échangeable (qae) suivant la loi
qae = k × Aph <==> ln(qae) = ln(k) + ph × ln(A)
Pour vérifier cette hypothèse on a mesure le ph et la quantité qae d'aluminium
échangeable (en p.p.m.) en divers points du sol :
Le tableau suivant résume les données brutes recueilles :
Exercice
Soit les séries statistiques Y=ln(qae) et X =ph. Estimez les paramètres de
l'ajustement linéaire de Y par rapport à X. les résultats seront donnés sous forme
d'une liste de 3 nombres réels. Par exemple a =0.234564 b=3.214321
corr=62.432534 (précision de 6 chiffres après la virgule)
Exercice
Calculez les valeurs de paramètres k et A. les résultats seront donnés sous forme
d'une liste de 2 nombres réels. Par exemple A =0.234564 k=3.214321 (précision
de 6 chiffres après la virgule)
Exercice
Qualifier la qualité de l'ajustement
35
Exercice
Exercice
Estimer la quantité d'aluminium échangeable pour un ph =5
36
Conclusion
Ce chapitre met fin à ce cours introductif sur les probabilités et la statistique. Le notions
abordées vous seront utiles dans différents domaines de l'informatique comme l’étude de
l’évolution d'un processus informatique, la modélisation et le dimensionnement des réseaux
de télécommunication et même dans le domaine du traitement de l'image. la maîtrise de
ces outils est donc primordiale
37
Bibliographie
[1] Pierre Andreoletti, Support du cours de Probabilités et Statistiques, IUT d'Orléans, Département
Informatique, 2008
[2] Ph. Roux, Probabilités discrètes et statistique descriptive, DUT Informatique, semestre 2, 2010
39