Version Finale TD
Version Finale TD
Version Finale TD
Section : M2/SII
Groupe : 01
Réalisé par:
Bendjoudi Meriem
Bounouh Nesrine
Hammouche Manel Yasmine
Hassani Hadda
Tatachak Fatma Zohra Amina
Tels que :
Calcul de la médiane :
La médiane est la valeur du milieu d’une série ordonnée. Si le nombre de valeurs est pair on calcule
la moyenne des deux valeurs qui divisent la série.
Cette série d’âges contient 27 valeurs donc la médiane correspond à la 14ème valeur, qui est égale à
25.
(b) Calcul du mode : Le mode représente la valeur la plus fréquente dans l’ensemble des
observations.
Age 13 15 16 19 20 21 22 25 30 33 35 36 40 45 46 52 70
Fréq 1 1 2 1 2 1 2 4 1 2 4 1 1 1 1 1 1
Cette série contient deux modes 25 et 35, la série est donc bimodale.
(c) Calcul du premier quartile (Q1) et du troisième quartile (Q3) des données :
Le premier inférieur (Q1) correspond à la valeur de la position ¼ du nombre total de valeurs dans la
série, en d’autres termes, c’est la valeur du milieu de la première partie médiane, pour lequel 25% des
valeurs lui sont inférieurs.
Q1 = 20
Page | 1
Le quartile supérieur (Q3)correspond à la valeur de la position ¾ du nombre total de valeurs dans la
série, c’est la valeur du milieu de la deuxième partie médiane, pour lequel 75% des valeurs lui sont
inférieurs.
Q3 = 35
Remarque :
Dans le cas où N/4 (éventuellement 3*N / 4) n’est pas un entier, on prend le nombre entier qui vient
directement après lui.
Moyenne Médiane Q1 Q3
Age 29.96 25 20 35
Le minimum.
Le premier quartile Q1.
La médiane.
Le troisième quartile Q3.
Le maximum.
Nous rassemblons les résultats trouvés ci-dessus et signalons que le résumé à cinq chiffres de cet
ensemble de données dans l’ordre est : 13, 20, 25, 35, 70.
Age 13 20 25 35 70
Page | 2
(e) Boites à moustaches (Boxplots) :
Une boîte à moustaches est une représentation graphique qui sert à résumer une variable de manière
simple et visuel, en représentant le minimum, le maximum, la médiane, les quartiles (Q1 et Q3) ainsi
que les valeurs aberrantes.
Dessin manuel :
Page | 3
(f) Différence entre un quantile-quantile plot et un quantile plot :
Le Quantile-Quantile plot (q-q plot) permet de vérifier si deux ensembles de données proviennent
d’une population de la même distribution. Cependant un quantile plot permet de visualiser le
quantile d’un ensemble de donnée.
Page | 4
Exercice 02 :
Nous disposons dans cet exercice des données composées de l’âge et le taux de graisses des patients
choisi au hasard d’un hôpital.
Comme le nombre de données est pair, nous allons calculer la moyenne des deux valeurs du milieu
(se trouvant aux positions 9 et 10 respectivement) :
Comme les données sont triées selon l’attribut âge, nous les trions d’abord par rapport à l’attribut
graisse, puis on calcule la médiane.
Variance :
Tels que :
Page | 5
n est le nombre de valeurs de l’attribut X.
est la moyenne de l’attribut X.
Ecart type :
L’écart type est la racine carrée de la variance, il est calculé comme suit :
Pour faciliter les calculs nous présentons dans ce qui suit un tableau contenant les carrées des deux
attributs âge et graisse (fat%) :
Age² 529 529 729 729 1521 1681 2209 2401 2500
Fat %² 90.25 702.25 60.84 316.84 985.96 670.81 750.75 739.84 973.44
Age² 2704 2916 2916 3136 3249 3364 3364 3600 3721
Fat %² 1197.16 1806.25 829.44 1115.56 912.04 1162.81 1082.41 1697.44 1274.49
Nous commençons d’abord par trier les valeurs de chaque attribut par ordre croissant, puis nous
déterminons les valeurs Min, Q1, Médiane, Q3, Max comme détaillé dans le premier exercice.
23 23 27 27 29 39 41 47 49 50 52 54 54 56 57 58 58 60 61
Page | 6
Voici un tableau résumant les différentes valeurs :
Age² 23 29 50 57 61 28
Boxplots :
Dessin manuel :
Page | 7
Dessin tracé à l’aide d’outils informatiques :
Un Scatter plot (nuage de points) est une représentation graphique qui permet de mettre en
évidence le degré de corrélation entre au moins deux variables liées X et Y. Chaque individu i est
représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises
par l'individu i.
Page | 8
Dessin manuel :
Page | 9
(c) Normalisation des deux attributs âge et graisse :
Pour la normalisation, nous utilisons la transformation en z-score donnée par la formule suivante:
Où :
Cette formule sera appliquée sur chaque valeurs des deux attributs âge et graisse. Dans le tableau ci-
dessous nous présentons les nouvelles valeurs normalisées par la méthode z-score :
Z_age -1.825 -1.825 -1.513 -1.513 -0.579 -0.423 0.0432 0.1989 0.276
Z_fat% -2.144 -0.2538 -2.333 -1.2212 0.2909 -0.320 -0.153 -0.1760 0.2687
Z_age 0.4324 0.588 0.588 0.7438 0.8216 0.8995 0.8995 1.0552 1.13306
Z_fat% 0.6467 1.5251 0.0018 0.5133 0.1575 0.5911 0.4577 1.3806 0.7690
Où :
Page | 10
Remarques :
Comme le coefficient de corrélation calculé est égale à 0.865 ( strictement supérieur à 0) , nous
déduisons que les données des deux attributs âge et graisse (fat%) sont positivement corrélées.
Page | 11
Exercice 03 :
Dans cet exercice nous considérons les notes d’un groupe de 10 étudiants en ‘datamining’ et ‘méta-
heuristiques’.
Non, nous n’avons pas besoin de normaliser les données, car ces dernières sont représentées par
leurs degrés d’importance. Par exemple l’examen est le plus important parmi lest rois notes
disponibles, c’est pourquoi il représente la moitié de la note finale. Les deux valeurs note TP et note
TD sont donc sur l’échelle 10 et l’examen est sur l’échelle 20. Ceci n’affectera pas la qualité des
données, mais facilitera les calculs de la note Finale, qui est calculée sans l’ajout des coefficients. Alors
que si on normalise les données, la formule de calcul de la note Finale sera modifiée en ajoutant des
coefficients.
2) Que représente l’attribut Final pour les aux TP, Test et EMD :
Final = (TP+Test+EMD)/2
Final = =
En posant :
On aura donc :
Final =
Final représente donc la moyenne pondérée des notes de Tp, Test et EMD par leur coefficients, tels
que :
Remarque : la formule de calcul d’une moyenne pondérée est donné comme suit :
Où :
Page | 12
3) Calcul des mesures de tendance centrale:
- Calcul de la moyenne :
Comme vu précédemment, la moyenne d’un attribut X est calculée à l’aide de la formule suivante :
- Calcul de la médiane :
Comme le nombre total de données est pair, la médiane correspond à la moyenne des deux valeurs
du milieu(se trouvant à la 5 ème et 6 ème position respectivement) :
- Calcul du mode:
Dans notre cas, il n’y a pas de mode car aucune des valeurs n'y apparaît plus qu'une autre, elles
apparaissent toutes une et une seule fois.
- Conclusion:
Même si la moyenne et la médiane ont la même valeur, comme le mode n’existe pas la distribution
n’est pas symétrique.
Page | 13
- Calcul de Q1 et Q3:
Le premier quartile est la valeur se trouvant à la position ¼ du nombre total de valeurs dans la série :
Calcul de Q1: posQ1= 10/4 = 2.5 ------- > Q1 est la 3ème valeur de la série
Le troisième quartile est la valeur se trouvant à la position ¾ du nombre total de valeurs dans la
série :
Calcul de Q3: posQ3=10*3/4 = 7.5 ----------- > Q3 est la 8ème valeur de la série.
Comme expliqué dans les exercices précédents, on résume une série statistique en identifiant le
Minimum, le premier quartile, la médiane, le troisième quartile et le Maximum.
Le résumé à cinq nombres de Final1 et Final2 est donné par le tableau ci-dessous :
Page | 14
- Boites à moustaches de Final1 et Final2:
- Dessin manuel :
4) Scatter plot et q-q plot pour les deux variables Final1 et Final2 :
Les figures suivantes illustrent deux le Scatter plot des variables Final1 et Final2dont l’une est
dessinée manuellement et l’autre en utilisant des outils informatiques.
Page | 15
Dessin manuel :
Page | 16
- Quantile-Quantile plot :
Quantile-Quantile plot (Q-Q plot) est un outil graphique permettant de comparer deux distributions
que l'on estime semblables. En d’autres termes, il permet de vérifier si deux ensembles de données
proviennent d’une population de la même distribution.
Les figures suivantes illustrent deux Q-Q de Final2 Vs Final1 dont l’une est dessinée manuellement et
l’autre en utilisant des outils informatiques.
Dessin manuel :
Page | 17
Dessin tracé à l’aide d’outils informatiques :
Afin de faciliter les calculs, nous calculons les valeurs suivantes au préalable :
Page | 18
r=
r = +0.6235
La valeur du coefficient de corrélation est positive, donc il y a une relation entre la note Final1 et
Final2 tel que Final1 ↑ Final2.
Page | 19