Version Finale TD

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 20

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université des Sciences et de la Technologie Houari Boumediene

Faculté d’Electronique et d’Informatique


Département Informatique

Module: Data Mining

Solution du TD1 : Data Processing

Section : M2/SII
Groupe : 01

Réalisé par:

 Bendjoudi Meriem
 Bounouh Nesrine
 Hammouche Manel Yasmine
 Hassani Hadda
 Tatachak Fatma Zohra Amina

Année universitaire :2020/2021


Exercice 01 :

(a) Calcul de la moyenne :

La moyenne d’un attribut X est calculée à l’aide de la formule suivante :

Tels que :

 L’ensemble des xi correspond aux valeurs de l’attribut X.


 n correspond à l’effectif total.

En appliquant la formule sur nos données on obtient :

Calcul de la médiane :

La médiane est la valeur du milieu d’une série ordonnée. Si le nombre de valeurs est pair on calcule
la moyenne des deux valeurs qui divisent la série.

Cette série d’âges contient 27 valeurs donc la médiane correspond à la 14ème valeur, qui est égale à
25.

(b) Calcul du mode : Le mode représente la valeur la plus fréquente dans l’ensemble des
observations.

Age 13 15 16 19 20 21 22 25 30 33 35 36 40 45 46 52 70

Fréq 1 1 2 1 2 1 2 4 1 2 4 1 1 1 1 1 1

Cette série contient deux modes 25 et 35, la série est donc bimodale.

(c) Calcul du premier quartile (Q1) et du troisième quartile (Q3) des données :

Le premier inférieur (Q1) correspond à la valeur de la position ¼ du nombre total de valeurs dans la
série, en d’autres termes, c’est la valeur du milieu de la première partie médiane, pour lequel 25% des
valeurs lui sont inférieurs.

En appliquant cette définition sur notre exemple on obtient :

posQ1= 27/4 = 6.75 ------- > Q1 est la 7ème valeur de la série.

Q1 = 20

Page | 1
Le quartile supérieur (Q3)correspond à la valeur de la position ¾ du nombre total de valeurs dans la
série, c’est la valeur du milieu de la deuxième partie médiane, pour lequel 75% des valeurs lui sont
inférieurs.

En appliquant cette définition sur notre exemple on obtient :

posQ2=27*3/4 = 20.25 ------- > Q2 est la 21ème valeur de la série.

Q3 = 35

Remarque :

Dans le cas où N/4 (éventuellement 3*N / 4) n’est pas un entier, on prend le nombre entier qui vient
directement après lui.

Moyenne Médiane Q1 Q3

Age 29.96 25 20 35

(d) Résumé des cinq nombres:


Un résumé à cinq nombres permet d’effectuer des analyses descriptives et faire une analyse
préliminaire d'un vaste ensemble de données. Il contient 5 nombres choisis pour nous aider à
connaitre le centre de nos données, ainsi que la répartition des points de données, ce résumé
comprend les éléments suivants :

 Le minimum.
 Le premier quartile Q1.
 La médiane.
 Le troisième quartile Q3.
 Le maximum.

Nous rassemblons les résultats trouvés ci-dessus et signalons que le résumé à cinq chiffres de cet
ensemble de données dans l’ordre est : 13, 20, 25, 35, 70.

Min Q1 Médiane Q3 Max

Age 13 20 25 35 70

Page | 2
(e) Boites à moustaches (Boxplots) :

Une boîte à moustaches est une représentation graphique qui sert à résumer une variable de manière
simple et visuel, en représentant le minimum, le maximum, la médiane, les quartiles (Q1 et Q3) ainsi
que les valeurs aberrantes.

Dessin manuel :

Dessin tracé à l’aide d’outils informatiques :

Figure 1. Boite a moustache.

Page | 3
(f) Différence entre un quantile-quantile plot et un quantile plot :

Le Quantile-Quantile plot (q-q plot) permet de vérifier si deux ensembles de données proviennent
d’une population de la même distribution. Cependant un quantile plot permet de visualiser le
quantile d’un ensemble de donnée.

Page | 4
Exercice 02 :

Nous disposons dans cet exercice des données composées de l’âge et le taux de graisses des patients
choisi au hasard d’un hôpital.

(a) Calcul de la moyenne, la médiane et de l’écart type :

Moyenne de l’attribut âge :

Moyenne de l’attribut graisse :

Médiane de l’attribut âge :

Comme le nombre de données est pair, nous allons calculer la moyenne des deux valeurs du milieu
(se trouvant aux positions 9 et 10 respectivement) :

Médiane de l’attribut graisse (%fat):

Comme les données sont triées selon l’attribut âge, nous les trions d’abord par rapport à l’attribut
graisse, puis on calcule la médiane.

Calcul de l’écart type :

Pour calculer l’écart type, il faut d’abord calculer la variance.

Variance :

Le calcul de la variance est donné par la formule suivante :

Tels que :

Page | 5
 n est le nombre de valeurs de l’attribut X.
 est la moyenne de l’attribut X.

Ecart type :

L’écart type est la racine carrée de la variance, il est calculé comme suit :

Pour faciliter les calculs nous présentons dans ce qui suit un tableau contenant les carrées des deux
attributs âge et graisse (fat%) :

Age² 529 529 729 729 1521 1681 2209 2401 2500

Fat %² 90.25 702.25 60.84 316.84 985.96 670.81 750.75 739.84 973.44

Age² 2704 2916 2916 3136 3249 3364 3364 3600 3721

Fat %² 1197.16 1806.25 829.44 1115.56 912.04 1162.81 1082.41 1697.44 1274.49

Ecart type de l’ attribut âge :

Ecart type de l’ attribut graisse (%fat):

(b) Boites à moustache (Boxplots) des attributs âge et graisse :

Nous commençons d’abord par trier les valeurs de chaque attribut par ordre croissant, puis nous
déterminons les valeurs Min, Q1, Médiane, Q3, Max comme détaillé dans le premier exercice.

 Trier les valeurs de chaque attribut par ordre croissant.


 Calculer la médiane et les quartiles (Q1 et Q3) comme expliqué précédemment.
 Calculer IQR, qui correspond à la différence entre Q1 et Q3.

Rappel en considérant l’attribut âge :

23 23 27 27 29 39 41 47 49 50 52 54 54 56 57 58 58 60 61

Premier quantile dernier Quantile

Page | 6
Voici un tableau résumant les différentes valeurs :

Attribut Min Q1 Médian Q3 Max IQR

Age² 23 29 50 57 61 28

Fat %² 7.8 26.2 30.7 34.35 42.5 8.15

Boxplots :

Dessin manuel :

Page | 7
Dessin tracé à l’aide d’outils informatiques :

Figure 2. Boites à moustache des l’attributs %fat et Age.

Le nuage de point (Scatter plot) :

Un Scatter plot (nuage de points) est une représentation graphique qui permet de mettre en
évidence le degré de corrélation entre au moins deux variables liées X et Y. Chaque individu i est
représenté par un point dont les coordonnées sont les valeurs respectives des variables X et Y prises
par l'individu i.

Page | 8
Dessin manuel :

Dessin tracé à l’aide d’outils informatiques :

Figure 3.graphe de nuage pour l’attribut Age et %fat .

Page | 9
(c) Normalisation des deux attributs âge et graisse :

Pour la normalisation, nous utilisons la transformation en z-score donnée par la formule suivante:

Où :

 et : les nouvelle et l’ancienne valeur respectivement


 : la moyenne de l’attribut.
 : l’écart type.

Cette formule sera appliquée sur chaque valeurs des deux attributs âge et graisse. Dans le tableau ci-
dessous nous présentons les nouvelles valeurs normalisées par la méthode z-score :

Z_age -1.825 -1.825 -1.513 -1.513 -0.579 -0.423 0.0432 0.1989 0.276

Z_fat% -2.144 -0.2538 -2.333 -1.2212 0.2909 -0.320 -0.153 -0.1760 0.2687

Z_age 0.4324 0.588 0.588 0.7438 0.8216 0.8995 0.8995 1.0552 1.13306

Z_fat% 0.6467 1.5251 0.0018 0.5133 0.1575 0.5911 0.4577 1.3806 0.7690

(d) Coefficient de corrélation :

Le calcul du coefficient de corrélation est donné par la formule suivante :

Où :

 : la somme des produits des attributs A et B.


 : le produit des deux moyennes de A et B.
 et : écarts type de A et B respectivement.

En appliquant cette formule, on obtient :

Page | 10
Remarques :

Si ( >0) Alors les données sont corrélées positivement.

Si ( <0)Alors les données sont corrélées négativement.

Si ( =0)Alors les données sont indépendantes (non corrélées).

Comme le coefficient de corrélation calculé est égale à 0.865 ( strictement supérieur à 0) , nous
déduisons que les données des deux attributs âge et graisse (fat%) sont positivement corrélées.

Page | 11
Exercice 03 :

Dans cet exercice nous considérons les notes d’un groupe de 10 étudiants en ‘datamining’ et ‘méta-
heuristiques’.

1) A-t-on besoin de normaliser les notes données dans le tableau :

Non, nous n’avons pas besoin de normaliser les données, car ces dernières sont représentées par
leurs degrés d’importance. Par exemple l’examen est le plus important parmi lest rois notes
disponibles, c’est pourquoi il représente la moitié de la note finale. Les deux valeurs note TP et note
TD sont donc sur l’échelle 10 et l’examen est sur l’échelle 20. Ceci n’affectera pas la qualité des
données, mais facilitera les calculs de la note Finale, qui est calculée sans l’ajout des coefficients. Alors
que si on normalise les données, la formule de calcul de la note Finale sera modifiée en ajoutant des
coefficients.

2) Que représente l’attribut Final pour les aux TP, Test et EMD :

Le calcul de la note « Final » est donné par la formule suivante :

Final = (TP+Test+EMD)/2

Final = =

En posant :

On aura donc :

Final =

Final représente donc la moyenne pondérée des notes de Tp, Test et EMD par leur coefficients, tels
que :

- Coefficient de TP’ = 1, Coefficient de Test’= 1 et Coefficient de EMD= 2.


- La sommes des coefficients = 4.

Remarque : la formule de calcul d’une moyenne pondérée est donné comme suit :

Où :

Page | 12
3) Calcul des mesures de tendance centrale:
- Calcul de la moyenne :

Comme vu précédemment, la moyenne d’un attribut X est calculée à l’aide de la formule suivante :

En appliquant la formule sur nos données on obtient :

- Calcul de la médiane :

Comme le nombre total de données est pair, la médiane correspond à la moyenne des deux valeurs
du milieu(se trouvant à la 5 ème et 6 ème position respectivement) :

- Calcul du mode:

Le mode représente la valeur la plus fréquente dans l’ensemble des observations.

Dans notre cas, il n’y a pas de mode car aucune des valeurs n'y apparaît plus qu'une autre, elles
apparaissent toutes une et une seule fois.

- Conclusion:

Même si la moyenne et la médiane ont la même valeur, comme le mode n’existe pas la distribution
n’est pas symétrique.

Page | 13
- Calcul de Q1 et Q3:

Le premier quartile est la valeur se trouvant à la position ¼ du nombre total de valeurs dans la série :

Calcul de Q1: posQ1= 10/4 = 2.5 ------- > Q1 est la 3ème valeur de la série

Le troisième quartile est la valeur se trouvant à la position ¾ du nombre total de valeurs dans la
série :

Calcul de Q3: posQ3=10*3/4 = 7.5 ----------- > Q3 est la 8ème valeur de la série.

- Résumé des cinq nombres :

Comme expliqué dans les exercices précédents, on résume une série statistique en identifiant le
Minimum, le premier quartile, la médiane, le troisième quartile et le Maximum.

Le résumé à cinq nombres de Final1 et Final2 est donné par le tableau ci-dessous :

Attribut Min Q1 Médiane Q3 Max

Final1 7.75 8.75 10.225 11.5 13.13

Final2 10.06 11.44 12.22 13.63 15.44

Page | 14
- Boites à moustaches de Final1 et Final2:
- Dessin manuel :

- Dessin tracé à l’aide d’outils informatiques :

Figure 4. Boites à moustache de Final1 et Final2.

4) Scatter plot et q-q plot pour les deux variables Final1 et Final2 :

Les figures suivantes illustrent deux le Scatter plot des variables Final1 et Final2dont l’une est
dessinée manuellement et l’autre en utilisant des outils informatiques.

Page | 15
Dessin manuel :

Dessin tracé à l’aide d’outils informatiques :

Figure 5.Scatter Plot de Final1 et Final2.

Page | 16
- Quantile-Quantile plot :

Quantile-Quantile plot (Q-Q plot) est un outil graphique permettant de comparer deux distributions
que l'on estime semblables. En d’autres termes, il permet de vérifier si deux ensembles de données
proviennent d’une population de la même distribution.

Les figures suivantes illustrent deux Q-Q de Final2 Vs Final1 dont l’une est dessinée manuellement et
l’autre en utilisant des outils informatiques.

Dessin manuel :

Page | 17
Dessin tracé à l’aide d’outils informatiques :

Figure 6.Q-Q Plot Final2 Vs Final1.

5) Calcul du coefficient de corrélation pour Final1 et Final2 :

Le calcul du coefficient de corrélation de Pearson est donné par la formule suivante :

Afin de faciliter les calculs, nous calculons les valeurs suivantes au préalable :

F1 F2 F1*F2 F1² F2²


13.13 14.88 195.37 172.40 221.41
11.50 12.38 142.37 132.25 153.26
8.75 12.06 105.53 76.56 145.44
7.84 11.44 89.69 61.47 130.87
12.00 13.63 163.56 144.00 185.78
10.13 13.31 134.83 102.62 177.16
7.75 11.75 91.06 60.06 138.06
10.38 10.19 105.77 107.74 103.84
8.84 10.06 88.93 78.15 101.20
10.75 15.44 165.98 115.56 238.39
Somme 101.07 125.14 1283.09 1050.81 1595.42

Page | 18
r=

r = +0.6235

La valeur du coefficient de corrélation est positive, donc il y a une relation entre la note Final1 et
Final2 tel que Final1 ↑ Final2.

Page | 19

Vous aimerez peut-être aussi