Chap4-Ingénierie Des Donnéesnov2023
Chap4-Ingénierie Des Donnéesnov2023
Chap4-Ingénierie Des Donnéesnov2023
Chapitre IV :
Riadh ABDELFATTAH
École supérieure des Communications
[email protected]
Plan
1. Introduction : Analyse exploratoire de données (AED) et
visualisations
2. Processus AED
3. Quiz
1. Introduction
Analyse exploratoire des données et visualisations ?
1. Introduction
Analyse exploratoire des données et visualisations ?
Découvrir des relations systématiques entre variables, en prenant en compte
un grand nombre de variables : Analyse des données
Analyse classique
Analyse Bayésienne
1. Introduction
Analyse exploratoire des données et visualisations ?
L’analyse exploratoire des données est un outil pour exécuter les phases de
compréhension et préparation. Les données préparées sont ensuite analysées
pour permettre de répondre aux questions découlant de la préparation des
données. Les données fournies sont explorées de manière interactive.
1. Introduction
Analyse exploratoire des données et visualisations ?
Comment faire ?
Utiliser des visualisations de données
1. Introduction
Analyse exploratoire des données et visualisations ?
La visualisation des données nous permet de comprendre les données
rapidement.
1. Introduction
Analyse exploratoire des données et visualisations ?
1. Introduction
Analyse exploratoire des données et visualisations ?
2. Processus AED
Le processus recommandé pour effectuer une analyse exploratoire des données ?
2. Processus AED
1. Distinguer les attributs
Exemple : Comment pourrons nous décrire ce qui s’est passé
sur le Titanic à partir de données ?
2. Processus AED
1. Distinguer les attributs
Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
2. Processus AED
1. Distinguer les attributs
Examinez la structure des données : nombre des
échantillons (individus), nombre de variables
(attributs), noms de variables, types de données, etc.
2. Processus AED
1. Distinguer les attributs
Examinez la structure des données : nombre
des échantillons (individus), nombre de
variables (attributs), noms de variables, types
de données, etc.
2. Processus AED
1. Distinguer les attributs
Identifiez ce que les données
signifient (mesures) pour chacun des
échantillons et soyez prudent lors de
l'obtention des métriques.
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
La moyenne géométrique est utilisée pour calculer la moyenne des attributs ayant
des donnée atypiques.
2. Processus AED
1. Distinguer les attributs la moyenne arithmétique de taux est de :
(.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%
La somme principale avec un taux moyen
Calculer les métriques clés pour chaque (arithmétique) sur 5 ans :
100 000 * (1.066⁵ - 1) = 37 653.11
point de données (analyse récapitulative) : 37 653.11 + 100 000 = 137 653.11
a. Mesures de tendance centrale
La somme principale avec le taux d’intérêt réel sur 5
(Moyenne, Médiane, Mode) ans : 136,883.70
• La moyenne géométrique peut calculer 1ère année : 100 000 + (100 000 * .01) = 100 000
une moyenne de nombres sur des * 1.01 = 101 000
échelles complètement différentes ou 2ème année : 101 000 * 1.09 = 110 090
ayant une relation multiplicative ou 3ème année : 110 090 * 1.06 = 116 695.40
4ème année : 116 695.40 * 1.02 = 119 029.31
exponentielle (pour une même 5ème année : 119 029.31 * 1.15 = 136 883.70
variable). La Moyenne géométrique de taux est de :
1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042
• Exemple : Pour un épargne de 100 000 La racine 5ème de 1.368837042 = 1.064805657
TND qui génère un taux d’intérêt La somme principale avec un taux moyen
variable chaque année pendant 5 ans : (géométrique) sur 5 ans :
100 000 * (1.0648⁵ - 1) = 36,883.70
1%, 9%, 6%, 2%, 15% 36,883.70 + 100 000 = 136 883.70
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.
L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une distribution/d’un
ensemble.
Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations.
L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une distribution/d’un
ensemble.
Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
L’écart-type (SD) : Mesure de dispersion autour
de la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
La variance : Mesure de dispersion qui consiste
en la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations. Remarque : L'imputation moyenne
L’étendue : L’étendue représente la différence convient aux variables continues
entre les valeurs extrêmes d’une distribution/d’un avec une distribution symétrique.
ensemble. L'imputation médiane est appropriée
Le percentile Le rang percentile indique le lorsque la variable présente des
pourcentage des données ayant une valeur valeurs aberrantes ou une
inférieure ou égale à la donnée considérée. distribution asymétrique.
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point de
données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne m,
Médiane, Mode)
b. Mesures de dispersion (plage (range), écart
quartile, écart moyen, écart type )
L’écart-type : Mesure de dispersion autour de
la moyenne. Cette mesure correspond à l’écart
moyen par rapport à la moyenne.
La variance : Mesure de dispersion qui
consiste en la somme des carrés des écarts par
rapport à la moyenne, divisée par le nombre
d’observations.
L’étendue : L’étendue représente la différence
entre les valeurs extrêmes d’une
distribution/d’un ensemble.
Le percentile Le rang percentile indique le
pourcentage des données ayant une valeur
inférieure ou égale à la donnée considérée.
Le kurtosis, qui
décrit l'épaisseur de la
queue et la netteté du
pic. Il indique la
probabilité de trouver
des valeurs extrêmes
dans nos données. Des
valeurs plus élevées
rendent les valeurs
aberrantes plus
probables.
2. Processus AED
1. Distinguer les attributs
Calculer les métriques clés pour chaque point
de données (analyse récapitulative) :
a. Mesures de tendance centrale (Moyenne,
Médiane, Mode)
b. Mesures de dispersion (plage, écart
quartile, écart moyen, écart type)
c. Mesures de l'asymétrie (Skewness,
moment d’ordre 3) et de l'aplatissement
(kurtosis, moment d’ordre 4).
2. Processus AED
1. Distinguer les attributs
Les mesures de tendance centrale,
de dispersion, d'asymétrie et
d'aplatissement peuvent-elles être
les mêmes pour différents
ensembles de données ?
Quartet d’Anscombe :
ensembles de données qui ont des
propriétés statistiques simples
presque identiques, mais semblent
très différents lorsqu'ils sont
représentés graphiquement. !
Chaque ensemble de données se
compose de onze points (x,y).
Cet exemple souligne l'importance d'examiner visuellement les données, et pas
seulement leures statistiques récapitulatives.
2. Processus AED
1. Distinguer les attributs
2. Processus AED
2. Analyse univariée
Etudier les visuels :
a. Histogramme pour chaque variable
2. Processus AED
2. Analyse univariée
Etudier les visuels :
a. Histogramme pour chaque variable
2. Processus AED
2. Analyse univariée
Etudier les visuels :
a. Histogramme pour chaque variable
2. Processus AED
2. Analyse univariée
Etudier les visuels :
a. Histogramme pour chaque variable
2. Processus AED
2. Analyse univariée
Etudier les visuels :
a. Histogramme pour chaque variable
2. Processus AED
3. Analyse multi-variée
Etudier les visuels :
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)
2. Processus AED
3. Analyse multi-variée
Diagramme de dispersion
Etudier les visuels :
a. Nuage de points pour corréler
les variables (Scatterplot ou
diagramme de dispersion)
2. Processus AED
3. Analyse multi-variée
Diagramme de tracé de paires (Pair-Plot)
2. Processus AED
3. Analyse multi-variée 1 -1
Coefficient de corrélation
= 0.5
Coefficient de corrélation de
Pearson (varie entre -1 et +1) :
= -0.5
2. Processus AED
3. Analyse multi-variée
Matrice des coefficients de corrélation (carte thermique – heat map)
Corrélation : Analyse statistique
utilisée pour mesurer la ressemblance
entre deux variables X et Y.
Covariance empirique entre
deux variables X et Y.
2. Processus AED
3. Analyse multi-variée
Matrice des coefficients de corrélation (carte thermique – heat map)
Application :
1. Afficher la matrice de corrélation empirique de Pearson (avec heatmap)
pour le dataset titanic,
2. Afficher le diagramme en boîte (boxplot) pour les variables « Age » et
« Fare »,
a. Détecter les points aberrants
b. Proposer deux méthodes (suppression, valeur moyenne et valeur max
hors valeurs aberrantes)
3. Recalculer les matrices de corrélations empiriques pour les différentes
imputations. Déduire sur la performance des méthode d’imputation.
2. Processus AED
3. Analyse multi-variée
Graphe de coordonnées parallèle
Le tracé de coordonnées
parallèles est un moyen
courant pour visualiser et
analyser des ensembles de
données de grande
dimension.
2. Processus AED
3. Analyse multi-variée
Graphe de coordonnées parallèle
4. Quiz chapitre 4
1. Which of these statements is true about samples and variables?
•A sample is an instance or example of an entity in your data.
•All of these statements are true.
•A sample can have many variables to describe it.
•A variable describes a specific characteristic of an entity in your data.
3. Quiz chapitre 4
3. What is the purpose of exploring data?
•To gain a better understanding of your data.
•To gather your data into one repository.
•To digitize your data.
•To generate labels for your data.
4. What are the two main categories of techniques for exploring data? Choose two.
•Histogram
•Outliers
•Visualization
•Trends
•Correlations
•Summary statistics
3. Quiz chapitre 4
5. Which of the following are NOT examples of summary statistics?
•mean, median, mode
•data sources, data locations
•standard deviation, range, variation
•skewness, kurtosis
6. What are the two measures for measuring shape as mentioned in the lecture? Choose two.
• Kurtosis
• Skewness
• Contingency Table
• Range
• Mode
3. Quiz chapitre 4
7. Which of the following would NOT be a good reason to use a box plot?
•To show and compare distribution values
•To show data distribution shapes such as asymmetry and skewness.
•To show correlations between two variables.
3. Quiz chapitre 4
9. Which is the correct sequence of steps in data analysis and data
visualization of Exploratory Data Analysis?
• Data Exploration -> Data Cleaning -> Present Results -> Model Building
• Data Exploration -> Data Cleaning -> Model Building -> Present Results
• Data Exploration -> Model Building -> Present Results -> Data Cleaning
• Data Exploration -> Model Building -> Data Cleaning -> Present Results
3. Quiz chapitre 4
11. Which of the following is not true about Exploratory Data Analysis?
• Generates a posteriori hypothesis.
• Discovers new knowledge.
• Does not provide insight into the data.
• Deals with unknowns.
12. Exploratory Data Analysis is majorly performed using the following methods:
• Univariate
• Bivariate
• Both A and B
• None of the above
3. Quiz chapitre 4
13. Which of the following is not a component of Exploratory Data Analysis?
• Accounting and Summarizing
• Anomaly Detection
• Statistical Analysis and Clustering
• Hyperparameter tuning
4. Quiz chapitre 4
15. Data transformation enables you to do what with your data?
• Change the structure of the data
• Retrieve the data faster
• Inspect the data for accuracy
• Restore the data after it has been lost
3. Quiz chapitre 4
17. In symmetrical distribution if Q1=4,Q3=12 then median is
• 0
• 8
• 6
• 4
18. The degree to which numerical data tend to spread out about an
average value is called
• Variation
• Flatness
• Constant
• Skewness
3. Quiz chapitre 4
19. When a distribution is symmetrical and has one mode, the
highest point on the curve is called the
• Mean
• Mode
• All of the options
• Median
3. Quiz chapitre 4
7. The first three moments of a distribution about the mean m are 1, 4, and 0.
The distribution is
• Skewed to the right
• Normal
• Skewed to the left
• Symmetrical