Analyse Des Données - Chapitre 3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 27

U n i v e rs i t é A b d e l m a l e k E s s a a d i

Fa c u l t é d e s S c i e n c e s e t Te c h n i q u e s d e Ta n g e r
D é p a r t e m e nt G é n i e I n fo r m a t i q u e

Module :
Mathématiques pour la science des données

Enseigné par : Ikhlass BOUKROUH & Loubna BOUHSAIEN


E n c a d r é p a r : P r. A b d e l l a h A Z M A N I & P r. K h a l i d J E B A R I

LST : Analytique des données


Plan du chapitre 3
Analyse des données multivariées

1. Généralités
2. Régression linéaire multiple
a. Théorique
b. Exercices d’application
c. Pratique

31/10/2023 LST : ANALYTIQUE DES DONNÉES 2


Chapitre 3 : Généralités
Analyse des données multivariées
Objectif

Plan du chapitre 3 : Analyser le lien qui peut exister entre plus de deux variables.
1. Généralités
2. Régression linéaire multiple Problème :
a. Théorique
b. Exercices d’application Analyser simultanément les relations entre plusieurs variables
c. Pratique pour comprendre la structure des données et identifier des
relations complexes entre les variables.
Exemple :
Supposons que l’on a un ensemble de données contenant des
informations sur la qualité de livraison d’une Marketplace, y
compris le nombre de retard, le nombre d’erreurs de livraison en
termes de produits, ainsi que de quantités, le genre du client et
son niveau de revenu. On peut s’intéresser à comprendre
comment ces variables sont liées les unes aux autres.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 3


Chapitre 3 : Généralités
Analyse des données multivariées
Approches

Plan du chapitre 3 : Dans l’analyse multivariée, deux types d’analyse sont fréquentes :
1. Généralités
2. Régression linéaire multiple 1. Approche descriptive
a. Théorique
b. Exercices d’application Cette analyse est réalisée afin de comprendre les différentes
c. Pratique distributions et leurs paramètres (paramètres de tendance
centrale, de dispersion, …).
2. Approche explicative
Cette analyse consiste à expliquer comment une variable
dépendante est influencée par une ou plusieurs variables.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 4


Chapitre 3 : Généralités
Analyse des données multivariées
Analyse en fonction des différents types de variables

Plan du chapitre 3 : Plusieurs variables quantitatives


1. Généralités
1. Régression linéaire multiple
2. Régression linéaire multiple
a. Théorique 2. Analyse de variance multivariée (MANOVA)
b. Exercices d’application
c. Pratique
3. Analyse en composantes principales (ACP)
Plusieurs variables quantitatives et qualitatives
1. Régression linéaire multiple
2. Analyse de covariance (ANCOVA)
3. Régression logistique multiple
Plusieurs variables qualitatives
1. Analyse de correspondance multiple (ACM)
2. Analyse factorielle multiple (AFM)

31/10/2023 LST : ANALYTIQUE DES DONNÉES 5


Chapitre 3 : Généralités
Analyse des données multivariées
Matrices de covariance et de corrélation

Plan du chapitre 3 : La matrice de covariance :


1. Généralités
2. Régression linéaire multiple 𝑣𝑎𝑟(𝑋1 ) 𝑐𝑜𝑣(𝑋1 , 𝑋2 ) … 𝑐𝑜𝑣(𝑋1 , 𝑋𝑝 )
a. Théorique 𝑐𝑜𝑣(𝑋2 , 𝑋1 ) 𝑣𝑎𝑟(𝑋2 ) … 𝑐𝑜𝑣(𝑋2 , 𝑋𝑝 )
𝑐𝑜𝑣 = … …
b. Exercices d’application ⋱ …
c. Pratique 𝑐𝑜𝑣(𝑋𝑝 , 𝑋1 ) … … 𝑣𝑎𝑟(𝑋𝑝 )
La matrice de corrélation :
1 𝑟(𝑋1 , 𝑋2 ) … 𝑟(𝑋1 , 𝑋𝑝 )
𝑐𝑜𝑟𝑟 = 𝑟(𝑋2 , 𝑋1 ) 1 … 𝑟(𝑋2 , 𝑋𝑝 )
… … ⋱ …
𝑟 𝑋𝑝 , 𝑋1 … … 1

31/10/2023 LST : ANALYTIQUE DES DONNÉES 6


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Objectif

Plan du chapitre 3 : L'objectif général de la régression multiple est de tester la relation


1. Généralités qui existe entre plusieurs variables indépendantes 𝑋1 , 𝑋2 , … , 𝑋𝑝
2. Régression linéaire multiple
et une variable dépendante Y.
a. Théorique
b. Exercices d’application Elle se distingue de la régression linéaire simple en ayant plusieurs
c. Pratique
variables explicatives.

Variables
𝑿𝟏 … 𝑿𝒊 … 𝑿𝒑 𝒀
Individus
𝟏 𝑥11 … 𝑥1𝑖 … 𝑥1𝑝 𝒀𝟏
… … … … … … …
𝒋 𝑥𝑗1 … 𝑥𝑗𝑖 … 𝑥𝑗𝑝 𝒀𝒋
… … … … … … …
𝒏 𝑥𝑛1 … 𝑥𝑛𝑖 … 𝑥𝑛𝑝 𝒀𝒏

31/10/2023 LST : ANALYTIQUE DES DONNÉES 7


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Equation – écriture matricielle

Plan du chapitre 3 : L’équation de la droite de régression exprime une relation linéaire entre
1. Généralités 𝑋1 , 𝑋2 , … , 𝑋𝑝 et Y, et on a :
2. Régression linéaire multiple 𝑦𝑗 = 𝛽0 + 𝛽1 𝑥𝑗1 + 𝛽2 𝑥𝑗2 + ⋯ + 𝛽𝑝 𝑥𝑗𝑝
a. Théorique
b. Exercices d’application Avec : 𝛽0 est une constante, 𝛽𝑖 est la pente de la variable 𝑋𝑖
c. Pratique
L’équation de la droite de régression :
𝑌 = 𝑋𝛽
La formule matricielle :

𝑦1 1 𝑥11 … 𝑥1𝑝 𝛽0
𝑦2 1 𝑥21 … 𝑥2𝑝 𝛽1
𝑦3 = 1 𝑥31 … 𝑥3𝑝 𝛽2
… … … … … …
𝑦𝑛 1 𝑥𝑝𝑛 … 𝑥𝑛𝑝 𝛽𝑝
𝑌 𝑋 𝛽

31/10/2023 LST : ANALYTIQUE DES DONNÉES 8


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Estimation des paramètres

Plan du chapitre 3 : La matrice du modèle est :


1. Généralités
2. Régression linéaire multiple
𝑦1 1 𝑥11 … 𝑥1𝑝 𝛽0 𝜀1
a. Théorique 𝑦2 1 𝑥21 … 𝑥2𝑝 𝛽1 𝜀2
b. Exercices d’application 𝑦3 = 1 𝑥31 … 𝑥3𝑝 𝛽2 + 𝜀3
c. Pratique … … … … … … …
𝑦𝑛 1 𝑥𝑝𝑛 … 𝑥𝑛𝑝 𝛽𝑝 𝜀𝑛
𝑌 𝑋 𝛽 𝜀

Avec :
𝜀 est la variation non expliquée

Le but est de trouver 𝛽መ tel que ∑𝜀𝑖2 soit minimale.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 9


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Estimation des paramètres

Plan du chapitre 3 : La solution est donnée par :


1. Généralités
𝛽መ = X ′ X −1 𝑋 ′ 𝑌
2. Régression linéaire multiple
a. Théorique À condition que :
b. Exercices d’application
n > p+1
c. Pratique
X ′ X soit inversible

Avec :
X ′ : transposée de la matrice X.
X −1 ∶ inverse de la matrice X.

En pratique, X ′ X est non inversible si l’une des colonnes est une


combinaison linéaire des autres.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 10


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Coefficient de détermination

Plan du chapitre 3 : Pour voir si un modèle est mauvais ou non, on calcule le


1. Généralités coefficient de détermination, noté 𝑅2 , qui nous permet d’indiquer
2. Régression linéaire multiple le pourcentage de la variabilité de 𝑌 expliquée par 𝑋.
a. Théorique
b. Exercices d’application
c. Pratique
Interprétation :
• 𝑅2 = 0 : le modèle est mauvais.
• 𝑅2 = 1 : le modèle est parfait, la droite de régression passe par
tous les points du nuage.
• 𝑅2 proche de 0 : l’ajustement est mauvais, X n’explique pas Y.
• 𝑅2 proche de 1 : l’ajustement est meilleur, la connaissance des
valeurs de X permet de deviner celles de Y.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 11


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Test d’hypothèse

Plan du chapitre 3 : L’équation de la droite de la régression :


1. Généralités
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝
2. Régression linéaire multiple
a. Théorique On va tester la nullité des paramètres 𝛽𝑖 .
b. Exercices d’application
c. Pratique Il existe deux tests pour vérifier si les variables 𝑋𝑖 expliquent 𝑌.
1. Test de Student : pour faire ce test, il est nécessaire que les 𝜀𝑖
suivent la loi normale.
On vérifie, variable par variable, l’explicabilité de 𝒀 par 𝑿𝒊 .
2. Test de Fisher : pour faire ce test, il faut vérifier les trois
conditions d’ANOVA.
On vérifie, toutes les variables à la fois, pour voir si elles
expliquent 𝒀.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 12


Chapitre 3 : Régression linéaire multiple
Analyse des données multivariées
Test de Student

Plan du chapitre 3 : Étape 1 : formulation des hypothèses


1. Généralités
2. Régression linéaire multiple 𝐻0 ∶ 𝛽𝑖 = 0 vs 𝐻1 ∶ 𝛽𝑖 ≠ 0
a. Théorique
Étape 2 : calcul de statistique
b. Exercices d’application
c. Pratique
𝛽መ𝑖 − 𝛽𝑖
𝑡𝑐𝑎𝑙𝑐𝑢𝑙é𝑒 =
𝜎ො𝛽𝑖
Étape 3 : prise de décision
Le seuil critique se lit dans la table de la loi de Student de façon à
ce que la ligne représente la valeur de 𝛼 et en la colonne
représente le degré de liberté k=n-p-1
Si 𝑡𝑐𝑎𝑙𝑐𝑢𝑙é𝑒 > 𝑡1−𝛼,𝑛−𝑝−1 , alors on rejette 𝐻0
Ceci dit 𝛽𝑖 ≠ 0, ou encore, que la variable 𝑋𝑖 explique 𝑌.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 13


Exemple d’application
Une entreprise de commerce électronique souhaite analyser l'efficacité de ses campagnes de
marketing en ligne. Ils ont collecté des données sur 1429 produits qu'ils ont vendus au cours de
l'année dernière. Pour chaque produit, ils ont enregistré le montant dépensé en publicité en
ligne (X) ainsi que le nombre de ventes réalisées (Y) grâce à ces campagnes publicitaires.
Après avoir analysé les données, l'entreprise a calculé les valeurs suivantes :
• 𝑋, ത 𝑌ത = 47,3 ; 21,2
• ∑𝑛𝑖=1 𝑋𝑖 − 𝑋ത 2 = 102924
• ∑𝑛𝑖=1 𝑌𝑖 − 𝑌ത 2 = 8857
• ∑𝑛𝑖=1 𝑋𝑖 − 𝑋ത 𝑌𝑖 − 𝑌ത = 26466
1. Déterminer la population, l’échantillon, l’individu, les variables étudiées et leurs natures.
2. Calculer les variances de X et Y.
3. Calculer la covariance de X et Y.
4. Calculer le coefficient de corrélation. Interpréter.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 14


Exemple d’application
L'entreprise a également développé un modèle de régression linéaire pour prédire les ventes en
fonction des dépenses publicitaires, avec l'équation :
𝑌෠ = 9,043(50,3617) + 0,257(68,7801) 𝑋
Où, pour chaque coefficient, le nombre entre parenthèses représente la valeur absolue de la statistique
de test correspondant à l’hypothèse nulle du test statistique.
5. Quel test statistique devrait être utilisé pour étudier la nullité des 𝛽𝑖 ?
a. Quelles sont les hypothèses nulles et alternatives de ce test ?
b. Quelles sont les statistiques de ces tests sous l’hypothèse nulle ?
c. Quelle est la règle de décision de ce test ?
d. Quelles conclusions pouvez-vous tirer étant donné que la valeur critique du test est égale à 2 ?

31/10/2023 LST : ANALYTIQUE DES DONNÉES 15


Exemple d’application
Une entreprise de vente au détail souhaite comprendre les facteurs qui influencent les ventes de l'un
de ses produits phares. Ils ont collecté des données sur 1429 transactions de ce produit au cours de la
dernière année. Les variables d'intérêt sont les suivantes :
◦ La variable dépendante (Y) : Les ventes mensuelles totales du produit.
◦ Variable indépendante 1 (X1) : Le prix de vente du produit.
◦ Variable indépendante 2 (X2) : Le budget mensuel consacré à la publicité pour ce produit.
◦ Variable indépendante 3 (X3) : Le nombre de concurrents offrant un produit similaire sur le marché.
◦ Variable indépendante 4 (X4) : La satisfaction client moyenne, mesurée par des enquêtes de satisfaction.
𝑌෠ = 6,683(2,67) + 0,44(2,32) 𝑋1 + 0,425(2,47) 𝑋2 + 0,171(2,09) 𝑋3 + 0,009(2,24) 𝑋4
Où, pour chaque coefficient, le nombre entre parenthèses représente la valeur absolue de la statistique de
test correspondant à l’hypothèse nulle du test statistique.
1. Quel test statistique devrait être utilisé pour étudier la nullité des 𝛽𝑖 ?
a. Quelles sont les hypothèses nulles et alternatives de ces tests ?
b. Quelles sont les statistiques de ces tests sous l’hypothèse nulle ?
c. Quelle est la règle de décision de ce test ?
d. Quelles conclusions pouvez-vous tirer étant donné que la valeur critique du test est égale à 2,11 ?

31/10/2023 LST : ANALYTIQUE DES DONNÉES 16


Chapitre 3 : Généralités
Analyse des données multivariées
Outils

Plan du chapitre 3 :  Outils de manipulation de données et de prétraitement


1. Généralités
2. Régression linéaire multiple
Logiciel R, Python et Excel
a. Théorique  Outils de visualisation de données
b. Exercices d’application
c. Pratique Tableau, Power BI, Logiciel R, Python et Excel
 Outils d'analyse statistique
IBM SPSS, SAS, Logiciel R, Python et Excel
 Outils de Machine Learning (apprentissage automatique)
Python (Scikit-learn, TensorFlow) et R
 Outils de big data
Haddop, Apache Spark, Python et R

31/10/2023 LST : ANALYTIQUE DES DONNÉES 17


Chapitre 3 : Généralités
Analyse des données multivariées
Logiciel R

Plan du chapitre 3 : R est un langage de programmation de haut niveau et une


1. Généralités plateforme d'analyse statistique. Il offre un large éventail de
2. Régression linéaire multiple fonctionnalités pour la manipulation de données, la visualisation,
a. Théorique
la modélisation statistique et la création de graphiques. R est
b. Exercices d’application
c. Pratique
extensible, ce qui signifie que les utilisateurs peuvent créer leurs
propres packages ou extensions pour répondre à des besoins
spécifiques. Il est également fortement orienté vers la statistique
et la science des données.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 18


Chapitre 3 : Généralités
Analyse des données multivariées
Logiciel R

Plan du chapitre 3 : Avantages :


1. Généralités
2. Régression linéaire multiple  R est un logiciel libre (open source).
a. Théorique
b. Exercices d’application  Il fonctionne sous UNIX (et Linux), Windows et Macintosh.
c. Pratique
 R est évolutif et en augmentation constante.
 Beaucoup de développements en R (librairies spécialisées).
 R contenant une très large collection de méthodes statistiques
même les plus récentes.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 19


Chapitre 3 : Généralités
Analyse des données multivariées
Logiciel R

Plan du chapitre 3 : Comparaison avec les autres outils


1. Généralités
2. Régression linéaire multiple  R est un langage de programmation statistique qui excelle dans
a. Théorique l'analyse statistique des données. Il dispose de nombreuses
b. Exercices d’application bibliothèques dédiées à l'analyse statistique.
c. Pratique
 R est particulièrement connu pour ses capacités de
visualisation de données grâce à certains packages.
 R propose également des packages pour le Machine Learning.
 R peut également être utilisé pour le traitement de données
volumineuses avec certains packages.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 20


Chapitre 3 : Généralités
Analyse des données multivariées
Téléchargement du logiciel

Plan du chapitre 3 : Lien pour télécharger le logiciel R


1. Généralités
2. Régression linéaire multiple https://cran.r-project.org/bin/windows/base/
a. Théorique
b. Exercices d’application
1
c. Pratique

31/10/2023 LST : ANALYTIQUE DES DONNÉES 21


Chapitre 3 : Généralités
Analyse des données multivariées
Console R

Plan du chapitre 3 :
1. Généralités
2. Régression linéaire multiple
a. Théorique
b. Exercices d’application
c. Pratique

31/10/2023 LST : ANALYTIQUE DES DONNÉES 22


Installation des packages
1

2
Il faut sélectionner 5
tous ces packages
(Ctrl + clique)

4
6

31/10/2023 LST : ANALYTIQUE DES DONNÉES 23


Installation des packages
Veuillez patienter un instant jusqu’à ce que
l’installation des packages soit terminée.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 24


Chargement de Rcmdr
1
2 3 Choisissez le
package Rcmdr

31/10/2023 LST : ANALYTIQUE DES DONNÉES 25


Chargement de Rcmdr

Une fenêtre va
s’afficher
(R Commander)

31/10/2023 LST : ANALYTIQUE DES DONNÉES 26


Vérification de l’installation des packages
1. Fermer le logiciel R.
2. Ouvrir le logiciel R.
3. Taper library("Rcmdr") en R Console.
4. La fenêtre de R Commander va s’afficher.

31/10/2023 LST : ANALYTIQUE DES DONNÉES 27

Vous aimerez peut-être aussi