Analyse de Donnã©es

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 39

A NALYSE DES DONNÉES

B. El Asri

ENSA, Agadir

1ère année Finance et ingénierie décisionnelle ;

2021-2022.

1/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 1 / 39
P LAN

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

2/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 2 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

3/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 3 / 39
M ÉTHODES .

L’ ANALYSE DE DONNÉES REGROUPE DEUX FAMILLES DE MÉTHODES .

1 Représenter de grands ensembles de données par peu de


variables.
Analyse en composantes principales
Analyse factorielle des correspondances

2 Classer les données de manière automatique


Analyse discriminante
Classification
Régression logistique

4/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 4 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

5/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 5 / 39
A NALYSE EN COMPOSANTES PRINCIPALES
DÉFINITION
Le phénomène étudier apparait sous forme de données numériques,
on regroupe ces données dans un tableau et interpréter le tableau
comme une matrice:
 
x11 x12 . . . x1q
x21 x22 . . . x1q 
 
X = . . . .  .
 . . . . 
xp1 xp2 . . . xpq

▶ Decomposer X en p lignes Li (i = 1, . . . , p)et q colonnes


Cj (j = 1, . . . , q).
▶ X = (C1 , C2 , . . . , Cq ) .
▶ X ′ = (L′1 , L′2 , . . . L′p ).
6/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 6 / 39
R EMARQUE

R EMARQUE
L’analyse en composantes principales consiste: en

étude des projections des points du nuage sur un axe, un plan, ou


un hyperplan judicieusement déterminé.

Mathèmatiquement, l’analyse en composantes principales serait


le meilleur ajustement du nuage par un sous espace vectoriel en
Rq

7/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 7 / 39
A JUSTEMENT DU NUAGE

1 Coordonnées d’un point en Rq .

2 Ajustement du nuage par un axe suivant la méthode des moindres


carrées.

3 Ajustement du nuage par un plan suivant la méthode des


moindres carrées.

4 Recherche des axes

8/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 8 / 39
A NALYSE EN COMPOSANTES PRINCIPALES NORMÉES

1 Centrer et normer les variables Cj .

2 Déterminer la matrice V des variances-covariances(avec V = Γ


matrice des correlations des q variables Cj ).

3 Extraire les valeurs propres les plus grands λ1 , λ2 , . . . , de la


matrice Γ des correlations.

4 Déterminer les vecteurs propres F1 , F2 , . . . , Fq associé aux


valeurs propres λ1 , . . . , λq

9/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 9 / 39
C ONTRIBUTIONS DES AXES

1 La contribution relative de l’axe ∆k est


λk
.
λ1 + λ2 + . . . + λq

2 La contribution relative du plan engendré par les deux premiers


axes est
λ1 + λ2
λ1 + λ2 + . . . + λq

3 On se contente souvent de faire des représentations du nuage


des individus dans un sous-espace engendré par les d premiers
axes si ce sous-espace explique un pourcentage d’inertie proche
de 1.
10/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 10 / 39
I NTERPRÉTATION DES PROJECTIONS

1 Repréesentation des individus dans les nouveaux axes.


Les coordonnées de l’individu Li sur les axes est Yi = A′ Li avec
A′ = A−1
Une proximité entre les projections de deux points s’interprete
comme un comportement analogue.
2 Représentation des variables.
On note Z1 , . . . , Zq les composantes principales
[Z1 , . . . , Zq ] = Z = XA
Les corrélations√des anciennes variables avec les nouvelles est
λ a
cor(Zk , Cj ) = q k kj .
Var(Cj )
Les représentations des variables de départ sont des points qui se
trouvent à l intérieur d’un cercle de corrélation de rayon 1

11/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 11 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

12/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 12 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES

1 L’AFC a pour objet le traitement de l’information contenue dans un


tableau appelé de contingence ou de dépendance, relatif à deux
ensembles de nature quelconque, en relation par moyen d’un
processus naturel ou expérimental plus ou moins bien connu.

2 Les données sont ici pondérées. Les fréquences de répétitions


s’interprète facilement en termes de probabilités.

13/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 13 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES

C ONSIDÉRONS UN TABLEAU À DOUBLE ENTRÉE .

1 ... j ... m
1 x11 ... x1j ... x1m
i xi1 ... xij ... xim
n xn1 ... xnj ... xnm

Ensemble J (paramèttres), Ensemble I(individus)

14/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 14 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES

1 Dans le cas qualitatif, le tableau précédent se présente sous la


forme d’un tableau des uns et des zéros (suivant si l’individu i
posséde ou non le paramètre j).

2 La probabilité associée au terme xij est:


xij
pij = Pn Pm
i=1 j=1 xij

15/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 15 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 ... j ... m Total
1 p11 ... p1j ... p1m p1.
i pi1 ... pij ... pim pi.
n pn1 ... pnj ... pnm pn.
Total p.1 p.j p.m 1

Où les probabilités marginales sont:


m
X
pi. = pij , avec i = 1, . . . , n
j=1
n
X
p.j = pij , avec j = 1, . . . , m.
i=1
Vérifient les propriétés:
n
X m
X
pi. = 1 et p.j = 1
i=1 j=1 16/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 16 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
C’ EST QUOI « LES CORRESPONDANCES »?

Lorsque les variables sont quantitatives, on fait une étude de


corrélation.
Mais, lorsqu’on a aussi des variables qualitatives, on doit faire une
étude des correspondances.
I NDÉPENDANCE
Probabilités conditionnelles, dans ce cas:
pij pij
= p.j ⇐⇒ = pi.
pi. p.j

Formule d’indépendance:

pij = pi. p.j

17/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 17 / 39
D ISTANCE DU χ2

Pour deux individus quelconques i et i:


m
X 1 pij pi ′ j 2
d 2 (Li , Li ′ ) = ( − )
p.j pi. pi ′ .
j

P OURQUOI UNE TELLE DISTANCE ?


La distance euclidienne ne prend pas compte complètement de
tous les caractéres étudiés!
Il a été alors proposé de modifier la distance euclidienne en
tenant compte des écarts entre deux probabilités de deux
individus d’avoir un caractére en donnant de l’importance aux
probabilités que l’individu ait tous les caractères étudiés.

18/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 18 / 39
D ISTANCE DU χ2

Cette distance s’écrit sous forme matricielle:

d 2 (Li , Li ′ ) = (αij − αi ′ j )′ D(αij − αi ′ j )


pij 1
avec αij = pi. et D matrice diagonale Djj = p.j

α
Si βij = √ ij , alors
p.j

d 2 (Li , Li ′ ) = (βij − βi ′ j )′ (βij − βi ′ j )

19/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 19 / 39
M ATRICE DES VARIANCES - COVARIANCES R:
Matrice des variances-covariances W :
 
w11 w12 . . . w1m
w21 w22 . . . w1m 
 
W =  . . . . .

 . . . . 
wn1 wn2 . . . wnm

▶ La variance wjj caractérise la dispersion du nuage tout au long de


l’axe j:
X n
pi. (βij − p.j )2 .
p
wjj =
i
▶ La covariance wjk est
n
X p √
wjk = pi. (βij − p.j )(βik − p.k ).
i
20/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 20 / 39
M ATRICE DES VARIANCES - COVARIANCES

▶ Soit encore, en remplacant βij par sa valeur:

n
X pij − pi. p.j ′ pik − pi. p.k
wjk = ( √ )( √ ).
pi. p.j pi. p.k
i

▶ Posons
pij − pi. p.j
rij = ( √ )
pi. p.j
Alors
W = R′R avec rij = R.
▶ Maximiser u ′ Wu revient à maximiser u ′ R ′ Ru avec u ′ u = 1 après
on utilise la même méthode que l’ACP.

21/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 21 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

22/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 22 / 39
I NTRODUCTION

▶ Objectif : Obtenir une représentation schématique simple d’un


tableau de données complexe à partir d’une typologie
(segmentation), partition des n individus dans des classes,
définies par l’observations de p variables.
▶ Méthode : Classifier, c’est regrouper des objets similaires selon
certains critères. Les diverses techniques de classification visent
toutes à répartir n individus, caractérisés par p variables en un
certain nombre m de sous-groupes aussi homogénes que
possible.
▶ Deux grandes techniques de classification :
le partitionnement et a classification hiérarchique.

23/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 23 / 39
PRÉSENTATION DE L’ ALGORITHME

1 Initialisation de l’algorithme.
Les classes initiales = n singletons individus.
Calcul de la matrice des distances des individus 2 à 2.

2 Itération des étapes suivantes.


Regrouper les 2 éléments (individus ou groupes) les plus proches
au sens d’un critère chosi.
Mise à jour du tableau des distances en remplacant les deux
éléments regroupés par le nouveau et en recalculant sa distance
avec les autres classes.

3 Fin de l’itération : agrégation de tous les individus en une seule


classe.

24/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 24 / 39
INDICE DE DISSIMILARITÉ ENTRE LES INDIVIDUS

1 La distance entre individus dépend des données étudiées et des


objectifs..
pP
2
Distance Euclidienne : d(x, y ) = i (xi − yi ) .
Distance Euclidienne au carré : Permet de "sur-pondérer" les
2
P
objets atypiques (éloignés), d(x, y ) = i (xi − yP i ) .
Distance du City-block (Manhattan): d(x, y ) = i |xi − yi |.

2 Choix de l’indice d’agrégation.


On regroupe les éléments en minimisant l’indice d’agrégation.
stratégie du saut minimum ∆(A, B) = mini∈A,j∈B d(i, j).
Méthode de ward: A chaque itération, on agrége de manière à avoir
une gain minimum d’inertie intra-classe

25/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 25 / 39
PARTITIONNEMENTS
1 On choisit aléatoirement k individus comme centres initiaux des
classes.

2 On attribue chaque objet à la classe la plus proche, ce qui définit k


classes.

3 Connaissant les membres de chaque classe on recalcule les


centres d’inertie de chaque classe.

4 On redistribue les objets dans la classe qui leur est la plus proche
en tenant des nouveaux centre de classe calculés à l’étape
précédente.

5 On retourne à l’étape 3 jusqu’à ce qu’il y ai convergence,


c’est-à-dire jusqu’à ce qu’il n’y ai plus aucun individu à changer de
classe.
26/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 26 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

27/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 27 / 39
I NTRODUCTION

▶ On se place dans le cadre de la modélisation d’une variable Y


qualitative à K modalités à partir de p variables explicatives
X1 , . . . , Xp quantitatives.
▶ On se place donc dans un cadre dit supervisé, où chaque
modalité de Y représente une classe (un groupe) d’individus que
l’on cherche à discriminer.
▶ Il s’agit de chercher quelles sont les combinaisons linéaires des
variables quantitatives qui permettent de séparer le mieux
possible les K modalités.

28/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 28 / 39
L ES DONNÉES

1 Centre de gravité
Pn
Centre de gravité global est :g = n1 i=1 xi
Pn
Centre de gravité du groupe Gk est: gk = n1k i∈Gk xi

2 Matrice de variance-covariance.
MatricePde variance-covariance globale est:
n
V = n1 i=1 (xi − g)(xi − g)′ .
Matrice de
Pnvariance-covariance du groupe Gk est
Vk = n1k i∈Gk (xi − gk )(xi − gk )′ .
PK nk
Matrice de variance-covariance intra-groupe est: W = k =1 n Vk
Matrice de variance-covariance inter-groupe est:
PK
B = k =1 nnk (gk − g)(gk − g)′ .

PK nk
3 Relations fondamentales: g = k =1 n gk et V = W + B

29/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 29 / 39
C ENTRAGE DES DONNÉES
1 En AFD comme en analyse en composantes principales (ACP),
on suppose que g = 0p , c’est à dire que les données sont
centrées.

2 En particulier, l’écriture des matrices de variance-covariance


globale et inter-groupe est simplifiée :
n
1X
V = xi xi′
n
i=1
K
X nk
B= gk gk′
n
k =1

Alors
1 ′
V = XX
n
30/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 30 / 39
A XES , FACTEURS ET VARIABLES DISCRIMINANTES

O BJECTIF
Trouver une nouvelle variable, combinaison linéaire des variables
explicatives, qui "discrimine" au mieux les groupes définis par les
modalités de la variable à expliquer. Cette variable notée s est définie
ici comme un vecteur de Rn , s = Xu où u ∈ Rp

Comment mesurer que s "discrimine" bien.

Comment trouver u pour que s = Xu "discrimine" au mieux.

31/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 31 / 39
C RITÈRE À OPTIMISER
1 Variances
Pn
Variance de s est définie par :V = n1 i=1 (si − s)2 = u ′ Vu.
Variance intra-groupe de s est définie par :
PK
Intra(s) = k =1 nnk i∈Gk n1k (si − sk )2 = u ′ Wu.
P
Variance inter-groupe de s est définie par :
PK
Inter(s) = k =1 nnk (s − sk )2 = u ′ Bu.

2 Discrimination des groupes.


Les centres de gravité projetés sont bien éloignés i.e.
Inter(s) = u ′ Bu. est maximum.
Les groupes projetés ne sont pas trop dispersés i.e.
Intra(s) = u ′ Wu. est minimum.

Le critère à maximiser, uu ′Bu
Vu ∈ [0, 1].
u ′ Bu
Le rapport u ′ Vu est maximal pour u1 vecteur propre de V −1 B
associé à la plus grande valeur propre notée λ1 , la valeur du
maximum étant λ1 .
32/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 32 / 39
R EMARQUES
R EMARQUES
Le premier facteur discriminant est u1 , le premier vecteur propre
de V −1 B.

La première variable discriminante est s1 = Xu1 .

u ′ Bu
Le pouvoir discriminant est λ1 = u ′ Vu .

Cas où λ1 = 1. Il y a alors évidemment discrimination parfaite.

Cas où λ1 = 0 : ici le meilleur axe discriminant ne permet pas de


séparer les K centres de gravité gk .

Il est possible de discriminer parfaitement les groupes, avec


λ1 < 1. On dit que λ est un mesure pessimiste du pouvoir 33/ 39
discriminant.
B. El Asri (ENSA) Analyse des données. 2021-2022 33 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

34/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 34 / 39
N OTATIONS

▶ L’objectif est de prédire les valeurs prises par la variable aléatoire


Y définie dans {y1 , y2 , . . . yk }. Pour la rǵression logistique binaire,
Y prend uniquement deux modalités {+, −} (ou {1, 0} pour
simplifier).
▶ Dans le cadre binaire, pour un individu donné, sa probabilité a
priori d’être positif sécrit P[Y (w) = +] = p(w).
▶ La probabilité a posteriori d’un individu d’être positif c-à-d.
sachant les valeurs prises par les descripteurs est notée
P[Y (w) = + | X (w)] = π(w). Lorsqu’il ne peut y avoir de
confusions, nous écrirons π. Ce dernier terme est très important.
En effet, c’est la probabilité que l’on cherche à modéliser en
apprentissage supervisé.

35/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 35 / 39
F ONDEMENTS PROBABILISTES

1 Estimer la probabilité conditionnelle P(Y /X ):


P(Y =yk )P(X |Y =yk )
P(Y = yk | X ) = P(X )
P(Y =yk )P(X |Y =yk )
= PK
i=1 P(Y =yi )P(X |Y =yi )

2 La règle d’affectation dans le cas à 2 classes devient:

P(Y = + | X ) P(Y = +) P(X | Y = +)


=
P(Y = − | X ) P(Y = −) P(X | Y = −)

Si (ce rapport > 1) Alors Y = +.

36/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 36 / 39
H YPOTHÈSE FONDAMENTALE DE LA RÉGRESSION
LOGISTIQUE

1 LOGIT d’un individu:


π(w)
ln[ ] = a0 + a1 X1 + . . . + aJ XJ ,
1 − π(w)

a0 , . . . , aJ sont les paramètres que l’on souhaite estimer à partir


des données.

2 La fonction de répartition de la loi Logistique

exp(a0 + a1 X1 + . . . + aJ XJ )
π(X ) =
1 + exp(a0 + a1 X1 + . . . + aJ XJ )
.

37/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 37 / 39
E STIMATION DES PARAMÈTRES PAR LA MAXIMISATION
DE LA VRAISEMBLANCE
1 Y est une variable binaire, on modélise la probabilité à l’aide de la
loi binomiale B(1, π), avec
P(Y (w) | X (w)) = π(w)y (w) (1 − π(w))1−y (w) .
2 La vraisemblance (en anglais likelihood) d’un échantillon Ω s’écrit
Y
L= π(w)y (w) (1 − π(w))1−y (w) .
w
3 Pour faciliter les manipulations, on préfère souvent travailler sur la
log-vraisemblance (log-likelihood)
X
LL = y (w) ln(π(w)) + (1 − y (w)) ln(1 − π(w))
w
4 Le logarithme étant une fonction monotone, le vecteur a qui
maximise la vraisemblance est le même que celui qui maximise la
log-vraisemblance. Bien souvent, on utilise la quantité
DM = −2LL Déviance 38/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 38 / 39
O UTLINE

1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement

5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES

39/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 39 / 39

Vous aimerez peut-être aussi