Analyse de Donnã©es
Analyse de Donnã©es
Analyse de Donnã©es
B. El Asri
ENSA, Agadir
2021-2022.
1/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 1 / 39
P LAN
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
2/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 2 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
3/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 3 / 39
M ÉTHODES .
4/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 4 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
5/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 5 / 39
A NALYSE EN COMPOSANTES PRINCIPALES
DÉFINITION
Le phénomène étudier apparait sous forme de données numériques,
on regroupe ces données dans un tableau et interpréter le tableau
comme une matrice:
x11 x12 . . . x1q
x21 x22 . . . x1q
X = . . . . .
. . . .
xp1 xp2 . . . xpq
R EMARQUE
L’analyse en composantes principales consiste: en
7/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 7 / 39
A JUSTEMENT DU NUAGE
8/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 8 / 39
A NALYSE EN COMPOSANTES PRINCIPALES NORMÉES
9/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 9 / 39
C ONTRIBUTIONS DES AXES
11/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 11 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
12/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 12 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
13/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 13 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 ... j ... m
1 x11 ... x1j ... x1m
i xi1 ... xij ... xim
n xn1 ... xnj ... xnm
14/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 14 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
15/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 15 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 ... j ... m Total
1 p11 ... p1j ... p1m p1.
i pi1 ... pij ... pim pi.
n pn1 ... pnj ... pnm pn.
Total p.1 p.j p.m 1
Formule d’indépendance:
17/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 17 / 39
D ISTANCE DU χ2
18/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 18 / 39
D ISTANCE DU χ2
α
Si βij = √ ij , alors
p.j
19/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 19 / 39
M ATRICE DES VARIANCES - COVARIANCES R:
Matrice des variances-covariances W :
w11 w12 . . . w1m
w21 w22 . . . w1m
W = . . . . .
. . . .
wn1 wn2 . . . wnm
n
X pij − pi. p.j ′ pik − pi. p.k
wjk = ( √ )( √ ).
pi. p.j pi. p.k
i
▶ Posons
pij − pi. p.j
rij = ( √ )
pi. p.j
Alors
W = R′R avec rij = R.
▶ Maximiser u ′ Wu revient à maximiser u ′ R ′ Ru avec u ′ u = 1 après
on utilise la même méthode que l’ACP.
21/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 21 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
22/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 22 / 39
I NTRODUCTION
23/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 23 / 39
PRÉSENTATION DE L’ ALGORITHME
1 Initialisation de l’algorithme.
Les classes initiales = n singletons individus.
Calcul de la matrice des distances des individus 2 à 2.
24/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 24 / 39
INDICE DE DISSIMILARITÉ ENTRE LES INDIVIDUS
25/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 25 / 39
PARTITIONNEMENTS
1 On choisit aléatoirement k individus comme centres initiaux des
classes.
4 On redistribue les objets dans la classe qui leur est la plus proche
en tenant des nouveaux centre de classe calculés à l’étape
précédente.
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
27/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 27 / 39
I NTRODUCTION
28/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 28 / 39
L ES DONNÉES
1 Centre de gravité
Pn
Centre de gravité global est :g = n1 i=1 xi
Pn
Centre de gravité du groupe Gk est: gk = n1k i∈Gk xi
2 Matrice de variance-covariance.
MatricePde variance-covariance globale est:
n
V = n1 i=1 (xi − g)(xi − g)′ .
Matrice de
Pnvariance-covariance du groupe Gk est
Vk = n1k i∈Gk (xi − gk )(xi − gk )′ .
PK nk
Matrice de variance-covariance intra-groupe est: W = k =1 n Vk
Matrice de variance-covariance inter-groupe est:
PK
B = k =1 nnk (gk − g)(gk − g)′ .
PK nk
3 Relations fondamentales: g = k =1 n gk et V = W + B
29/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 29 / 39
C ENTRAGE DES DONNÉES
1 En AFD comme en analyse en composantes principales (ACP),
on suppose que g = 0p , c’est à dire que les données sont
centrées.
Alors
1 ′
V = XX
n
30/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 30 / 39
A XES , FACTEURS ET VARIABLES DISCRIMINANTES
O BJECTIF
Trouver une nouvelle variable, combinaison linéaire des variables
explicatives, qui "discrimine" au mieux les groupes définis par les
modalités de la variable à expliquer. Cette variable notée s est définie
ici comme un vecteur de Rn , s = Xu où u ∈ Rp
31/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 31 / 39
C RITÈRE À OPTIMISER
1 Variances
Pn
Variance de s est définie par :V = n1 i=1 (si − s)2 = u ′ Vu.
Variance intra-groupe de s est définie par :
PK
Intra(s) = k =1 nnk i∈Gk n1k (si − sk )2 = u ′ Wu.
P
Variance inter-groupe de s est définie par :
PK
Inter(s) = k =1 nnk (s − sk )2 = u ′ Bu.
u ′ Bu
Le pouvoir discriminant est λ1 = u ′ Vu .
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
34/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 34 / 39
N OTATIONS
35/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 35 / 39
F ONDEMENTS PROBABILISTES
36/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 36 / 39
H YPOTHÈSE FONDAMENTALE DE LA RÉGRESSION
LOGISTIQUE
exp(a0 + a1 X1 + . . . + aJ XJ )
π(X ) =
1 + exp(a0 + a1 X1 + . . . + aJ XJ )
.
37/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 37 / 39
E STIMATION DES PARAMÈTRES PAR LA MAXIMISATION
DE LA VRAISEMBLANCE
1 Y est une variable binaire, on modélise la probabilité à l’aide de la
loi binomiale B(1, π), avec
P(Y (w) | X (w)) = π(w)y (w) (1 − π(w))1−y (w) .
2 La vraisemblance (en anglais likelihood) d’un échantillon Ω s’écrit
Y
L= π(w)y (w) (1 − π(w))1−y (w) .
w
3 Pour faciliter les manipulations, on préfère souvent travailler sur la
log-vraisemblance (log-likelihood)
X
LL = y (w) ln(π(w)) + (1 − y (w)) ln(1 − π(w))
w
4 Le logarithme étant une fonction monotone, le vecteur a qui
maximise la vraisemblance est le même que celui qui maximise la
log-vraisemblance. Bien souvent, on utilise la quantité
DM = −2LL Déviance 38/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 38 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
39/ 39
B. El Asri (ENSA) Analyse des données. 2021-2022 39 / 39