Support de Cours D'analyse Des Données - CH1 Complet

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 15

Support de cours de Analyse Des Données

Année académique 2021 – 2022

MASTER 1 INFORMATIQUE

ANALYSE DES DONNEES

Support de cours

✓ Un cours pédagogique

✓ Des exemples pour comprendre

✓ Des exercices pratiques pour s’entraîner

Enseignant : M. KELASSA KODJO

1
Support de cours de Analyse Des Données

Avertissement

Ce document est conçu comme support de cours. Il ne possède ni la complétude ni


l'exhaustivité d'un livre, voire d’un polycopié, qu'il ne saurait remplacer.

Merci de contribuer à l’amélioration de ce document en :

➢ nous envoyant vos suggestions et critiques à notre adresse E-mail

➢ ou en déposant vos suggestions et critiques à l’administration de


l’établissement.

2
Support de cours de Analyse Des Données

SOMMAIRE
CH 1 : INTRODUCTION A L’ANALYSE DES DONNEES
I- Généralités
II- Les données et leurs caractéristiques
III- Tableaux d’analyse associés
IV- Exercices – Application : le logiciel R

CH 2 : ANALYSE EN COMPOSANTES PRINCIPALES - ACP


I. Définition
II. Ajustement du nuage de points
2.1. Coordonnées d’un point en IRq
2.2. Ajustement du nuage par un axe suivant la méthode des Moindres Carrés
a) Graphiquement
b) La méthode du Multiplicateur de Lagrange
2.3. Ajustement du nuage par un plan selon la méthode des Moindres Carrés
2.4. Ajustement par un sous-espace vectoriel selon la méthode des Moindres
Carrés
III. Analyse en Composantes Principales Normées
IV. Exercices – Applications

CH 3 : ANALYSE FACTORIELLE DES CORRESPONDANCES - AFC


I. Détermination des axes factoriels
II. Interprétation des axes
III. Notion de proximité
3.1. Distance de deux points de IRq
3.2. Distance des projections sur un axe de deux points en IRq
3.3. Etude des projections sur un axe de p points en IRq
IV. Exercices – Applications

3
Support de cours de Analyse Des Données

CH 1 : INTRODUCTION A L’ANALYSE DES DONNEES

I- Généralités

1.1 Statistique-Analyse des données


Les statistiques peuvent être vues en fonction de l'objectif fixé ; classiquement les
méthodes statistiques sont employées soit pour explorer les données (nommée statistique
exploratoire) soit pour prédire un comportement (nommée statistique prédictive ou
décisionnelle ou encore inférentielle). La statistique exploratoire s'appuie sur des
techniques descriptives et graphiques. Elle est généralement décrite par la statistique
descriptive qui regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle
(moyenne, moments, quantiles, variance, corrélation, ...) et la statistique exploratoire
multidimensionnelle. L'analyse de données s'inscrit dans ce cadre de la statistique
exploratoire multidimensionnelle.
Les méthodes d'analyse de données ont commencées à être développées dans les années 50
poussées par le développement de l'informatique et du stockage des données qui depuis n'a
cessé de croître. L'analyse de données a surtout été développée en France par J.P. Benzécri
[Ben80a], [Ben80b] qui a su par l'analyse des correspondances représenter les données de
manière simple et interprétable.

L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données
et faire face à des considérations de traitements en temps réel en dépit de la quantité de
données toujours plus importante. Les méthodes développées (et l'analyse de données) sont
maintenant souvent intégrées avec des méthodes issues de l'informatique et de l'intelligence
artificielle (apprentissage numérique et symbolique) dans le data mining traduit en français
par ‘‘fouille de données’’ ou encore extraction de connaissance à partir de données.

1.2 Types de données


Nous considérons tout d'abord que la population1 peut être décrite par des données de deux
types de caractères : qualitatif ou quantitatif. Les caractères qualitatifs peuvent être purs

4
Support de cours de Analyse Des Données

(variables nominales) i.e. que les modalités ne possèdent pas de structure d'ordre ou
ordonnés (variables ordinales) i.e. que les modalités qualitatives sont ordonnées. Il est aisé
de comprendre que les données à caractère qualitatif doivent être adaptées pour les
méthodes numériques.
Les méthodes d'analyse de données supposent souvent une organisation des données
particulière, naturelle, mais parfois difficile à réaliser selon l'application et les données. Le
choix d'un tableau permet une organisation dans le plan de toutes les données et ainsi de
traiter simultanément toute l'information. Ainsi la plupart des méthodes nécessitent une
organisation des données présentée sous forme de tableau. En général, ce tableau est
quelque peu modifié, mais l'idée de tableau reste présente dans toutes les méthodes
d'analyse de données.

1.3 Etendue des données


Aujourd'hui les méthodes d'analyse de données sont employées dans un grand nombre de
domaines qu'il est impossible d'énumérer. Actuellement ces méthodes sont beaucoup
utilisées en marketing par exemple pour la gestion de la clientèle (pour proposer de
nouvelles offres ciblées par exemple). Elles permettent également l'analyse d'enquêtes par
exemple par l'interprétation de sondages (où de nombreuses données qualitatives doivent
être prises en compte). Nous pouvons également citer la recherche documentaire qui est de
plus en plus utile notamment avec internet (la difficulté porte ici sur le type de données
textuelles ou autres). Le grand nombre de données en météorologie a été une des premières
motivations pour le développement des méthodes d'analyse de données. En fait, tout
domaine scientifique qui doit gérer de grande quantité de données de type varié ont recours
à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel
(assurance, banque, téléphonie, etc). Ces approches ont également été mises à profit en
traitement du signal et des images, où elles sont souvent employées comme prétraitements
(qui peuvent être vus comme des filtres). En ingénierie mécanique, elles peuvent aussi
permettre d'extraire des informations intéressantes sans avoir recours à des modèles parfois
alourdis pour tenir compte de toutes les données.

5
Support de cours de Analyse Des Données

1.4 Méthodes ACP et AFC


L'analyse de données regroupe deux familles de méthodes suivant les deux objectifs cités
précédemment :

- Une partie des méthodes cherche à représenter de grands ensembles de données par
peu de variables i.e. recherche les dimensions pertinentes de ces données. Les variables
ainsi déterminées permettent une représentation synthétique recherchée. Parmi ces
méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que
l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle des
Correspondances (AFC), l'Analyse Factorielle des Correspondances Multiples, ou
encore l'Analyse Canonique.
L'analyse en composantes principales (ACP) est l'une des méthodes les plus employées.
Elle est particulièrement adaptée aux variables quantitatives, continues, a priori corrélées
entre elles. Une fois les données projetées dans différents plans, les proximités entre
variables s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.
L'analyse factorielle des correspondances (AFC) (ou analyse des correspondances
binaires) a été conçue pour l'étude des tableaux de contingence obtenus par croisement de
variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est
surtout adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes ont
un rôle symétrique et s'interprètent de la même façon. L’analyse factorielle des
correspondances multiples est une extension de l'analyse factorielle des correspondances
qui ne permet que le croisement de deux variables qualitatives.
Elle est donc adaptée à la description de grands tableaux de variables qualitatives par
exemple pour le traitement d'enquêtes. L'analyse canonique est très peu utilisée en pratique,
son intérêt porte sur son aspect théorique. Elle cherche à analyser les relations entre deux
groupes de variables de nature différente. De ce fait l'analyse factorielle des
correspondances peut être vue comme analyse canonique particulière.

- Une autre partie des méthodes cherche à classer les données de manière automatique.
Ces méthodes sont complémentaires avec les précédentes pour synthétiser et analyser

6
Support de cours de Analyse Des Données

les données et répondre plus particulièrement à l'objectif fixé de caractériser les


proximités entre individus et celles entre variables. Ces méthodes de classification sont
soit à apprentissage supervisé (i.e. qui nécessitent une base de données d'apprentissage
- ces méthodes sont appelées en statistique les analyses discriminantes) soit à
apprentissage non-supervisée (i.e. qui ne nécessitent aucune donnée préalable).

1.5 Logiciels utilisés en Analyse des données


Les méthodes d'analyse de données nées de la recherche universitaire sont depuis
longtemps entrées dans le monde industriel. Il y a cependant peu de logiciels qui savent
intégrer ces méthodes pour une recherche exploratoire aisée dans les données. Nous citons
ici cinq logiciels
- SAS :
Ce logiciel est un logiciel de statistique très complet et très performant. Il a d'abord été
développé pour l'environnement Unix, mais est maintenant accessible sous tout
environnement. Il permet une puissance de calcul importante et ainsi est très bien adapté à
tous traitements statistiques sur des données très volumineuses. Son manque de
convivialité et surtout son prix fait qu'il est encore peu employé dans les entreprises qui ne
se dédient pas complètement à la statistique. De nombreux cours universitaires de
statistique sont proposés avec ce logiciel qui s'approche d'un langage (ex. Université de
Rennes 1).

- Splus :
Splus est à la fois un langage statistique et graphique interactif interprété et orienté objet.
C'est donc à la fois un logiciel statistique et un langage de programmation.
La particularité de ce langage est qu'il permet de mélanger des commandes peu évoluées à
des commandes très évoluées. Il a été développé par Statistical Sciences autour du langage
S, conçu par les Bell Laboratories. Depuis, Splus est devenu propriété de Mathsoft après
le rachat de Statistical Sciences. Il est parfois employé pour l'enseignement.

7
Support de cours de Analyse Des Données

-R:
Ce logiciel est la version gratuite de Splus. Il est téléchargeable sous www.rproject.org
pour tous systèmes d'exploitation. Il souffre également de peu de convivialité et semble
encore très peu employé en industrie. De par sa gratuité, il est de plus en plus employé pour
la réalisation de cours de statistiques.

- XlStat :
Excel propose une macro payante permettant d'effectuer quelques méthodes d'analyse de
données. Elle est cependant très limitée, utilisable qu'avec Excel sous Windows et de plus
payante. Certaines écoles d'ingénieurs s'en contentent.

- UniWin Plus :
Statgraphics est un logiciel de statistiques générales, qui propose un module d'analyse de
données de treize méthodes. Développé uniquement pour les environnements Windows,
l'accent est porté sur les interfaces graphiques. Statgraphics propose un grand nombre
d'analyses statistiques et permet l'utilisation de beaucoup de format de données. Il est
commercialisé par Sigma Plus. Statgraphics est enseigné par exemple à l'IUT de Vannes.

- Stalab :
Ce logiciel développé par M. Jambu [Jam99b], [Jam99a] était initialement prévu pour
Windows. Sa convivialité a permis un essor industriel qui semble s'être réduit. Il a été
utilisé pour l'enseignement en écoles d'ingénieurs (ex. ENSSAT, Lannion).

- SPAD :
Le logiciel SPAD supporté entre autre par A. Morineau est toujours maintenu à jour avec
de nouvelles méthodes issues de la recherche universitaire. Sa version sous Windows est
conviviale ce qui a poussé son achat par de plus en plus d'industriels. Le souci de coller à
une réalité industrielle fait qu'il est employé en enseignement.

8
Support de cours de Analyse Des Données

Application 1 : Introduction à l’analyse des données


De la statistique à la géométrie

Soient X1 et X2 deux variables statistiques. Notons Y1 et Y2 les variables centrées construites à


partir de X1 et X2 :
𝑌1 = 𝑋1 − 𝑋̅1 𝑌2 = 𝑋2 − 𝑋̅2
Convenons d’écrire les données brutes associées à chacune de ces variables, sous la forme de
n-uplets :
(Y1(ω1),…, Y1(ωi),…, Y1(ωn)) (Y2(ω1),…, Y2(ωi),…, Y2(ωn))
où, si l’on pose yij = Yj(ωi)
(y11,…,yi1,…,yn1) (y12,…,yi2,…,yn2)

Il est possible de considérer que ces n-uplets sont les composantes de deux vecteurs Y1 et
Y2 éléments de IRn (espace vectoriel de dimension n).

Exemple 1 :
Soit le tableau des données correspondant à deux variables statistiques X1 et X2 :

X1 X2

ω1 1 6

ω2 3 2

𝑋1 (ω1)+𝑋1 (ω2) 𝑋2 (ω1)+𝑋2 (ω2)


On a 𝑋̅1 = =2 𝑋̅2 = =4
2 2
D’où les variables centrées Y1 et Y2 donnent : 𝑌𝑖1 = 𝑋𝑖1 − 𝑋̅ 1 et 𝑌𝑖2 = 𝑋𝑖2 − 𝑋̅ 2

Y1 Y2

ω1 -1 2

ω2 1 -2

On a bien 𝑌̅1 = 0 𝑌̅2 = 0

Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appelé espace des individus, car chaque
axe du repère orthonormé est associé à un individu.

9
Support de cours de Analyse Des Données

Individu ω2

Y
1
1

2
Individu ω1
-1

-2

Y2

Calcul de la variance et de l’écart type du vecteur 𝑌𝑗


1 2 1 2 1 2
∀ 𝑗 = 1,2 𝑉𝑎𝑟 (𝑌𝑗 ) = ∑𝑛 (𝑦 − 𝑌̅𝑗 ) = 𝑛 ∑𝑛𝑖=1(𝑦𝑖𝑗 )
𝑛 𝑖=1 𝑖𝑗
=
𝑛
‖𝑌𝑗 ‖
‖𝑌𝑗 ‖
et 𝜎 (𝑌𝑗 ) = √𝑛

où ‖𝑌𝑗 ‖ = √𝑦1𝑗 2 + ⋯ + 𝑦𝑖𝑗 2 + ⋯ + 𝑦𝑛𝑗 2 est la norme euclidienne du vecteur 𝑌𝑗 ; c-à-d dans
un langage plus courant, la longueur du vecteur 𝑌𝑗 .

Ainsi dans l’exemple 1 on a :


1 1
𝑉𝑎𝑟 (𝑌1 ) = 2 ((−1)2 + 12 ) = 1 et 𝑉𝑎𝑟 (𝑌2 ) = 2 (22 + (−2)2 ) = 4

‖𝑌1 ‖ = √12 + 12 = √2 ‖𝑌2 ‖ = √4 + 4 = 2√2

La longueur du vecteur associé à une variable statistique centrée est donc proportionnelle à l’écart-
type de cette variable.

Calculons, maintenant, la covariance de (Y1, Y2) :


1 1
𝐶𝑜𝑣 (𝑌1 , 𝑌2 ) = ∑𝑛𝑖=1(𝑦𝑖1 − 𝑌̅1 )(𝑦𝑖2 − 𝑌̅2 ) = ∑𝑛𝑖=1 𝑦𝑖1 𝑦𝑖2
𝑛 𝑛
1
= (𝑌1 ∙ 𝑌2 )
𝑛
où (𝑌1 ∙ 𝑌2 ) désigne le produit scalaire de Y1 et de Y2.

On rappelle que, si α est l’angle formé entre les vecteurs Y1 et Y2, alors :

𝑌1 ∙𝑌2
cos 𝛼 =
‖𝑌1 ‖‖𝑌2 ‖

10
Support de cours de Analyse Des Données

Soit encore, compte tenu de ce qui précède,

𝑛𝐶𝑜𝑣 (𝑌1 ,𝑌2 ) 𝐶𝑜𝑣 (𝑌1 ,𝑌2 )


cos 𝛼 = = = 𝜌
𝑛𝜎 (𝑌1 )𝜎 (𝑌2 ) √𝑉𝑎𝑟 (𝑌1 ) 𝑉𝑎𝑟 (𝑌2 )

c’est le coefficient de corrélation linéaire entre Y1 et Y2.

Dans l’exemple 1 précédent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinéaires
et de sens contraire, l’angle de Y1 et Y2 est donc égal à π ; or cos π = –1, résultat que l’on retrouve
en utilisant la formule (1),

−2+(−2)
cos 𝛼 = = −1
√2×8

Lorsque les vecteurs sont linéairement dépendants (liés), il existe λ  ℝ∗+ tel que Y1 = λY2 donc
cos α = ±1 et réciproquement.
𝑌𝑗 −𝑌̅𝑗
Quand on centre et on réduit des variables (par exemple 𝑍𝑗 = ), on forme des vecteurs
𝜎 ( 𝑌𝑗 )
qui ont tous la même dimension. (𝑉𝑎𝑟 (𝑍𝑗 ) = 1 )

De ce fait, la variance est la distance commune à tous les vecteurs (ils se situent sur un cercle de
rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrélation linéaire
que l’on déduit à partir de l’angle formé par les deux vecteurs.

Exemple 2 :
Soit le tableau de données suivant :

Variables X1 X2

Individus

1 4 5

2 6 7

3 8 0

4 4
𝑋1 = (6) et 𝑋2 = (6) sont les matrices colonnes issues du tableau de contingence ci-dessus
8 8
appelé aussi tableau individu*variable.

8+6+4 5+7+0
Les moyennes donnent : 𝑋̅1 = =6 et 𝑋̅2 = =4
3 3

11
Support de cours de Analyse Des Données

Center les variables : (𝑋𝑖𝑗 − 𝑋̅𝑗 ) : 4 – 6 = -2 5–4=1


6–6=0 7–4=3
8–6=2 0 – 4 = -4
Leurs normes (écart-types Xi ) :
1 2 1 26
‖𝑿𝟏 ‖ = X1 = √ ((−2)2 + 0² + 22 = 2√ et ‖𝑿𝟐 ‖ = √ (12 + 3² + (−4)2 = √
3 3 3 3

−2√3 3

2 √2 26
3√3
̅𝑗
𝑋𝑖𝑗 − 𝑋
𝑍= 0 avec 𝑍𝑖𝑗 =
√26 𝜎𝑋1
3 −4√3

( 2 √26 )

 𝑍1̅

Application 2 : TP le logiciel R

Trouver et Maîtriser le logiciel R en termes d’Analyse Des Données


http://www.r-project.org/

12
Support de cours de Analyse Des Données

CH 2 : ANALYSE EN COMPOSANTES PRINCIPALES - ACP

I. Définition

II. Ajustement du nuage de points

2.1. Coordonnées d’un point en IRq

2.2. Ajustement du nuage par un axe suivant la méthode des Moindres Carrés
a) Graphiquement

b) La méthode du Multiplicateur de Lagrange

2.3. Ajustement du nuage par un plan selon la méthode des Moindres Carrés

2.4. Ajustement par un sous-espace vectoriel selon la méthode des Moindres


Carrés

III. Exercices – Applications

APPLICATION – Analyse en Composantes Principales Normées


1. Centrer et normer les variables Cj
2. Déterminer la matrice V des variances-covariances du nuage
3. Déterminer les valeurs propres
4. Vecteurs propres des axes factoriels
5. Projection des points du nuage sur le plan formé par les deux premiers axes
factoriels
6. Interprétation – Représentation graphique – Signification possible

13
Support de cours de Analyse Des Données

14
Support de cours de Analyse Des Données

CH 3 : ANALYSE FACTORIELLE DES CORRESPONDANCES - AFC

I. Détermination des axes factoriels

II. Interprétation des axes

III. Notion de proximité


3.1. Distance de deux points de IRq

3.2. Distance des projections sur un axe de deux points en IRq

3.3. Etude des projections sur un axe de p points en IRq

IV. Exercices – Applications

15

Vous aimerez peut-être aussi