Support de Cours D'analyse Des Données - CH1 Complet
Support de Cours D'analyse Des Données - CH1 Complet
Support de Cours D'analyse Des Données - CH1 Complet
MASTER 1 INFORMATIQUE
Support de cours
✓ Un cours pédagogique
1
Support de cours de Analyse Des Données
Avertissement
2
Support de cours de Analyse Des Données
SOMMAIRE
CH 1 : INTRODUCTION A L’ANALYSE DES DONNEES
I- Généralités
II- Les données et leurs caractéristiques
III- Tableaux d’analyse associés
IV- Exercices – Application : le logiciel R
3
Support de cours de Analyse Des Données
I- Généralités
L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données
et faire face à des considérations de traitements en temps réel en dépit de la quantité de
données toujours plus importante. Les méthodes développées (et l'analyse de données) sont
maintenant souvent intégrées avec des méthodes issues de l'informatique et de l'intelligence
artificielle (apprentissage numérique et symbolique) dans le data mining traduit en français
par ‘‘fouille de données’’ ou encore extraction de connaissance à partir de données.
4
Support de cours de Analyse Des Données
(variables nominales) i.e. que les modalités ne possèdent pas de structure d'ordre ou
ordonnés (variables ordinales) i.e. que les modalités qualitatives sont ordonnées. Il est aisé
de comprendre que les données à caractère qualitatif doivent être adaptées pour les
méthodes numériques.
Les méthodes d'analyse de données supposent souvent une organisation des données
particulière, naturelle, mais parfois difficile à réaliser selon l'application et les données. Le
choix d'un tableau permet une organisation dans le plan de toutes les données et ainsi de
traiter simultanément toute l'information. Ainsi la plupart des méthodes nécessitent une
organisation des données présentée sous forme de tableau. En général, ce tableau est
quelque peu modifié, mais l'idée de tableau reste présente dans toutes les méthodes
d'analyse de données.
5
Support de cours de Analyse Des Données
- Une partie des méthodes cherche à représenter de grands ensembles de données par
peu de variables i.e. recherche les dimensions pertinentes de ces données. Les variables
ainsi déterminées permettent une représentation synthétique recherchée. Parmi ces
méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que
l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle des
Correspondances (AFC), l'Analyse Factorielle des Correspondances Multiples, ou
encore l'Analyse Canonique.
L'analyse en composantes principales (ACP) est l'une des méthodes les plus employées.
Elle est particulièrement adaptée aux variables quantitatives, continues, a priori corrélées
entre elles. Une fois les données projetées dans différents plans, les proximités entre
variables s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.
L'analyse factorielle des correspondances (AFC) (ou analyse des correspondances
binaires) a été conçue pour l'étude des tableaux de contingence obtenus par croisement de
variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est
surtout adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes ont
un rôle symétrique et s'interprètent de la même façon. L’analyse factorielle des
correspondances multiples est une extension de l'analyse factorielle des correspondances
qui ne permet que le croisement de deux variables qualitatives.
Elle est donc adaptée à la description de grands tableaux de variables qualitatives par
exemple pour le traitement d'enquêtes. L'analyse canonique est très peu utilisée en pratique,
son intérêt porte sur son aspect théorique. Elle cherche à analyser les relations entre deux
groupes de variables de nature différente. De ce fait l'analyse factorielle des
correspondances peut être vue comme analyse canonique particulière.
- Une autre partie des méthodes cherche à classer les données de manière automatique.
Ces méthodes sont complémentaires avec les précédentes pour synthétiser et analyser
6
Support de cours de Analyse Des Données
- Splus :
Splus est à la fois un langage statistique et graphique interactif interprété et orienté objet.
C'est donc à la fois un logiciel statistique et un langage de programmation.
La particularité de ce langage est qu'il permet de mélanger des commandes peu évoluées à
des commandes très évoluées. Il a été développé par Statistical Sciences autour du langage
S, conçu par les Bell Laboratories. Depuis, Splus est devenu propriété de Mathsoft après
le rachat de Statistical Sciences. Il est parfois employé pour l'enseignement.
7
Support de cours de Analyse Des Données
-R:
Ce logiciel est la version gratuite de Splus. Il est téléchargeable sous www.rproject.org
pour tous systèmes d'exploitation. Il souffre également de peu de convivialité et semble
encore très peu employé en industrie. De par sa gratuité, il est de plus en plus employé pour
la réalisation de cours de statistiques.
- XlStat :
Excel propose une macro payante permettant d'effectuer quelques méthodes d'analyse de
données. Elle est cependant très limitée, utilisable qu'avec Excel sous Windows et de plus
payante. Certaines écoles d'ingénieurs s'en contentent.
- UniWin Plus :
Statgraphics est un logiciel de statistiques générales, qui propose un module d'analyse de
données de treize méthodes. Développé uniquement pour les environnements Windows,
l'accent est porté sur les interfaces graphiques. Statgraphics propose un grand nombre
d'analyses statistiques et permet l'utilisation de beaucoup de format de données. Il est
commercialisé par Sigma Plus. Statgraphics est enseigné par exemple à l'IUT de Vannes.
- Stalab :
Ce logiciel développé par M. Jambu [Jam99b], [Jam99a] était initialement prévu pour
Windows. Sa convivialité a permis un essor industriel qui semble s'être réduit. Il a été
utilisé pour l'enseignement en écoles d'ingénieurs (ex. ENSSAT, Lannion).
- SPAD :
Le logiciel SPAD supporté entre autre par A. Morineau est toujours maintenu à jour avec
de nouvelles méthodes issues de la recherche universitaire. Sa version sous Windows est
conviviale ce qui a poussé son achat par de plus en plus d'industriels. Le souci de coller à
une réalité industrielle fait qu'il est employé en enseignement.
8
Support de cours de Analyse Des Données
Il est possible de considérer que ces n-uplets sont les composantes de deux vecteurs Y1 et
Y2 éléments de IRn (espace vectoriel de dimension n).
Exemple 1 :
Soit le tableau des données correspondant à deux variables statistiques X1 et X2 :
X1 X2
ω1 1 6
ω2 3 2
Y1 Y2
ω1 -1 2
ω2 1 -2
Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appelé espace des individus, car chaque
axe du repère orthonormé est associé à un individu.
9
Support de cours de Analyse Des Données
Individu ω2
Y
1
1
2
Individu ω1
-1
-2
Y2
où ‖𝑌𝑗 ‖ = √𝑦1𝑗 2 + ⋯ + 𝑦𝑖𝑗 2 + ⋯ + 𝑦𝑛𝑗 2 est la norme euclidienne du vecteur 𝑌𝑗 ; c-à-d dans
un langage plus courant, la longueur du vecteur 𝑌𝑗 .
La longueur du vecteur associé à une variable statistique centrée est donc proportionnelle à l’écart-
type de cette variable.
On rappelle que, si α est l’angle formé entre les vecteurs Y1 et Y2, alors :
𝑌1 ∙𝑌2
cos 𝛼 =
‖𝑌1 ‖‖𝑌2 ‖
10
Support de cours de Analyse Des Données
Dans l’exemple 1 précédent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinéaires
et de sens contraire, l’angle de Y1 et Y2 est donc égal à π ; or cos π = –1, résultat que l’on retrouve
en utilisant la formule (1),
−2+(−2)
cos 𝛼 = = −1
√2×8
Lorsque les vecteurs sont linéairement dépendants (liés), il existe λ ℝ∗+ tel que Y1 = λY2 donc
cos α = ±1 et réciproquement.
𝑌𝑗 −𝑌̅𝑗
Quand on centre et on réduit des variables (par exemple 𝑍𝑗 = ), on forme des vecteurs
𝜎 ( 𝑌𝑗 )
qui ont tous la même dimension. (𝑉𝑎𝑟 (𝑍𝑗 ) = 1 )
De ce fait, la variance est la distance commune à tous les vecteurs (ils se situent sur un cercle de
rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrélation linéaire
que l’on déduit à partir de l’angle formé par les deux vecteurs.
Exemple 2 :
Soit le tableau de données suivant :
Variables X1 X2
Individus
1 4 5
2 6 7
3 8 0
4 4
𝑋1 = (6) et 𝑋2 = (6) sont les matrices colonnes issues du tableau de contingence ci-dessus
8 8
appelé aussi tableau individu*variable.
8+6+4 5+7+0
Les moyennes donnent : 𝑋̅1 = =6 et 𝑋̅2 = =4
3 3
11
Support de cours de Analyse Des Données
−2√3 3
√
2 √2 26
3√3
̅𝑗
𝑋𝑖𝑗 − 𝑋
𝑍= 0 avec 𝑍𝑖𝑗 =
√26 𝜎𝑋1
3 −4√3
√
( 2 √26 )
𝑍1̅
Application 2 : TP le logiciel R
12
Support de cours de Analyse Des Données
I. Définition
2.2. Ajustement du nuage par un axe suivant la méthode des Moindres Carrés
a) Graphiquement
2.3. Ajustement du nuage par un plan selon la méthode des Moindres Carrés
13
Support de cours de Analyse Des Données
14
Support de cours de Analyse Des Données
15