Cours ANAD 2022-2023
Cours ANAD 2022-2023
Cours ANAD 2022-2023
Master 1
Intelligence Artificielle
&
Systèmes d’information avancés
Contenu de la matière :
1. Rappel sur l’algèbre linéaire et les statistiques descriptives
Références
• Saporta G. : Probabilités, analyse des données et statistique. 3 ème édition, Technip, 2011.
• Tenenhaus M. : Statistique. Méthodes pour décrire, expliquer et prévoir, Dunod, 2010.
• Lebart L., Morineau A., Piron M. : Statistique exploratoire multidimensionnelle, Dunod,
4ème édition, 2006.
• Nakache J.-P., Confais J. : Approche pragmatique de la classification. Technip 2005
• Pierre Rigollet, Analysez efficacement vos données, livre Edition Eni, 2013.
• Nathan Yau, Data visualisation, livre Edition Eyrolles, 2013.
Introduction
Ces méthodes , aident à faire ressortir les relations pertinentes pouvant exister entre les données
et à en tirer une information statistique qui permet de décrire de façon plus succincte les
principales informations contenues dans ces données.
D'autres techniques permettent de regrouper les données de façon à faire apparaître clairement
ce qui les rend homogènes, et ainsi mieux les connaître.
Le succès de cette discipline dans les dernières années est dû, dans une large mesure, aux
représentations graphiques fournies. Ces graphiques peuvent mettre en évidence des
relations difficilement saisies par l’analyse directe des données
.
Les fondements mathématiques de l’analyse des données ont commencé à se développer au
début du 20 siècle, mais c’est le développement de l’informatique qui a rendu cette
discipline opérationnelle.
2- Définition
Pour J-P. Fénelon ‘’l’analyse des données est un ensemble de techniques pour découvrir
la structure, éventuellement compliquée, d’un tableau de nombres à plusieurs dimensions
et de traduire par une structure plus simple et qui la résume au mieux. Cette structure peut
le plus souvent, être représentée graphiquement’’.
3- Les principales étapes du processus d'analyse :
Conclusion
4- Les méthodes
Parmi ces deux techniques, les premières occupent une place de choix, ‘’car elles sont utilisées
soit seules, soit conjointement avec les secondes, alors que les deuxièmes se sont rarement
appliquées seules’.
On s’intéressera surtout aux analyses factorielles dont on ne décrira que les méthodes les plus
employées.
5- Domaines d’application
Toutes les institutions génèrent quotidiennement des quantités importantes d’informations
En Sécurité informatique, il s’agit de classifier les paquets en normal et malicieux.
Dans les enquêtes d’opinion, les questionnaires sont toujours structurés en thèmes. On
peut vouloir analyser plusieurs thèmes simultanément.
Pour une catégorie de produits alimentaires, on dispose, sur différents aspects des
produits, de notes données par des experts et de notes données par des consommateurs.
On peut vouloir analyser simultanément les données des experts et les données des
consommateurs.
Pour un ensemble de milieux naturels, on dispose de données biologiques (abondance
d’un certain nombre d’espèces) et de données environnementales (caractéristiques du
sol, du relief, etc.). On peut vouloir analyser simultanément ces deux types de
données.
Pour un ensemble de magasins, on dispose du chiffre ’affaires par produit à différentes
dates. Chaque date constitue un groupe de variables. On peut vouloir étudier ces dates
simultanément.
6-Les logiciels
SPSS,
Statistica,
HyperCube
SAS
XLSTAT
Etc.
Chapitre 1
I- Algèbre linéaire
Scalaires, vecteurs, matrices
a- Scalaire : un scalaire est une valeur numérique par exemple l’age d’une personne.
c- Matrice : tableau rectangulaire qui a des colonnes et des lignes. Pour accéder à un
élément il faut spécifier son index de sa ligne et l’index de sa colonne.
𝑎 𝑎
𝐴= 𝑎 𝑎
𝑎 𝑎
Sa transposée est
𝑎 𝑎 𝑎
𝐴 = 𝑎 𝑎 𝑎
b- Matrice de poids
Ces matrices sont utiles quand les individus n'ont pas la même importance. On associe aux
individus un poids pi tel que :
𝑝 + 𝑝 + ⋯+ 𝑝 = 1
et on représente ces poids dans la matrice diagonale de taille n.
𝑝 ⋯
⋮ ⋱ ⋮
⋯ 𝑝
Cas particulier (uniforme) tous les individus ont le même poids pi= 1 / n
(𝑥̅ , … , 𝑥̅ )
𝑥̅ = 𝑝 𝑥
Le Tableau centré est obtenu en centrant les variables autour de leurs moyennes
Les valeurs propres d’une matrice M (mxm) sont les solutions de son polynôme
caractéristique. En pratique ce sont les solutions de l’équation suivante :
𝑑𝑒𝑡(𝑀 − 𝐼) = 0
λ est une valeur propre de la matrice M si et seulement s’ il existe un vecteur v non nul tel
que :
M𝑣⃗= λ𝑣⃗
𝑏 ⋯ 𝑏
⋮ ⋱ ⋮
𝑏 ⋯ 𝑏
𝑐 =∑ 𝑎 ∗𝑏
- Caractères et variables
Dans une population, par exemple les étudiants d’une faculté, les unités statistiques
sont repérées par les noms et les prénoms des étudiants. Si on souhaite étudier cette
population, on va s’intéresser à des critères comme le sexe, l’age, la moyenne, la
filière, la taille, le poids, etc.
Parmi ces critères, y a ceux qui sont quantitatifs comme l’age, le poids, la taille, et
ceux qui sont qualitatifs et ne sont pas quantifiables (ie. on ne peut pas faire des
calculs dessus).
Les critères qualitatifs sont appelés caractères et les critères quantitatifs sont
appelés variables.
Afin de différencier les deux concepts, on désigne par modalités les différentes
catégories d’un caractère et valeurs pour les chiffres d’une variable.
Les modalités qui ne peuvent pas être hiérarchisées sont dites nominales.
la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les
observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes
propriétés.
𝑋= ∑ 𝑥
Ou
𝒏
𝒑𝒙 𝒙𝒊
𝟏
La moyenne géométrique
Si xi sont les observations d'une variable quantitative, la moyenne géométrique est égale à
𝑥 𝑥∗𝑥 ∗𝑥 …∗𝑥
Ce type de moyenne est surtout utilisé pour calculer des pourcentages moyens. r étant un taux
d'accroissement, 1+r est appelé coefficient multiplicateur; et le coefficient multiplicateur moyen
est alors égal à la moyenne géométrique des coefficients multiplicateurs.
La moyenne quadratique
Paramètres de dispersion
L’étendue
C'est la différence entre la plus grande et la plus petite observation
La variance et l’écart-type
Si xi sont les observations d'une variable discrète ou les centres de classe d'une variable classée,
la variance de X notée var(X) est donnée par la formule suivante :
1
𝑣𝑎𝑟(𝑥) = (𝑥 − 𝑋)
𝑛
On utilise plus couramment l'écart-type qui est la racine carrée de la variance et qui a l'avantage
d'être un nombre de même dimension que les données (contrairement à la variance qui en est le
carré)
La variance est un paramètre de dispersion plus utilisé que les autres de par ses propriétés
algébriques
𝑣𝑎𝑟(𝑋) = ∑ (𝑥 − 𝑋)
C'est un coefficient qui permet de relativiser l'écart-type en fonction de la taille des valeurs. Il
permet ainsi de comparer la dispersion de séries de mesures exprimées dans des unités
différentes
La covariance
On appelle covariance de deux variables statistiques X et Y sur les mêmes n individus le nombre
:
1
𝑐𝑜𝑣(𝑋, 𝑌) = (𝑋 − 𝑋)(𝑌 − 𝑌)
𝑛
Ce nombre est positif si X et Y ont tendance à varier dans le même sens, et négatif si elles ont
tendance à varier en sens contraire.
Le rapport de corrélation
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑌
C'est coefficient compris entre 0 et 1 mesurant la part plus ou moins grande de la variabilité
d'une variable Y qui peut être expliquée par les variations d'une autre variable X, qualitative,
discrète, ou continue découpée en classes.
Chapitre 2 :
Analyse en composantes principales
(ACP)
Les composantes, les nouvelles variables, définissent un sous-espace à q dimensions sur lequel
sont projetés les individus avec un minimum de pertes d'information. Dans cet espace le nuage
de points est plus facilement représentable et l'analyse est plus aisée.
La mesure de la qualité de représentation des données peut être effectuée à l'aide du calcul de
la contribution de l'inertie de chaque composante à l'inertie totale.
Selon un usage bien établi, les lignes du tableau représentent les individus et les colonnes
représentent les variables. A l’intersection de la ligne i et de la colonne k se trouve la valeur de
la variable k pour l’individu i.
En ACP, la distance d(i ,l) entre deux individus i et l est définie par :
𝑑 (𝑖, 𝑗) = (𝑥 − 𝑥 )
∈
À propos de deux variables, on essaie d’évaluer leurs liaisons. En ACP, la liaison entre deux
variables est mesurée par le coefficient de corrélation linéaire (dans de rares situations, on
utilise la covariance), noté usuellement r. Soit :
𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒(𝑘, ℎ)
𝑟(𝑘, ℎ) =
𝑣𝑎𝑟(𝑘)𝑥𝑣𝑎𝑟(ℎ)
Le tableau de données
On a au niveau des lignes des individus et au niveau des colonnes des variables.
On a la moyenne de la variable 𝑋 = 𝑚 = (𝑥 + 𝑥 + ⋯ . + 𝑥 ).
1
𝑐𝑜𝑣(𝑋, 𝑌) = (𝑥 − 𝑋)(𝑦 − 𝑌)
𝑁
Exemple
Individu X Y
Individu 1 3 6
Individu 2 4 8
Individu 3 6 10
Individu 4 7 12
Moyenne== (3 + 4 + 6 + 7) = 5 Moyenne== (6 + 8 + 10 +
Variance= ((3 − 5) + (4 − 5) + 12) = 9
(6 − 5) + (7 − 5) )=2,5 Variance= ((6 − 9) + (8 −
Ecart-type=√𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 = 1,58 9) + (10 − 9) + (12 −
9) )=5,5
Ecart-type=√𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 = 2,34
Soit X une variable statistique discrète, on dit que X est centrée si on sa moyenne est nulle (ie.
𝑋 = 0). Pour centrer donc une variable, il suffit de retrancher de chacune de ses observations
sa moyenne.
Une variable X est dite réduite si var(X)=1 (ou son écart-type =1). Pour obtenir cela, il suffit
de retrancher la moyenne de chaque observation et de diviser le résultat par l’écart-type.
Une variable X est dite centrée et réduite si (𝑋 = 0) et ( var(X)=1). Réduire les variables
permet de travailler sur des données exprimés dans des unités différentes.
Exemple
Soit X une variable discrète.
X X centré X réduite
5 5-4 ½
3 3-4 -1/2
1 1-4 -3/2
7 7-4 3/2
4 4-4 0
Moyenne= 4
Var(X)= ∑ (𝑋 − 𝑋) =4
Ecart-type= 𝑣𝑎𝑟(𝑋)=2
On appelle centre de gravité d’un nuage l’individu fictif dont les coordonnées sont :
g(𝑋1,𝑋2, …, 𝑋𝑝)
Inertie totale
I= ∑ 𝑑 (𝑖𝑛𝑑 , 𝑔)
Exemple
Soit le tableau suivant :
Individu X1 X2 X3
Ind1 6 3 5
Ind2 2 2 5
Ind3 4 1 5
Ind g 𝑋13=4 𝑋2= 2 𝑋3= 5
La matrice de variance-covariance est une matrice carrée qui comporte les variances et les
covariances associées à plusieurs variables. Les éléments de diagonale de la matrice contiennent
les variances des variables, tandis que les éléments hors diagonale contiennent les covariances
entre toutes les paires possibles de variables.
Exemple,
Soit à créer une matrice de variance/covariance pour les trois variables X, Y et Z. Dans le
tableau suivant, les variances sont affichées en gras le long de la diagonale. Les variances de
X, Y et Z sont respectivement 2,0, 3,4 et 0,82. La covariance entre X et Y est -0,86.
X Y Z
Soit CR la matrice centrée et réduite. La matrice des corrélations est obtenue par la
multiplication de la matrice transposée de CR par CR et chaque élément obtenu est divisé par
le nombre de variables.
( , )
r(X,Y)=
1
∗ 𝑋 ∗𝑋
6
1 0,9 0,42
0,9 1 0,62
0,42 0,62 1
Etapes
Pays B 450 2 4
Pays C 950 8 2
Pays D 700 7 5
Etapes :
- Calculer et interpréter les corrélations entre les composantes principales et les variables
Matrice centrée MC
1 0,99 −0,8
𝑈 =: 0,99 1 −0,6
−0,8 −0,6 1
1 0,99 −0,8 𝑥 𝑠
0,99 1 −0,6 ∗ 𝑦 = 2,35 ∗ 𝑦
−0,8 −0,6 1 𝑧 𝑧
a- X=0,57
b- Y=0,54
c- Z=0,64
0,57
Donc 𝑣1 = 0,54
0,64
Finalement on obtient :
Individus Axe1 Axe2
Individu1 -0,46 -1,22
Individu2 -1,09 -1,46
Individu3 0,48 1,4
Individu 4 0,99 1 ,2
Pi = (n nombre d’individus)
𝑥 valeur dans la matrice MCR
∑ somme des valeurs propres
On obtient
Interprétation
Pour Axe 1, le point déterminant est 0,12 (12%)
Pour Axe 2, le point déterminant est 0,82 (82%)