CM1 Isd
CM1 Isd
CM1 Isd
M1 Informatique
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
https://www.quora.com/
What- is- the- difference- between- data- science- machine- learning- and- artificial- intelligence
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Cette U.E.
9h cours, 18h TD/TP
Seulement quelques aspects
Cas pratiques
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Que voyez-vous ?
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Fondements mathématiques
Bases éprouvées, riches et solides
Distances et similarités entre deux vecteurs
Transformations linéaires ou non, dérivées
Alternatives algorithmiques
Séquences, sacs, arbres, automates, graphes
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
n = 7, d = 8, x2,5 = 1217
Définition
Si A et B sont corrélés
1 A est la cause de B ?
2 B est la cause de A ?
3 Autorenforcement du système (1 ET 2)
4 Il existe un troisième facteur (inconnu) étant la cause commune de A et B
5 Une coı̈ncidence
http://www.info.univ-angers.fr/˜gh/Datasets/bumpus.htm,
caractéristiques physiologiques d’oiseaux échoués. Extrait :
Un peu de python
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Données quantitatives
Diagrammes en bâtons (un bâton par valeur discrète), ou histogramme
lorsque les données sont classées (ou avec intervalle de valeurs)
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Médiane et quartiles
Les percentiles
Les percentiles
Un percentile est un pourcentage d’individus dans S en dessous d’une
certaine valeur de x
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
(source : enseeiht)
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
(source : STHDA)
Au delà de 4D : difficile !
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Limites de l’histogramme
(source : B. Perret)
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Sac de mots = représentation d’un texte par les mots qui le composent,
sans ordre
Vecteur : chaque mot du dictionnaire est une composante de l’espace
Valeur d’une composant : présence/absence, nombre d’occurrences,
fréquences, etc.
Alternatives nombreuses : n-grams, word embeddings, etc.
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Une réalité
S = {xi }ni=1 , avec xi ∈ Rd
Iris dataset, n = 150, d = 4
Animal with Attributes, n = 30K , d de 3 × 256 = de 768 (HOC) à 4000
(BOW), selon espace vectoriel de description
Titanic, n = 500, d = 15
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Matrice d’entrées
Exemple
x sport sommeil lecture internet repas ··· ménage
x1 0.04 0.27 0.09 0.11 0.03 ··· 0.08
x2 0.11 0.21 0.01 0.08 0.09 ··· 0.11
x3 0.03 0.26 0.08 0.12 0.02 ··· 0.07
··· ··· ··· ··· ··· ··· ··· ···
xn 0.01 0.31 0.13 0.13 0.08 ··· 0.02
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Principe de l’ACP
Définitions
n
1X 2
Ig = d (xi , g) où g est le centre de gravité
n
i=1
xik − x̄ k
xik ←
σk
2 Calculer C la matrice de covariance de X centrée-réduite
3 Calculer les valeurs propres de X et leurs vecteurs associés
4 Prenez les q plus grandes valeurs propres λ, et les q plus grands axes
principaux
5 Calculer M la nouvelle représentation matricielle de S dans cette
nouvelle représentation
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Exercice de (re-)découverte
2 est-ce que ~v et v~t sont colinéaires, et si oui, rajouter λ dans Λ tel que
v~t = λ~v
3 ~v ← rot(~v , 30) (rotation dans le sens trigonométrique)
4 recommencer en (1) une quinzaine de fois
Quels sont les valeurs propres et les vecteurs propres de A ? Quelle est la
matrice diagonale de f dans la nouvelle base orthonormée ?
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Et en python ?
Learn english
Visualisation
https://python-graph-gallery.com/ et matplotbib
ACP
http://scikit-learn.org/stable/modules/generated/
sklearn.decomposition.PCA.html
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Outline
1 Introduction
Sciences des données, késako ?
2 Représentation et visualisation
Représentations numériques des données
Des statistiques descriptives aux modes de visualisation
Quelques modes classiques de visualisation
Représentation et visualisation des données vectorielles
4 Et après
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Et en TD/TP
Anaconda installer
https://www.anaconda.com/download/
https://conda.io/docs/user-guide/getting-started.html
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Jupyter Notebooks
$ jupyter notebook
Introduction Représentation et visualisation Analyse en composantes principales (ACP – PCA) Et après
Colaboratory