1coursintroduction PDF
1coursintroduction PDF
1coursintroduction PDF
neuronales (RCP208)
Introduction
Michel Crucianu
([email protected])
http ://cedric.cnam.fr/vertigo/Cours/ml/
Département Informatique
Conservatoire National des Arts & Métiers, Paris, France
27 septembre 2018
Plan du cours
5 Décision et généralisation
Le sujet
« Essentially, all models are wrong, but some are useful. » (Box, G. E. P., and Draper, N. R. Empirical Model
Building and Response Surfaces, John Wiley & Sons, New York, NY, 1987, p. 424.)
Problématique abordée
Examiner et comprendre les (caractéristiques des) données → analyses factorielles,
visualisation
Comprendre les problèmes posés par les données → solutions à ces problèmes
Description des données → classification automatique, estimation de densités,
quantification vectorielle
Construction de modèles décisionnels (ou prédictifs) → perceptrons multi-couches
(RCP208), autres méthodes (dont forêts d’arbres de décision, SVM, réseaux de
neurones profonds - RCP209)
⇒ Capacité à mettre œuvre des méthodes d’analyse des données, de reconnaissance des
formes et de fouille de données
Prérequis
En mathématiques : connaissances mathématiques de base
En informatique : connaissances de base en programmation
Objectifs et contenu de l’enseignement 4 / 48
Python permet d’utiliser aussi Apache Spark (pour données massives, voir RCP216)
Plan du cours
5 Décision et généralisation
Organisation
Évaluation
Note finale = note d’examen modulée (entre +2 et -2) par les comptes-rendus de TP
Plan du cours
5 Décision et généralisation
Objectif : détecter des « objets » d’une ou plusieurs catégories dans des images ou
des vidéos
Avec une autre famille paramétrique peut-on réduire encore l’erreur d’apprentissage ?
Les performances d’un modèle ne doivent pas être évaluées sur des données
d’apprentissage car cela produirait des estimations trop optimistes !
L’évaluation se fait sur des données de test, non utilisées pour l’apprentissage
Exemples d’applications et nature du problème de modélisation 16 / 48
5. Avec le modèle retenu, décider, pour une région d’une nouvelle image, si elle
contient ou non un objet d’intérêt
Simplification de l’exemple
Plan du cours
5 Décision et généralisation
Décision et généralisation 18 / 48
L’objectif est d’utiliser le modèle pour décider à quelle classe affecter de futures
(nouvelles) données
L’erreur sur les données futures est l’erreur de généralisation (risque espéré)
Décision et généralisation 20 / 48
Décision et généralisation 22 / 48
Et l’erreur de généralisation ?
Explication
1 Erreur généralisation ≤ erreur apprentissage + borne
2 Or, complexité famille paramétrique % ⇒ borne %…
Problèmes posés par les données 22 / 48
Plan du cours
5 Décision et généralisation
Données inadaptées
Dans la situation illustrée, faut-il chercher à tout prix un modèle quelle que soit sa
complexité ?
Un tel modèle généralisera vraisemblablement très mal…
Données aberrantes
Données éloignées de toutes les autres ou seulement de celles de leur classe (comme
dans l’illustration)
Données manquantes
Classes déséquilibrées
Le nombre d’observations est beaucoup plus faible pour une classe que pour l’autre
Quelques solutions
1. Certaines méthodes de modélisation sont moins sensibles que d’autres au
déséquilibre entre les classes
Par ex. SVM maximisent une marge ⇒ seules comptent les données les plus proches de
la frontière
2. Changer la façon de mesurer la performance du modèle, utiliser par ex.
κ (Kappa) pour comparer les performances du modèle aux performances espérées
calculées à partir de la matrice de confusion
Le rappel mesuré pour la classe minoritaire = proportion d’éléments de la classe
détectés comme tels
3. Utiliser des pénalités supérieures pour les erreurs faites sur la classe minoritaire
Problèmes posés par les données 34 / 48
5. Générer des observations synthétiques pour la classe minoritaire (par ex. avec
Synthetic Minority Over-sampling TEchnique, SMOTE)
Plan du cours
5 Décision et généralisation
Observation X1 X2 … Xd
e1 … … … …
e2 … … … …
… … … … …
en … … … …
Nature des données et leur représentation 41 / 48
Type d’une variable ← nature des valeurs qu’une variable peut prendre
Quantitative (ou numérique)
Continue : longueur, durée, température, autres mesures physiques, etc.
Discrète : population, etc.
Qualitative (ou catégorielle)
Ordinale (un ordre total est présent entre les valeurs possibles) : classement, échelle de
Lickert (ex. Pas du tout d’accord / Pas d’accord / Ni en désaccord ni d’accord /
D’accord / Tout à fait d’accord), etc.
Nominale : catégorie socio-professionnelle, nom de marque, etc.
Variables ordinales :
Représentation par valeurs numériques ?
Pas du tout d’accord 1
Pas d’accord 2
Ni en désaccord ni d’accord 3
… …
→ introduction de distances arbitraires entre modalités ← à éviter
⇒ Représentation plutôt par des codes binaires :
Pas du tout d’accord 00001
Pas d’accord 00011
Ni en désaccord ni d’accord 00111
… …
Variables nominales :
Représentation par valeurs numériques ?
Enseignant 1
Médecin 2
Technicien 3
… …
→ introduction d’un ordre arbitraire et de distances arbitraires entre modalités ← à éviter
⇒ Représentation plutôt par un codage disjonctif :
Enseignant 1 0 0 …0 0 0
Médecin 0 1 0 …0 0 0
Technicien 0 0 1 …0 0 0
… …
Nature des données et leur représentation 45 / 48
Variables à valeurs structurées : utilisation de méthodes à noyaux (par ex. noyaux sur
arbres, voir l’ingénierie des noyaux dans RCP209)
⇒ La représentation des variables doit être en accord avec la nature des caractéristiques
auxquelles les variables correspondent !
Plan du cours
5 Décision et généralisation
Mesure de performance sur les données de test : erreur minimale, aire sous la courbe
ROC, taux minimal de faux négatifs…
Cette performance ne doit pas être l’unique critère de choix !
Lisibilité (∼explicability) : résultats ou décisions interprétables
Pour des applications critiques (par ex. contrôle réaction chimique à risque) on ne peut
se contenter d’une solution « boîte noire »
La lisibilité rend possible la vérification/validation a priori
Solutions pour rendre lisibles des modèles qui ne le sont pas a priori (par ex. extraction
de règles d’un réseau de neurones)
Rapidité de la construction du modèle, de la prise de décision
Contraintes de temps sur la (re)construction du modèle ou sur la prise de décision ?