Cours FAA Partie1
Cours FAA Partie1
Cours FAA Partie1
Automatique
1
Contenu
Contenu
I Introduction à l’apprentissage artificiel
I Rappels de statistiques élémentaires (statistique
descriptive unidimensionnelle et bidimensionnelle)
I Modélisation du problème d’apprentissage
I Apprentissage supervisé : concept formel et
application
I Régression linéaire
I Régression logistique
I Arbres de décision
I Analyse en composantes principales
I Réseaux de neurones
2
Partie 1 :
Introduction à l’apprentissage artificiel
Plan
1. Introduction générale
2. Modèles formels : définition et exemple
3. Sources de données
4. Big Data
5. Science des données
6. Initiation au langage R
3
Introduction générale
I Méthodes formelles :
Méthodes/techniques permettant de raisonner rigoureusement, à l’aide de
logique mathématique (descriptions mathématiques formelles), pour
démontrer leur validité par rapport à une certaine spécification.
4
Modèles formels : définition
I Modélisation (en anglais Modelling) :
”A scientific theory is formalised as a mathematical model of reality, from which
can be deduced or calculated the observable properties and behaviour of a
well-defined class of processes in the physical world” [C. A.R Hoare]
I Deux principales notions de modèles en informatique :
1. Un modèle : Un modèle est une approximation de la réalité par une
structure mathématique.
2. Un objet : Un modèle O de réalité R, si O permet de répondre aux
questions que l’on se pose sur R.
I Exemple :
5
Modèles formels : exemple
6
Modèles formels : exemple
7
Sources de données
I Type de données les plus répandues :
I Données structurées (fXML, JSON, bases de données, ...)
I Données non structurées (données multimédia : image, vidéo, son ; pages
web, mails, ...)
8
Big Data : Les 5 V du Big Data
9
I Volume : augmentation exponentielle des données (jusqu’à plusieurs milliers de
téra octets)
logs, réseaux sociaux, e-commerce, catalogue produit, analyse des données,
monitoring, ...
Les technologies traditionnelles (Business Intelligence, bases de données) n’ont
pas été pensées pour de telles volumétries.
I Variabilité/Variété : Les données à traiter sont de natures multiples (structurées
et non structurées)
Les données non structurées peuvent faire l’objet d’une analyse sémantique
permettant de mieux les structurer et les classer, entraı̂nant une augmentation
du volume de données à stocker.
I Vélocité : La vitesse de traitement élevée permet d’o↵rir des capacités temps
réel d’analyse et de traitements des données.
Dans certains cas l’accès et le partage des données doivent se faire en temps réel
I Valeur : permettre de monétiser les données (e.g. les données d’une entreprise).
Ce n’est pas une notion technique mais économique.
On va mesurer le retour sur investissements de la mise en ¡uvre du Big Data et
sa capacité à s’autofinancer par les gains attendus pour l’entreprise.
Plus on souhaite apporter de la valeur aux données, plus le coût et la complexité
de la chaı̂ne augmente (Chaı̂ne de valorisation des données : données brutes –>
données préparées –> modèle prédictif)
I Véracité : la capacité à disposer de données fiables pour le traitement
S’intéresser à la provenance des données afin de déterminer s’il s’agit de données
de confiance (e.g. en fonction du critère de confiance, on accordera plus ou
moins d’importance à la donnée dans les chaı̂nes de traitement)
Exemple : cas des données incomplètes (dont l’anonymisation a enlevé une
partie de la valeur statistique) et le cas de données trop anciennes.
10
Science des données
Origine de la Data Science
Article de l’OBS 1
1. http://tempsreel.nouvelobs.com/tech/20170411.OBS7885/
dj-patil-ex-sorcier-des-chiffres-d-obama-j-ai-invente-le-concept-de-data-scientist.html
11
La science des données (en anglais data science)
Une nouvelle discipline qui s’appuie sur des outils mathématiques, de
statistiques, d’informatique et de visualisation des données. Elle est en plein
développement, dans le monde universitaire ainsi que dans le secteur privé et le
secteur public (due aux moyens de calcul et aux volumes de données).
I 1930-1970 (Octets) : Statistiques (modèle linéaire Gaussien)
un test, une décision, donc une réponse
I 1970s (Ko) : Les premiers outils informatiques pour échapper à l’impérialisme du
modèle linéaire (ex. Analyse des données en France, Exploratory Data Analysis
(EDA) aux États-Unis)
L’objectif est de décrire ou explorer, prétendument sans modèle, des données
déjà plus volumineuses.
I 1980s (Mo) : Intelligence Artificielle (apprentissage des réseaux de neurones)
La Statistique développe des modèles non-paramétriques ou fonctionnels.
I 1990s (Go) : Data Mining et Premier changement de paradigme
aide à la décision, logiciels de fouille de données
I 2000s (To) : Deuxième changement de paradigme
Apprentissage Statistique
I 2010s (Po) : Troisième changement de paradigme
apprentissage non supervisées ou supervisées, optimisation (applications
industrielles, e-commerce, géo-localisation)
12
Environnement logiciel
13
Langage R : installation
I RStudio
https ://rstudio.com/products/rstudio/download/
I RStudio via Anacanda
https ://www.anaconda.com/products/individual
1. Anaconda Installer : choisissez la version graphique correspondante à
votre système d’exploitation à installer
2. Lancer Anacanda-Navigator
3. Installer en suite RStudio
4. Ensuite lancer RStudio ou bien Jupyter notebook
I R en ligne
https ://cocalc.com/doc/jupyter-notebook.html
1. Cliquer sur ”Run Jupiter Now”
2. Clique en suite sur : Welcome to CoCalc !
3. Créer un nouveau document en cliquant sur New (create new file with
extension Jupiter Notebook .ipynb)
4. Sélectionner Kernel (Select a Kernel) : choisissez R
14
Á faire
I Tutoriels d’initiation à R.
https ://github.com/wikistat/Intro-R
15