Paragraph
Paragraph
Paragraph
Artificielle
Matière : Intelligence artificielle
Classe : MRMI
06 70 40 07 23
Professeur : Zakaria MIGHOUAR [email protected]
Année Universitaire : 2022-2023
1
Chapitre 2:
2
Introduction
▪ les choix les plus populaires pour chacun des domaines, et surtout des
critères qui vous permettront de choisir selon votre propre
problématique et vos contraintes.
3
R ou Python ?
▪ Langage R, créé en 1993, est le langage historique des statisticiens, métier qui
représente l’ancêtre de la Data Science. Les fonctionnalités utiles au bon
développement de votre projet et des interfaces pour (quasiment) tous les outils
que nous évoquerons par la suite sont disponible dans ce langage.
▪ Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le
langage de référence pour tous les ingénieurs qui veulent effectuer rapidement
des implémentations d’algorithmes mathématiques, entre autre de Machine
Learning.
4
R ou Python ?
▪ Si le projet est orienté vers un métier où les statistiques jouent un plus grand
rôle (pour faire des analyses exploratoires, des corrélations, etc.), il est plus
judicieux de travailler sur R qui permet d’être très efficace sur ce terrain.
Notamment pour un data analyst, R constitue un très bon environnement de
travail.
6
La récupération des données
La première étape est donc de récupérer les données. Cela dépend fortement de
votre problématique :
▪ une entreprise de trading récupérera les données sur des outils de marché
financier (disponible sur internet),
etc.
7
Le nettoyage et l'exploration des données
▪ pandas pour créer des tableaux (ou "Dataframe") à partir de vos données brutes ;
8
Le nettoyage et l'exploration des données
Ici, on rentre dans le vif du sujet pour le Data Scientist et pour ce cours, c’est à
dire le Machine Learning et le travail de modélisation.
À nouveau, la guerre fait rage. Torch, Theano, Caffe, mais surtout Tensorflow et
Scikit-Learn sont les librairies les plus utilisées pour la modélisation.
Dans ce cours, le choix a été fait d’utiliser Scikit-learn, car il est plus facile d’accès
et implémente directement et de manière didactique les différents algorithmes
d’apprentissage automatique que nous allons étudier.
10
Questions:
11
Questions:
12
Questions:
13
Réponses:
14
Réponses:
15
Réponses:
16
Prise en main de
jupyter -
Arrays
17
Notebook jupyter
Jupyter Notebook est une application très populaire pour l’ensemble des personnes travaillant
dans l’analyse de données. Il permet à une équipe de pouvoir créer et partager des rapports
sous forme de document/code, facilitant ainsi la productivité et la collaboration.
▪ Soit vous souhaitez travailler sur votre propre machine et dans ce cas-là, il faudra installer
Python et Jupyter – via la distribution Anaconda, par exemple.
▪ Soit vous pouvez utiliser un notebook directement hébergé dans le cloud : le plus connu en
la matière est indéniablement Google Collaboratory.
18
Listes - Arrays
19
Listes - Arrays
20
Arrays Numpy
21
Arrays Numpy
22
Arrays Numpy
23
Arrays Numpy
24
Arrays Numpy
25
Arrays Numpy
26
Sélectionner des éléments dans un array
27
Sélectionner des éléments dans un array
28
Sélectionner des éléments dans un array
29
Sélectionner des éléments dans un array
30
Sélectionner des éléments dans un array
31
Sélectionner des éléments dans un array
32
Sélectionner des éléments dans un array
33
Utiliser les méthodes d’array
34
Utiliser les méthodes d’array
35
Exercice
Dans cet exercice, il vous est demandé de créer un array avec plusieurs valeurs de résistances
élastiques en MPa (100 ; 125.1 ; 320 ; 214.87 ; 411 ; 297 ; 380). L’objectif est de choisir le
matériau fournissant la valeur de coefficient de sécurité supérieur et se rapprochant le plus
de 2. Pour ce faire, suivez le étapes suivantes:
1. Créer l’array que vous allez nommé resistance_elastique
2. Sachant que la contrainte maximale équivalente subie par le matériau est de 182 MPa,
créer un array nommé coefficient_de_securite qui contient les coefficients de sécurité
obtenu pour chaque matériau
3. Remplacer tout les éléments de la liste coefficient_de_securite ne répondant pas à cette
condition par 1000.
4. Donner l’indice de l’élément ayant la plus petite valeur
5. Expliquer la raison du choix de la condition émise dans la question 3. 36
Créer un tableau avec NumPy
37
Créer un tableau avec NumPy
38
Créer un tableau avec NumPy
39
Créer un tableau avec NumPy
40
Analogie entre les arrays et les matrices
41
Analogie entre les arrays et les matrices
42
Analogie entre les arrays et les matrices
43
Exemple
Déclarer les listes hugo, richard, etc tout en les regroupant dans un tableau « tableau » en suivant
la manipulation suivante:
44
Exemple
Exécuter les instructions suivantes en commentant a chaque fois le résultat obtenu:
45
Exercice
Pour cette tâche, nous travaillons toujours sur les mêmes 10 clients de l’exemple du
slide précédent, mais nous avons cette fois trois informations à disposition sur
chacun d’eux :
▪ le revenu mensuel
▪ l'âge du client
▪ le nombre d’enfants à charge
46
Exercice
47
Exercice
1- A partir de cette liste, créez un array que vous nommerez data :
affichez les informations qui lui sont relatives. Pour rappel, Paul correspond à la 5ème
ligne de nos données
4- Un nouveau client vient d'arriver, dont les informations sont les suivantes :
louise = [1900, 31, 1], Ajoutez ces informations à la suite de votre array data
5- Stockez enfin l'ensemble des informations de salaire de notre clientèle dans une
variable revenus
48
Questions:
49
Questions:
50
Questions:
51
Questions:
52
Réponses:
53
Réponses:
54
Réponses:
55
Réponses:
56
Réponses:
57
Réponses:
58
Réponses:
59
Réponses:
60
Prise en main de
jupyter -
Panda
61
Préparer le jeu de données
62
Préparer le jeu de données
63
Préparer le jeu de données
64
Préparer le jeu de données
65
Préparer le jeu de données
66
Préparer le jeu de données
67
Préparer le jeu de données
68
Générer une data frame
69
Générer une data frame
70
Identifier les caractéristiques d’une data frame
71
Identifier les caractéristiques d’une data frame
72
Identifier les caractéristiques d’une data frame
73
Identifier les caractéristiques d’une data frame
74
Identifier les caractéristiques d’une data frame
75
Naviguer dans le data frame
76
Naviguer dans le data frame
77
Naviguer dans le data frame
78
Créer et supprimer une colonne
79
Créer et supprimer une colonne
80
Créer et supprimer une colonne
81
Renommer une colonne
82
Trier un data frame
83
Trier un data frame
84
Exercice
Nous allons travailler à présent sur un fichier de prêts immobiliers.
Chaque ligne correspond à un prêt qui a été accordé à un client. Nous avons les
informations suivantes :
• la ville et le code postale de l’agence où le client a contracté le prêt
• le revenu mensuel du client
• les mensualités remboursées par le client
• la durée du prêt contracté, en nombre de mois
• le type de prêt
• et enfin le taux d’intérêt
Votre rôle va être de modifier ce jeu de données pour calculer différentes variables
nécessaires pour identifier les clients qui sont à la limite de leur capacité de
remboursement et déterminer les bénéfices réalisées par la banque.
85
Exercice
Avant de commencer à traiter les données, importons les librairies nécessaires:
https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets.csv 86
Exercice
87
Exercice
88
Exercice
89
Corrigé
90
Corrigé
91
Corrigé
92
Agréger plusieurs lignes
93
Agréger plusieurs lignes
94
Agréger plusieurs lignes
95
Agréger des lignes et des colonnes
96
Agréger des lignes et des colonnes
97
Exercice
98
Exercice
Avant de commencer, préparons notre jeu de données :
99
Exercice
100
Exercice
101
Exercice
102
Corrigé
103
Corrigé
104
Corrigé
105
Prise en main de
jupyter -
Matplotlib
106
Découvrir matplotlib
107
Découvrir matplotlib
108
Tracer un nuage de points
109
Tracer un nuage de points
110
Tracer un diagramme circulaire
111
Tracer un diagramme circulaire
112
Tracer un diagramme à barres
113
Tracer un diagramme à barres
114
Tracer un histogramme
115
Tracer une courbe
116
Tracer une courbe
117
Tracer une courbe
118
Tracer plusieurs graphiques sur une même fenêtre
119
Tracer plusieurs graphiques sur une même fenêtre
Tracer sur la même figure le taux en fonction du revenu pour les villes de Toulouse et Paris :
120
Tracer plusieurs graphiques sur une même fenêtre
Tracer sur la même figure le taux en fonction du revenu pour toutes les villes :
121
Exercice
122
Exercice
https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets_final.csv
123
Exercice
124
Exercice
125
Exercice
126
Exercice
127
Exercice
128
Exercice
129
Exercice
130
Corrigé
131
Corrigé
132
Corrigé
133
Corrigé
134
Corrigé
135