Paragraph

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 135

Intelligence

Artificielle
Matière : Intelligence artificielle
Classe : MRMI
06 70 40 07 23
Professeur : Zakaria MIGHOUAR [email protected]
Année Universitaire : 2022-2023

1
Chapitre 2:

Data science avec python


Matière : Intelligence artificielle
Classe : MRMI
06 70 40 07 23
Professeur : Zakaria MIGHOUAR [email protected]
Année Universitaire : 2022-2023

2
Introduction

Chacune des étapes du travail du Data Scientist possède des outils


spécifiques associés. Ce chapitre a pour vocation de vous présenter :

▪ les choix les plus populaires pour chacun des domaines, et surtout des
critères qui vous permettront de choisir selon votre propre
problématique et vos contraintes.

▪ les bonnes pratiques et les connaissances fondamentales qui vous


aideront à effectuer vos analyses de données à l'aide de Python.

3
R ou Python ?

Deux langages dominent sur le marché de la Data Science:

▪ Langage R, créé en 1993, est le langage historique des statisticiens, métier qui
représente l’ancêtre de la Data Science. Les fonctionnalités utiles au bon
développement de votre projet et des interfaces pour (quasiment) tous les outils
que nous évoquerons par la suite sont disponible dans ce langage.

▪ Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le
langage de référence pour tous les ingénieurs qui veulent effectuer rapidement
des implémentations d’algorithmes mathématiques, entre autre de Machine
Learning.

4
R ou Python ?

Quel est le langage le plus recherché sur Google ? 5


R ou Python ?

Pour faire le choix du langage adapté :

▪ Si le projet est fortement orienté en Machine Learning, faites du Python ! Tous


les frameworks (librairies) existants, les nouveaux algorithmes, sont écrits en
Python. La communauté est aussi beaucoup plus importante sur internet pour
ces thématiques.

▪ Si le projet est orienté vers un métier où les statistiques jouent un plus grand
rôle (pour faire des analyses exploratoires, des corrélations, etc.), il est plus
judicieux de travailler sur R qui permet d’être très efficace sur ce terrain.
Notamment pour un data analyst, R constitue un très bon environnement de
travail.

6
La récupération des données

La première étape est donc de récupérer les données. Cela dépend fortement de
votre problématique :

▪ une voiture autonome générera des données à partir de ses capteurs,

▪ une entreprise de trading récupérera les données sur des outils de marché
financier (disponible sur internet),

▪ une entreprise faisant de la production récupérera ses données à partir de


l’historique des pannes, historique des ventes, etc.

etc.

7
Le nettoyage et l'exploration des données

En Python, l’écosystème Scipy est universellement utilisé avec ses librairies :

▪ pandas pour créer des tableaux (ou "Dataframe") à partir de vos données brutes ;

▪ numpy pour gérer des matrices ;

▪ matplotlib pour générer des graphiques ;

▪ iPython pour les feuilles de calculs…

▪ Bien sûr, il en existe encore d'autres !

8
Le nettoyage et l'exploration des données

Utilisation de la librairie Maplotlib pour générer un graphique


9
La phase de modélisation (et l'évaluation)

Ici, on rentre dans le vif du sujet pour le Data Scientist et pour ce cours, c’est à
dire le Machine Learning et le travail de modélisation.

À nouveau, la guerre fait rage. Torch, Theano, Caffe, mais surtout Tensorflow et
Scikit-Learn sont les librairies les plus utilisées pour la modélisation.

Dans ce cours, le choix a été fait d’utiliser Scikit-learn, car il est plus facile d’accès
et implémente directement et de manière didactique les différents algorithmes
d’apprentissage automatique que nous allons étudier.

10
Questions:

11
Questions:

12
Questions:

13
Réponses:

14
Réponses:

15
Réponses:

16
Prise en main de
jupyter -
Arrays
17
Notebook jupyter

Jupyter Notebook est une application très populaire pour l’ensemble des personnes travaillant
dans l’analyse de données. Il permet à une équipe de pouvoir créer et partager des rapports
sous forme de document/code, facilitant ainsi la productivité et la collaboration.

Pour démarrer un notebook Jupyter, vous avez deux options:

▪ Soit vous souhaitez travailler sur votre propre machine et dans ce cas-là, il faudra installer
Python et Jupyter – via la distribution Anaconda, par exemple.

▪ Soit vous pouvez utiliser un notebook directement hébergé dans le cloud : le plus connu en
la matière est indéniablement Google Collaboratory.

18
Listes - Arrays

19
Listes - Arrays

20
Arrays Numpy

21
Arrays Numpy

22
Arrays Numpy

23
Arrays Numpy

24
Arrays Numpy

25
Arrays Numpy

26
Sélectionner des éléments dans un array

27
Sélectionner des éléments dans un array

28
Sélectionner des éléments dans un array

29
Sélectionner des éléments dans un array

30
Sélectionner des éléments dans un array

31
Sélectionner des éléments dans un array

32
Sélectionner des éléments dans un array

33
Utiliser les méthodes d’array

34
Utiliser les méthodes d’array

35
Exercice
Dans cet exercice, il vous est demandé de créer un array avec plusieurs valeurs de résistances
élastiques en MPa (100 ; 125.1 ; 320 ; 214.87 ; 411 ; 297 ; 380). L’objectif est de choisir le
matériau fournissant la valeur de coefficient de sécurité supérieur et se rapprochant le plus
de 2. Pour ce faire, suivez le étapes suivantes:
1. Créer l’array que vous allez nommé resistance_elastique
2. Sachant que la contrainte maximale équivalente subie par le matériau est de 182 MPa,
créer un array nommé coefficient_de_securite qui contient les coefficients de sécurité
obtenu pour chaque matériau
3. Remplacer tout les éléments de la liste coefficient_de_securite ne répondant pas à cette
condition par 1000.
4. Donner l’indice de l’élément ayant la plus petite valeur
5. Expliquer la raison du choix de la condition émise dans la question 3. 36
Créer un tableau avec NumPy

37
Créer un tableau avec NumPy

38
Créer un tableau avec NumPy

39
Créer un tableau avec NumPy

40
Analogie entre les arrays et les matrices

41
Analogie entre les arrays et les matrices

42
Analogie entre les arrays et les matrices

43
Exemple
Déclarer les listes hugo, richard, etc tout en les regroupant dans un tableau « tableau » en suivant
la manipulation suivante:

44
Exemple
Exécuter les instructions suivantes en commentant a chaque fois le résultat obtenu:

45
Exercice
Pour cette tâche, nous travaillons toujours sur les mêmes 10 clients de l’exemple du
slide précédent, mais nous avons cette fois trois informations à disposition sur
chacun d’eux :
▪ le revenu mensuel
▪ l'âge du client
▪ le nombre d’enfants à charge

L’objectif va être de créer un tableau NumPy à partir de ces informations et de


répondre aux différentes demandes formulées par notre service prêt en manipulant
ce tableau avec les différentes techniques présentées tout au long de ce chapitre.

46
Exercice

47
Exercice
1- A partir de cette liste, créez un array que vous nommerez data :

2- Paul souhaiterait contracter un prêt immobilier :

affichez les informations qui lui sont relatives. Pour rappel, Paul correspond à la 5ème
ligne de nos données

3- Calculez ses mensualités maximales, en sachant que le taux d'endettement maximum


est de 35% (il ne pourra donc pas rembourser par mois plus de 35% de son revenu).

4- Un nouveau client vient d'arriver, dont les informations sont les suivantes :
louise = [1900, 31, 1], Ajoutez ces informations à la suite de votre array data

5- Stockez enfin l'ensemble des informations de salaire de notre clientèle dans une
variable revenus
48
Questions:

49
Questions:

50
Questions:

51
Questions:

52
Réponses:

53
Réponses:

54
Réponses:

55
Réponses:

56
Réponses:

57
Réponses:

58
Réponses:

59
Réponses:

60
Prise en main de
jupyter -
Panda
61
Préparer le jeu de données

62
Préparer le jeu de données

63
Préparer le jeu de données

64
Préparer le jeu de données

65
Préparer le jeu de données

66
Préparer le jeu de données

67
Préparer le jeu de données

68
Générer une data frame

69
Générer une data frame

70
Identifier les caractéristiques d’une data frame

71
Identifier les caractéristiques d’une data frame

72
Identifier les caractéristiques d’une data frame

73
Identifier les caractéristiques d’une data frame

74
Identifier les caractéristiques d’une data frame

75
Naviguer dans le data frame

76
Naviguer dans le data frame

77
Naviguer dans le data frame

78
Créer et supprimer une colonne

79
Créer et supprimer une colonne

80
Créer et supprimer une colonne

81
Renommer une colonne

82
Trier un data frame

83
Trier un data frame

84
Exercice
Nous allons travailler à présent sur un fichier de prêts immobiliers.

Chaque ligne correspond à un prêt qui a été accordé à un client. Nous avons les
informations suivantes :
• la ville et le code postale de l’agence où le client a contracté le prêt
• le revenu mensuel du client
• les mensualités remboursées par le client
• la durée du prêt contracté, en nombre de mois
• le type de prêt
• et enfin le taux d’intérêt

Votre rôle va être de modifier ce jeu de données pour calculer différentes variables
nécessaires pour identifier les clients qui sont à la limite de leur capacité de
remboursement et déterminer les bénéfices réalisées par la banque.
85
Exercice
Avant de commencer à traiter les données, importons les librairies nécessaires:

https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets.csv 86
Exercice

87
Exercice

88
Exercice

89
Corrigé

90
Corrigé

91
Corrigé

92
Agréger plusieurs lignes

93
Agréger plusieurs lignes

94
Agréger plusieurs lignes

95
Agréger des lignes et des colonnes

96
Agréger des lignes et des colonnes

97
Exercice

98
Exercice
Avant de commencer, préparons notre jeu de données :

99
Exercice

100
Exercice

101
Exercice

102
Corrigé

103
Corrigé

104
Corrigé

105
Prise en main de
jupyter -
Matplotlib
106
Découvrir matplotlib

107
Découvrir matplotlib

108
Tracer un nuage de points

109
Tracer un nuage de points

110
Tracer un diagramme circulaire

111
Tracer un diagramme circulaire

112
Tracer un diagramme à barres

113
Tracer un diagramme à barres

114
Tracer un histogramme

115
Tracer une courbe

116
Tracer une courbe

117
Tracer une courbe

118
Tracer plusieurs graphiques sur une même fenêtre

119
Tracer plusieurs graphiques sur une même fenêtre
Tracer sur la même figure le taux en fonction du revenu pour les villes de Toulouse et Paris :

120
Tracer plusieurs graphiques sur une même fenêtre
Tracer sur la même figure le taux en fonction du revenu pour toutes les villes :

121
Exercice

122
Exercice

https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets_final.csv
123
Exercice

124
Exercice

125
Exercice

126
Exercice

127
Exercice

128
Exercice

129
Exercice

130
Corrigé

131
Corrigé

132
Corrigé

133
Corrigé

134
Corrigé

135

Vous aimerez peut-être aussi