Rapport Wassim Krout Final
Rapport Wassim Krout Final
Rapport Wassim Krout Final
INFORMATIQUE
Wassim Krout
i
Remerciements
Au terme de ce projet de fin d’études, nous remercions en premier lieu, le bon Dieu de nous
avoir donner la force et le courage de le mener à terme.
Avant d’entamer ce rapport, nous adressons tout d’abord à Madame Wafa Belhadjammar,
notre encadrante académique pour son aide et ses conseils tout au long de ce projet. Nous avons
eu le grand plaisir de travailler sous votre direction.
Nos vifs remerciements s’adressent à Monsieur Jalel Besbes, le directeur général de DELTA
SOFT INTERNATIONAL pour avoir eu l’amabilité de m’accueillir au sein de son équipe.
Nous remercions vivement Mesdames et Messieurs les membres du jury d’avoir accepté
d’évaluer notre projet.
ii
Table des matières
Introduction générale 1
iii
TABLE DES MATIÈRES
iv
TABLE DES MATIÈRES
6 Analyse prédictive 80
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2 Etude prédictive au niveau de ventes par jour . . . . . . . . . . . . . . . . . . 81
6.2.1 La fonction ‘train_test_split’ . . . . . . . . . . . . . . . . . . . . . . . 83
6.2.2 Le forêt aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2.3 La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2.4 L’arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2.5 Interprétation et choix de modèle . . . . . . . . . . . . . . . . . . . . 91
6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Conclusion générale 92
Webographie 93
v
Table des figures
vi
TABLE DES FIGURES
vii
TABLE DES FIGURES
viii
LISTE DES TABLEAUX
ix
Liste des abréviations
BI = Business Intelligence.
ETL = Extract-Transform-Load.
x
Introduction générale
L’informatique décisionnelle est un sujet en pleine évolution, interprétée par Hans Peter
Luhn comme « un système automatique pour diffuser des informations aux différentes parties
prenantes d’une organisation industrielle, scientifique ou gouvernementale ».
Tout d’abord, notons bien que la technologie a connu une grande évolution principalement
dans le monde de l’informatique et surtout au niveau de la collecte et du traitement des données,
ces derniers sont volumineux et incompréhensibles. Il existe un véritable besoin pour rendre ces
informations lisibles pour une vision claire de leurs données. Ces différents problèmes montrent
le besoin de l’utilisation de l’informatique décisionnelle ou Business Intelligence « BI » qui
permet aux entreprises d’analyser les données pour améliorer leurs prises de décisions.
Dans ce contexte, s’inscrit notre projet de fin d’étude intitulé « Mise en place d’une solution
d’aide à la décision pour le client FnacDarty » au sein de l’entreprise « DELTA SOFT » pour
les modules de vente, achat et stock.
Ceci sera pour le compte d’une société dans la grande distribution afin de fournir des
informations de qualités aux décideurs sous forme de tableaux de bord facilement
compréhensibles et significatifs avec des axes d’analyses et des indicateurs clés de performances
qui répondent aux besoins de l’entreprise.
Le présent rapport synthétise tout le travail que j’ai réalisé au cours de mon projet s’articule
autour de six chapitres :
• Chapitre 1 : « Cadre général du projet » qui consiste à mettre le projet dans son contexte,
nous allons commencer par présenter l’organisme d’accueil, par la suite nous allons
1
INTRODUCTION GÉNÉRALE
• Chapitre 3 : « Architecture et environnement technique » qui fera l’objet d’une étude sur
l’architecture technique ainsi qu’une présentation de l’outil sur lequel porte notre projet.
• Chapitre 6 : « Analyse prédictive » qui illustrera la phase d’analyse prédictive que nous
allons ajouter.
2
Chapitre
1
Cadre général du projet
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Présenation de l’organisme d’accueil . . . . . . . . . . . . . . . 4
1.2.1 Histoire : Naissance de l’entreprise DELTA GROUP . . . . . . 4
1.2.2 Equipe et valeur de l’entreprise . . . . . . . . . . . . . . . . . . 5
1.2.3 Les solutions de l’entreprise . . . . . . . . . . . . . . . . . . . . 5
1.3 Présentation du projet . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Etude de l’existant . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Méthodologie de travail . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Méthodologie de Ralph Kimball . . . . . . . . . . . . . . . . . 11
1.4.2 Méthodologie de Gimsi . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Choix de la méthodologie . . . . . . . . . . . . . . . . . . . . . 14
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
1.1 Introduction
Chaque organisation possède ses propres spécificités et se distingue des autres structures qui
l’entourent. Il y a donc lieu de la présenter sous ses différents aspects organisationnels
et fonctionnels afin d’avoir une idée précise sur la nature de ses activités, les relations, souvent
complexes, qu’elle peut entretenir avec son environnement aussi bien interne qu’externe, et dans
ce contexte nous allons découvrir un groupe solide et pérenne tel que DELTA GROUP. Dans
ce chapitre, nous commencerons par la présentation de la société et le cadre du projet, et par
la suite, nous exposerons le système actuel et nous mettrons en évidence la problématique du
travail à faire et la solution à réaliser , et enfin nous mettrons l’accent sur la méthodologie à
suivre.
DELTA GROUP est le partenaire informatique des PME PMI depuis plus de 15 ans et leader
dans le domaine d’intégration des systèmes d’information ERP en Tunisie et à l’international,
grâce au savoir-faire de ses équipes expertes et certifiées. Elle englobe les meilleures
technologies et compétences pour proposer des solutions innovantes et globales (Infrastructure,
ERP et Décisionnel) et Services (conseil, intégration, support, formation) à ses clients afin de
leur garantir un système d’information perfermant.[1]
4
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
DELTA GROUP fait quotidiennement sans possible pour garantir un haut niveau de service
à ses clients pour assurer le succès de ses projets et la satisfaction de ses clients. Elle met des
consultants métiers et des chefs de projets certifiés sur les dernières innovations dans le monde
des nouvelles technologies de l’information et de la communication. En outre, elle fidélise ses
collaborateurs à travers d’une politique rigoureuse de gestion de carrières qui s’inscrit dans
la durée. Le groupe fournit trois équipes riches de valeurs, de parcours et de compétences
complémentaires :
• Une équipe Consulting : Cette équipe est chargée du conseil, du diagnostic, des études
de cahiers de charge et de l’élaboration des schémas directeurs informatiques. Elle est
chargée aussi du pilotage et de la mise en place des solutions de gestion au niveau de
toutes les phases d’initialisation, de conception du nouvel environnement, de formation,
de paramétrage, d’accompagnement et d’optimisation.[2]
• Une équipe systèmes & réseaux : Cette équipe assure le conseil, le diagnostic du parc
matériel (hardware), l’installation, la configuration et la maintenance des solutions
informatiques mises en place chez nos clients. Les ingénieurs et techniciens sont par
ailleurs responsables de l’assistance et de la formation aux nouveaux administrateurs du
hardware, réseaux, systèmes d’exploitation, bases de données, etc...[2]
• Solution ERP : DELTA GROUP assure plusieurs types d’ERP via les produits Microsoft
Dynamics :
5
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
– Microsoft Dynamics AX : Est une solution de gestion d’entreprise qui offre plus de
1000 fonctionnalités nouvelles, standard ou sectorielles. Elle permet de développer
la valeur métier, l’agilité et la visibilité globale dans l’entreprise. Sa grande simplicité
permet une adoption plus large, tout en facilitant la maintenance et mises à jour.
• Solution métier : DELTA GROUP assure plusieurs solutions métier dans plusieurs
secteurs :
– FOODWARE 365 : Basée sur Microsoft Dynamics 365 Business Central permet de
gérer l’ensemble des activités de l’entreprise et d’automatiser les processus et de
travailler plus efficacement. Il offre également une couverture fonctionnelle adaptée
aux spécificités des différentes filières agroalimentaires (Fruits & légumes,
Fromagerie & laitage, Biscuiterie, Viande & Volaille, Boulangerie & Panification,
Prоduits dе la mеr, Cоnfisеriе, Plats cuisinés & prоduits élabоrés, etc....).
– ELVA DMS 365 : Basée sur Microsoft Dynamics 365 Business Central (NAV).........
et déployée chez les concessionnaires multi marques et permet de contrôler...............
et d’optimiser l’activité tout en augmentant.la fidélité des.clients.et.de.fournir.le....
meilleur.service...........................................................................
– LS Central : Une solution logicielle basée sur Microsoft Dynamics 365 Business.
Central, hautement configurable, économique et de qualité aide les détaillants,.les.
boutique.de.stations-service et les.services d’accueil.dans le.monde entier à.optimiser
6
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
– REFLEX WMS :.Apporte une réponse globale aux enjeux logistiques des entreprises...
dans.leurs.usines,.entrepôts et points de.vente. Elle contribue à gagner en performance,
qualité de service et réactivité,.afin de répondre aux attentes.de clients de plus en plus...
exigeants,.internationaux.et.connectés...................................................................................
– QlikView ,Qlik Sense : Permet aux utilisateurs métiers de prendre des décisions
adéquates en un temps réduit et de saisir immédiatement les nouvelles opportunités
et d’augmenter les performances.
7
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
Il est nécessaire de bien étudier le système existant et de dégager ses fonctionnalités déjà
développées, afin d’extraire les nouveaux besoins et de concevoir et mettre en place une nouvelle
solution convenable.
Notre Client FnacDarty suit ses activités via ERP Microsft Dynamic Nav. Donc ce dernier
permet d’obtenir une vue complète de l’activité en temps réel, peu importe où les données ont
été créées ou stockées. Ce système ERP spécifique à FnacDarty gère les opérations financières,
stock , achat, commerciales, et comptabilité ect . . .
Nous présentons les différentes opérations par des modules comme suit :
– Limites.de.crédit..............................................................................................................
8
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
– Budgеts d’achats.
– Prix d’achat.
– Réservation d’articles.
9
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
1.3.2 Problématique
Avant de commencer la première étape du projet, nous avons distingué que le système
existant ne répond pas complètement aux exigences des décideurs et ne satisfait pas les besoins
de notre client à cause du volume important de la quantité d’informations recherchées par les
utilisateurs , ce qui rend l’analyse et la prise de décision de plus en plus complexe. Ainsi, la
base de données commence à croitre et le nombre des utilisateurs augmente, les performances
deviennent vite catastrophiques. Des ensembles de données devenus si volumineux qu’ils
dépassent l’intuition et les capacités humaines d’analyse et même celles des outils informatiques
classiques de gestion de base de données ou de l’information.
Pour satisfaire les besoins de notre client ‘FnacDarty’, nous avons proposé une solution qui
permet de :
– Collecter les informations pour qu’elles soient accessibles aux utilisateurs des entrepôts
de données.
– Consоlider l’ensemble des dоnnées pоur lеs achats, lеs vеntеs еt lеs stоcks etc...
10
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
Dans cette partie nous aborderons les méthodologies de travail Kimball et Gimsi. Nous
examinerons également les facteurs qui différencient ces deux approches.
11
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
F IGURE 1.4: Cycle de vie de la solution décisionnelle selon l’approche Ralph Kimball
12
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
13
CHAPITRE 1. CADRE GÉNÉRAL DU PROJET
Après avoir étudier les deux approches, nous remarquons que la méthodologie de Gimsi
est une méthode coopérative basée sur la prise de décision répartie ce qui implique la présence
d’un très grand nombre de décideurs, chose que notre client FnacDarty ne détient pas, nous
avons décidé donc de travailler avec l’approche de Ralph Kimball qui est la plus adéquate pour
notre projet vu qu’elle s’adapte mieux à nos besoins en terme de compétences, de temps, de
coût et d’exigence en ce qui concerne l’intégration de données et vu qu’elle offre une meilleure
organisation du travail.
1.5 Conclusion
Dans ce chapitre, nous avons présenté l’entreprise d’accueil, le cadre général de notre projet
en déterminant l’étude de l’existant, la problématique, et la solution proposée et nous avons
terminé ce chapitre par la méthodologie adoptée pour la réalisation du projet.
14
Chapitre
2
Planification du projet et spécification
des besoins
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Planification du projet . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Identification des acteurs . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Spécification des besoins . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Identification des besoins fonctionnels . . . . . . . . . . . . . . 19
2.4.2 Identification des besoins non fonctionnels . . . . . . . . . . . . 20
2.5 Diagramme de cas d’utilisation . . . . . . . . . . . . . . . . . . 21
2.5.1 Diagramme de cas d’utilisation général . . . . . . . . . . . . . 21
2.5.2 Diagramme de cas d’utilisation raffiné . . . . . . . . . . . . . . 23
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
15
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
2.1 Introduction
Afin d’avoir une vue complète sur notre projet et sur les tâches, nous avons eu recours
au diagramme de Gantt qui va nous permettre d’avoir une bonne organisation du projet.
16
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Nous allons détailler la figure (2.2) dans un tableau qui va contenir les tâches et leurs dates
de début et de fin :
17
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Un acteur est une entité qui définit le rôle joué par un utilisateur ou par un système qui
interagit avec le système modélisé.
Au niveau de cette section, nous présentons les différents acteurs susceptibles d’interagir avec
le système. La mise en marche du système nécessite essentiellement deux acteurs :
• Développeur bi :
– La gestion de ETL, par l’extraction des données sources : résolution des problèmes
d’intégration et qualité des données depuis la source vers la cible, la transformation
des données par appliquation de filtres, élimination des doublons et réalisation des
jointures et enfin le chargement des données par la validation des règles d’insertion,
d’intégrité et de conformité des données et la correction des erreurs pour passer à la
phase du reporting.
– La création d’un nouveau rapport selon des kpi, pour gérer les tableaux de bords,
les modifier, les supprimer et les déployer.
• Décideur :
– Son rôle consiste à analyser la situation ainsi que les difficultés auxquelles fait face
son entreprise.
– Il gère les tableaux de bord par la consultation des rapports pour réagir et prendre
des décisions concernent la situation actuelle.
18
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
L’identification des besoins consiste à déterminer les objectifs du projet et à dégager les
fonctionnalités à réaliser. Ceci facilite la compréhension des tâches à mettre en œuvre.
• L’intégration des données : Pour faire l’intégration des données, nous devons assurer la
partie ETL (extraire, transformer et charger les données) à partir du fichier backup.bac
sous SQL server qui contient les détails nécessaires de système d’information (ERP
microsoft dynamics nav) de notre client et nous allons effectuer les transformations
nécessaires dans le but de concevoir un modèle dimensionnel qui va aider le client à avoir
une nouvelle structure de ses données suivant ses besoins.
• La réalisation des tableaux de bord : Après avoir créer le modèle dimensionnel nous
pouvons passer à la phase de restitution de données qui consiste à développer des tableaux
de bord sur plusieurs axes d’analyse et contenant des indicateurs clés de performance pour
répondre aux besoins du client.
– Calcul de chiffre d’affaires de l’année N et N-1, l’écart entre ces deux années et la
progression.
– Le panier moyen de l’année N et N-1, l’écart entre ces deux années et la progression.
19
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
– Répartition des ventes par division, catégorie article, catégorie produit et nom
d’article.
• Gestion de stock :
• Gestion d’achat :
– Calcul du montant des achats de l’année N et N-1 et l’écart entre ces deux années.
– Calcul de la quantité achetée de l’année N et N-1 et l’écart entre ces deux années.
– Evolution du montant des achats et de la quantité achetée par magasin et par division.
• L’extensibilité : L’application devra être extensible, c’est à dire qu’il pourra avoir une
possibilité d’ajouter ou de modifier de nouvelles fonctionnalités.
20
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
• L’ergonomie : Le thème adopté par l’application doit être inspiré des couleurs et du
logotype de l’entreprise et leurs site web. Les indicateurs de performance, les couleurs,
les images et les objets graphiques utilisés doivent être en harmonie pour que le produit
soit exploitable convenablement.
21
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Nous détaillerons le schéma de cas d’utilisation global pour chaque acteur , son rôle et une
description de chaque tâche. Le tableau ci-dessous illustre le diagramme de cas d’utilisation
global.
22
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
23
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Nous allons décrire ce diagramme par ce tableau qui illustre en détails le cas d’utilisation
de développeur Bi :
24
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Action Description
- Cоllecter les dоnnées à partir de sоurce de dоnnées (ERP,
Extraire les données
Sql Server).
Le diagramme de cas d’utilisation présenté dans cette figure (2.5) détaille le cas d’utilisation
de décideur :
25
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Nous allons décrire ce diagramme par ce tableau qui illustre en détails le cas d’utilisation
de décideur :
26
CHAPITRE 2. PLANIFICATION DU PROJET ET SPÉCIFICATION DES BESOINS
Action Description
Chоisir les axеs
- Déterminer les dimensiоns de datawarehоuse à analyser.
d’analyses
Analyser les tablеaux de - Faire des analyses pоur les tableaux de bоrd selоn les critères
bоrd prédéfinis.
Appliquer les filtrеs - Chоisir les filtrеs convеnables à la sоlutiоn sеlon lе bеsoin.
- Expоrtеr lеs dоnnées en plusieurs fоrmat ( Pdf, Excel,
Expоrter les dоnnées
Images ...)
2.6 Conclusion
Nous avons consacré ce chapitre à la présentation des tâches que nous allons effectuer
durant ce projet et nous avons les planifier à l’aide du diagramme de Gantt. Ensuite, nous avons
identifié les besoins fonctionnels et non fonctionnels du projet et les acteurs impliqués, ce qui
a permis de dégager les différents cas d’utilisation. Dans le chapitre suivant, nous présenterons
l’architecture que nous allons adopter et l’environnement technique.
27
Chapitre
3
Architecture et environnement technique
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Architecture technique du système . . . . . . . . . . . . . . . 29
3.3 Environnement technique du travail . . . . . . . . . . . . . . . 32
3.3.1 SQL Server Intégration Services (SSIS) . . . . . . . . . . . . . 33
3.3.2 Microsoft SQL server . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Power Bi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.4 StarUML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.5 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
28
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
3.1 Introduction
Pour mettre en place notre système, une source de données d’entreprise nous a été fournie en
entré, cette source est provenu de l’ERP Microsft Dynamic Nav qui permet de gérer l’ensemble
des processus de l’entreprise FnacDarty. Donc nous allons extraire les informations depuis ce
système d’information afin de faciliter le stockage et la manipulation de nos données. Nous
avons commencé par implémenter une base de donnée ODS (Operational data store) qui est
une base de données conçue pour centraliser les données issues de sources hétérogènes et qui
facilite le filtrage et la purge des données en éliminant les doublons et les redondances.
29
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
Par la suite nous avons effectué les transformations, les croisements des tables en utilisant l’ODS
comme source. Une fois les données extraites et transformées nous allons les intégrer dans notre
entrepôt de donnée puis les restituées sous forme de tableaux de bord et d’analyses faite avec
des algorithmes de data mining.
La figure ci-dessous illustre l’architecture globale de notre projet :
30
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
– Extraction (Extract) : L’extraction des données est la première des étapes . Il permet...
la lecture et l’extraction des données du système source. Il s’agit de collecter des...
attributs spécifiques.à partir des sources hétérogènes de données.Il Consiste à :...
Cibler.les.données à extraire,.appliquer des.filtres et.définir.la fréquence.de.................
chargement.........................................................................................................................
– Chargement (Load) : C’est l’étape d’injection des données dans la base de données...
du data Warehouse. Il permet de déplacer des données et de les charger dans des...
tables. La figure (3.3) permet de mieux comprendre le processus ETL qui est considéré
comme le plus important pour garantir la fiabilité des données chargées dans notre
entrepôt de données :
• La phase de modélisation :
31
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
– Cette phase permet de stocker les données sous une forme adaptée. Parce que les
requêtes.décisionnelles.sont.très.consommatrices.en ressources.machines,.les...........
données.doivent être.stockées dans.une base.spécialisée,.l’entrepôt.de.données.ou....
datawarehouse..Le datawarehouse se charge de stocker.et de centraliser les.données
en.vue.de la constitution.du système.d’information.décisionnel................................
• La phase de restitution :
• La phase d’analyse :
– Dans cette partie, l’utilisateur final intervient pour analyser les informations fournies
et on a recours à la data science pour utiliser des outils de statistique et pour faire
des prévisions ou des futures estimations avec l’implémentation datamining.
32
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
SSIS est un ETL (Extract Transform Load). Il permet de se connecter à n’importe quelle
source de données (Excel, fichier plat csv, XML, base de données, etc...). SSIS offre la possibilité
de collecter des données, de les transformer en données exploitables par les outils d’analyse
qui, elles-mêmes, vont alimenter une ou plusieurs bases de données dédiées (bases de données
relationnelles ou multidimensionnelles)[5]. Cet outil offre plusieurs avantages :
Est un système de gestion de base de données développé par la société Microsoft qui permet
aux utilisateurs la manipulation, le contrôle, le tri, la mise à jour, et l’exploitation des bases de
données. Parmi les fonctionnalités principales de SQL Server :
– Gеstiоn de la sécurité.
– Gеstiоn de la réplicatiоn.
33
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
Notre client FnacDarty utilise l’ERP Microsoft Dynamics NAV comme système
d’information opérationnel qui est liée à une base de données sous SQLSERVER, donc DELTA
SOFT nous a attribué une source de données de type backup.bac qui possède tous les détails
provenants de l’ERP. Au niveau de magasin de données ; nous avons utilisé SQL SERVER
comme SGBD car il est un système de gestion de base de données relationnelles et objet, il est
utilisé par DELTA SOFT.
3.3.3 Power Bi
Est une solution de Business Intelligence développée par Microsoft pour permettre aux
entreprises d’agréger, d’analyser et de visualiser les données en provenance de sources multiples.
Power Bi est un service analytique professionnel pour :
– Gagner du temps, dоnc de l’argent et se cоncentrer sur les tâches à valeur ajоutée.
Power Bi s’adresse à :
– Gagner du temps, dоnc de l’argent et se cоncentrer sur les tâches à valeur ajоutée.
34
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
3.3.4 StarUML
StarUML est un outil de modélisation logiciel open source qui utilise le frameworkUML
(Unified Modeling Language) pour la modélisation des systèmes logiciels. Il fournit plusieurs
types des diagrammes, de plus il est simple d’utilisation et ne nécessite pas beaucoup de
ressources système d’où c’est un logiciel qui se comporte comme une excellent option pour
une familiarisation à la modélisation.
Jupyter Notebook est un outil open source Créé à partir de Python en 2014, permettant
d’écrire du code ,des équations, des visualisations ou du texte et de le partager pour collaborer.
Grâce à ses nombreux avantages, ce bloc-note de calcul est devenu une référence incontournable
pour les Data Scientists.[6]
35
CHAPITRE 3. ARCHITECTURE ET ENVIRONNEMENT TECHNIQUE
3.4 Conclusion
Dans ce chapitre, nous avons détaillé l’architecture technique du notre projet en expliquant
ses différentes phases. Par la suite, nous avons défini l’environnement du travail et les
technologies adoptées pour la réalisation de notre projet.
36
Chapitre
4
Intégration et préparation des données
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Modélisation dimensionnelle . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Entrepôt de données . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Identification des dimensions . . . . . . . . . . . . . . . . . . . 41
4.2.3 Identification des tables de faits . . . . . . . . . . . . . . . . . 45
4.3 La conception physique du modèle dimensionnel . . . . . . . 50
4.4 Développement de la zone de préparation des données . . . 51
4.4.1 Les connexions aux bases de données sources et destinations . . 52
4.4.2 Alimentation de l’Ods (Operational Data Store) . . . . . . . . . 52
4.5 Alimentation de la Data Warehouse . . . . . . . . . . . . . . . 54
4.5.1 Alimentation des dimensions . . . . . . . . . . . . . . . . . . . 55
4.5.2 Alimentation des tables de faits . . . . . . . . . . . . . . . . . . 60
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
37
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
4.1 Introduction
Dans ce chapitre, nous abordons la partie intégration et préparation des données. Durant
cette partie, nous allons réaliser la branche du milieu du cycle de vie dimensionnel qui contient
la modélisation dimensionnelle, la conception du modèle physique et le développement des
éléments de la zone de préparation des données. Dans la figure ci-dessous, nous présentons
la phase de préparation des données de notre solution suivant le cycle de vie dimensionnel de
Ralph Kimball :
Nous arrivons à l’une des parties la plus importante dans ce projet, nous donnerons la
possibilité de comprendre nos besoins en tenant compte de ce que nous possédons comme
ressources (données). Bien évidemment, comme chaque entreprise, FnacDarty possède son
propre système d’information qui est l’Erp Microsft Dynamic Nav. Ce dernier contient des
bases de données volumineuses. Nous nous intéressons au module de vente, achat et stock et
nous allons manipuler seulement les tables qui comptent dans notre solution.
38
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
• Concept de fait :
Une table de faits est la table centrale d’un modèle dimensionnel, où les mesures de
performances sont stockées. Une ligne d’une table de faits correspond à une mesure.
Ces mesures sont généralement des valeurs numériques, additives, cependant des mesures
textuelles peuvent exister mais sont rares.
• Concept de dimension :
Les tables de dimension sont les tables qui raccompagnent une table de faits, elles
contiennent les descriptions textuelles de l’activité. Une table de dimension est constituée
de nombreuses colonnes qui décrivent une ligne. C’est grâce à cette table que l’entrepôt
de données est compréhensible et utilisable ; elles permettent des analyses en tranches
et en dés.
Les tables de dimension sont les tables qui raccompagnent une table de faits, elles
contiennent les descriptions textuelles de l’activité. Une table de dimension est constituée
de nombreuses colonnes qui décrivent une ligne. C’est grâce à cette table que l’entrepôt
de données est compréhensible et utilisable, elles permettent des analyses en tranches
et en dés.
– Modèle en étoile : Ce modèle se présente comme une étoile dont le centre n’est
autre que la table des faits et les branches sont les tables de dimension. La force
de ce type de modélisation est sa lisibilité et sa performance.La figure ci-dessous
montre le modèle en étoile :
39
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Modèle en flocon : Identique au modèle en étoile, sauf que ses branches sont éclatées
en hiérarchies. Cette modélisation est généralement justifiée par l’économie d’espace
de stockage, cependant elle peut s’avérer moins compréhensible pour l’utilisateur
final, et très couteuse en terme de performances. La figure ci-dessous montre le
modèle en flocon :
40
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Modèle en constellation : Ce n’est rien d’autre que plusieurs modèles en étoile liés
entre eux par des dimensions communes. La figure ci-dessous montre le modèle en
constellation :
Chaque table de dimension contient les attributs de la dimension en question plus une clé
primaire (c’est une clé d’entreprise) indépendante de ces attributs. Les axes d’analyse que nous
allons insérer dans notre modèle sont :
• DIM_Article.
• DIM_Fournisseur.
• DIM_Magasin.
• DIM_Entreprsie.
• DIM_Date.
DIM_Article :
Cette dimension contient les informations nécessaires liées à l’article :
41
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
Nb : La dimension Article contient la hiérarchie suivante : Division -> Catégorie Article ->
Catégorie Produit -> Nom Article.
42
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
DIM_Fournisseur :
Cette dimension contient des informations relatives au fournisseur :
DIM_Magasin :
Cette dimension contient des informations relatives au magasin :
43
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
DIM_Entreprise :
Cette dimension contient des informations relatives au entreprise :
44
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
DIM_Date :
Cette dimension contient des informations relatives à la date :
La table de fait contient l’ensemble des mesures relatives aux informations de l’activité à
analyser ainsi que toutes les clés primaires des dimensions correspondantes. Notre entrepôt de
données est composé de 4 tables de faits. Leurs structures de base dans notre cas se présentent
comme suit :
Table FaitCaisse :
Cette table correspond à l’enregistrement d’entrées et de sorties d’argent en espèces.
45
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
46
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
Table FaitEcritureValeur :
Cette Table contient toutes les opérations réalisées par l’entreprise qui sont enregistrés dans un
document nommé journal.
47
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
48
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
Table FaitStock :
Cette table contient les informations nécessaires à chaque modification de la quantité de stock.
49
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
Après avoir dégager les dimensions, les clés étrangères et les mesures de notre solution,
nous avons pu déduire un modèle de donnée performant en terme de calcul pour notre solution
afin de produire des rapports cohérents et précis. La Figure (4.13) présentera le modèle physique
de données pour notre datawarehouse.
50
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
51
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Chargеr еt еxtrairе dеs dоnnées depuis des sоurces de dоnnées et des dеstinatiоns.
Pour créer notre ETL (Extract, Transform, Load) à partir de la base de données sous SQL
Server, nous établissons les connexions nécessaires avec les bases sources et destinations (OLE
DB source et OLE DB destination). La figure (4.14) présentera l’interface de gestion de
connexions qui contient des différentes bases de données du serveur localhost.
52
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
53
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Extraire les données de source Fnac et source Darty de la base (DB_FnacDarty) à travers
le composant ‘OLE DB Source’.
– Ajouter une colonne ‘Entreprise’ à la source Fnac et à la source Darty qui contient le nom
de l’entreprise pour différencier les deux sources avec le composant ‘Colonne dérivé’.
– Fusionner les deux sources dans un seule table à travers le composant ‘Unir Tout’.
Suite à l’alimentation de la partie ODS, nous avons présenté dans cette étape l’alimentation
de notre Data Warehouse qui contient les dimensions et les tables de faits.
54
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Source OLE DB : Pour extraire les données de la source inclus dans la base de données
« ODS_FnacDartyFinal » , puis dans ce composant nous allons faire les
transformations nécessaires de (nettoyage ,agrégation, jointure ...) comme l’indique
le schéma ci-dessous :
55
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Colonne dérivé : Pour faire des transformations nécessaires sur les colonnes récupérés
selon notre besoins comme l’indique le schéma ci-dessous :
56
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Recherche (lookup) : Effectue des recherches en joignant des données dans des colonnes
d’entrée à des colonnes d’un ensemble de données de référence, donc on a utilisé ce
composant pour faire la correspondance et assurer l’existance de la clé étrangère de la
(dim_Fourinsseur) comme l’indique le schéma ci-dessous :
57
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Dimension à variation lente (Slowly changin dimension) : Ce composant est utilisé pour
insérer ou mettre à jour des enregistrements de données dans la table de dimension
Dim_article. Il compare les données source entrantes aux données de table de dimension
de destination existantes à l’aide d’une clé commerciale qui est le numéro d’article dans
notre cas. Si aucun enregistrement ne correspond, il sera traité comme une nouvelle ligne
dans notre table de dimension ou si l’enregistrement des correspondances, il compare
les attributs des attributs modifiés si les données semblent actualisées, puis met à jour
l’enregistrement ou dans le cas contraire, il reste tel quel dans notre table dim_Article.
58
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
59
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
– Source OLE DB : Pour extraire les données de la table source inclus dans la base de
données « ODS_FnacDartyFinal ».
– Destination OLE DB : pour faire le chargement des données dans la table de fait de la
base de Data Warehouse (DW_FnacDartyFinal).
60
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
61
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
62
CHAPITRE 4. INTÉGRATION ET PRÉPARATION DES DONNÉES
4.6 Conclusion
Durant ce chapitre, nous avons expliqué les étapes de modélisation dimensionnelle de notre
projet. Nous avons surtout mis l’accent sur les dimensions et les tables de fait qui constituent
notre modèle de données. Dans le chapitre suivant, nous allons attaquer la phase de restitution
des données.
63
Chapitre
5
Restitution des données
Sommaire
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Développement de l’application utilisateur . . . . . . . . . . . 65
5.2.1 Interface d’accueil . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.2 Suivi de vente pour les marchandises . . . . . . . . . . . . . . 66
5.2.3 Suivi de vente pour les services . . . . . . . . . . . . . . . . . . 70
5.2.4 Gestion de stock . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2.5 Gestion d’achat . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
64
CHAPITRE 5. RESTITUTION DES DONNÉES
5.1 Introduction
Après la partie intégration et préparation des données, nous passons à la phase de restitution
des données qui consiste à créer et à déployer les tableaux de bord de notre système décisionnel
pour notre Client FnacDarty . Dans la figure ci-dessous, nous présentons la phase de restitution
des données de notre solution suivant le cycle de vie dimensionnel de Ralph Kimball :
Cette partie se compose essentiellement des tableaux de bords réalisés et qui vont permettre
à notre client FnacDarty de suivre ces activités. Les tableaux de bords réalisés sont très clairs
et faciles à manipuler sous plusieurs formes de composants visuels comme les indicateurs, les
tableaux, des graphiques où ces tableaux de bords contiennent une partie qui définissent les
différents filtres et les axes d’analyses.
65
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant se focalise sur le suivi de vente de marchandise pour les
deux entreprises Fnac et Darty ensemble. Ce tableau de bord contient les visualisations
suivantes :
– Un graphique à barres empilées qui affiche le chiffre d’affaires des articles les plus
vendus.
66
CHAPITRE 5. RESTITUTION DES DONNÉES
– Une carte qui contient l’écart entre le chiffre d’affaire de l’année actuelle et le chiffre
d’affaires de l’année précédente.
Ce tableau de bord est interactif et subit plusieurs filtres :année, trimestre, jour, mois
et top N article.
Le tableau de bord suivant permet de suivre les ventes pour les marchandises de
l’entreprise Fnac. Ce tableau de bord contient ces visualisations :
67
CHAPITRE 5. RESTITUTION DES DONNÉES
panier moyen N -1 pour les catégories articles et les catégories produits de l’entreprise
Fnac.
– Une carte à plusieurs lignes qui possède les promotions de vente pour chaque division
d’article de l’entreprise Fnac.
– Une carte qui contient la marge de vente de l’année actuelle de l’entreprise Fnac.
– Une carte qui contient la marge de vente de l’année précédente de l’entreprise Fnac.
– Une carte qui contient la progression de chiffre d’affaires par rapport à l’année
précédente de l’entreprise Fnac.
– Une carte qui contient l’écart entre le chiffre d’affaires de l’année actuelle et le
chiffre d’affaires de l’année précédente de l’entreprise Fnac.
– Une carte qui contient l’écart entre la transaction de l’année actuelle et la transaction
de l’année précédente de l’entreprise Fnac.
– Une carte qui contient l’écart entre la marge de l’année actuelle et la marge de
l’année précédente de l’entreprise Fnac.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois
et semaine.
68
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant permet de suivre les ventes pour les marchandises de
l’entreprise Darty. Ce tableau de bord contient les mêmes visualisations que
l’entreprise Fnac :
69
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant se focalise sur le suivi de vente de service pour les deux
entreprise Fnac et Darty ensemble. Ce tableau de bord contient les visualisations suivantes :
– Une carte qui contient l’écart entre le chiffre d’affaire de l’année actuelle et le chiffre
d’affaires de l’année précédente.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois,
semaine et magasin .
70
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant permet de suivre les ventes pour les services de l’entreprise
Fnac. Ce tableau de bord contient ces visualisations :
– Une carte qui contient la marge de vente de l’année actuelle de l’entreprise Fnac.
– Une carte qui contient la marge de vente de l’année précédente de l’entreprise Fnac.
71
CHAPITRE 5. RESTITUTION DES DONNÉES
– Une carte qui contient l’écart entre le chiffre d’affaires de l’année actuelle et le
chiffre d’affaires de l’année précédente de l’entreprise Fnac.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois,
semaine et magasin.
Le tableau de bord suivant permet de suivre les ventes pour les services de l’entreprise
Darty. Ce tableau de bord contient les mêmes visualisations que l’entreprise Fnac :
72
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant se focalise sur la gestion de stock pour les deux entreprise
Fnac et Darty ensemble Ce tableau de bord contient les visualisations suivantes :
73
CHAPITRE 5. RESTITUTION DES DONNÉES
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois,
semaine et fournisseur.
– Une carte qui contient la quantité de stock de l’année actuelle pour l’entreprise Fnac.
– Une carte qui contient la quantité de stock de l’année précédente pour l’entreprise
Fnac.
74
CHAPITRE 5. RESTITUTION DES DONNÉES
– Une carte qui contient le montant de stock de l’année actuelle pour l’entreprise Fnac.
– Une carte qui contient le montant de stock de l’année précédente pour l’entreprise
Fnac.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois
et semaine.
75
CHAPITRE 5. RESTITUTION DES DONNÉES
Le tableau de bord suivant se focalise sur la gestion d’achat pour les deux entreprise Fnac
et Darty ensemble. Ce tableau de bord contient les visualisations suivantes :
76
CHAPITRE 5. RESTITUTION DES DONNÉES
– Une carte qui contient l’écart entre la quantité d’achat de l’année actuelle et la
quantité d’achat de l’année précédente.
– Une carte qui contient l’écart entre le montant d’achat de l’année actuelle et la
quantité d’achat de l’année précédente.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois,
semaine et fournisseur.
77
CHAPITRE 5. RESTITUTION DES DONNÉES
– Une carte qui contient la quantité d’achat de l’année actuelle l’entreprise Fnac.
– Une carte qui contient la quantité d’achat de l’année précédente l’entreprise Fnac.
– Une carte qui contient le montant d’achat de l’année actuelle l’entreprise Fnac.
– Une carte qui contient le montant d’achat de l’année précédente l’entreprise Fnac.
– Une carte qui contient l’écart entre la quantité d’achat de l’année actuelle et la
quantité d’achat de l’année précédente l’entreprise Fnac.
– Une carte qui contient l’écart entre le montant d’achat de l’année actuelle et la
quantité d’achat de l’année précédente l’entreprise Fnac.
Ce tableau de bord est interactif et subit plusieurs filtres : année, trimestre, jour, mois
et semaine.
78
CHAPITRE 5. RESTITUTION DES DONNÉES
5.3 Conclusion
Dans ce chapitre, nous avons résumé les différentes étapes de mise en œuvre de notre projet
en présentant les tableaux de bord qu’on a mis en place.
79
Chapitre
6
Analyse prédictive
Sommaire
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2 Etude prédictive au niveau de ventes par jour . . . . . . . . . 81
6.2.1 La fonction ‘train_test_split’ . . . . . . . . . . . . . . . . . . 83
6.2.2 Le forêt aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2.3 La régression logistique . . . . . . . . . . . . . . . . . . . . . . 86
6.2.4 L’arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2.5 Interprétation et choix de modèle . . . . . . . . . . . . . . . . . 91
6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
80
CHAPITRE 6. ANALYSE PRÉDICTIVE
6.1 Introduction
Après la partie restitution des données, nous allons implémenter une couche prédictive dans
notre projet décisionnel qui concerne les ventes par jour qui joue un rôle essentiel dans le
développement d’une entreprise.
Notre objectif est de prédire la somme des ventes par jour dans notre entreprise, pour ce faire
nous allons utiliser trois algorithmes de régression qui sont : la régression logistique, le forêt
aléatoire et l’arbre de décision. Par la suite, nous choisissons le meilleur modèle entre eux en
se basant sur des indicateurs de performance bien définis. Nous commençons par la préparation
d’un fichier CSV contenant deux colonnes, une colonne possède la date complète et une autre
colonne possède notre variable cible qui est la somme des ventes pour cette date.
Pour que nous pourrons implémenter les différents algorithmes, nous allons tout d’abord
appliquer la commande «pd.read_excel)» pour pouvoir lire et charger notre fichier. Dans la
figure ci-dessous nous illustrons le fichier PredictionVente.csv.
81
CHAPITRE 6. ANALYSE PRÉDICTIVE
– La deuxième étape consiste à changer le type de la colonne Date qui est de type ‘Object’
en type ‘date’ puis le divise en jour, mois et année pour appliquer nos algorithmes à des
valeurs numériques comme l’indique la figure ci-dessous :
– La troisième étape consiste à mettre notre colonne cible ‘sommeVente’ dans une autre
variable et le supprimer de la source principale pour faire nos analyses de prédiction
comme l’indique la figure ci-dessous :
82
CHAPITRE 6. ANALYSE PRÉDICTIVE
Après cette transformation nous allons implémenter une fonction qui s’appelle
‘train_test_split’ permettant de diviser les tableaux de données en deux sous-ensembles : Pour
les données d’entraînement et pour les données de test.
La variable ‘data’ contient toutes les colonnes de l’ensemble de données, à l’exception de la
colonne « SommeVente ». La variable ‘dataframeTarget’ contient les valeurs de la colonne
« SommeVente ».
• X_test : Il s’agit de la partie restante de 20% des variables indépendantes des données
qui ne seront pas utilisées dans la phase d’apprentissage et seront utilisées pour faire des
prédictions afin de tester la précision du modèle.
• Y_train : Il s’agit de la variable dépendant (SommeVente) qui doit être prédite par le
modèle.
• Y_test : Ces données ont des étiquettes de catégorie pour les données de test, ces
étiquettes seront utilisées pour tester la précision entre les catégories réelles et prévues.
83
CHAPITRE 6. ANALYSE PRÉDICTIVE
C’est une technique de machine learning facile à interpréter, stable, intuitif à comprendre,
rapide à entraîner, présente en général de bonnes précisions et qui peut être utilisée pour des
tâches de régression ou de classification.[7]
Nous illustrions ci-dessous les différentes instructions utilisées pour implémenter l’algorithme
forêt aléatoire :
D’après la figure :
– Nous allons prédire la somme des ventes et nous devons tester notre modèle sur la partie
de données destinée au test avec la commande predict() (Bloc B2, Figure 6.5).
– Nous vérifions la différence entre les valeurs réelles et les valeurs de prédictions (Bloc
B3, Figure 6.5).
84
CHAPITRE 6. ANALYSE PRÉDICTIVE
Après l’implémentation de l’algorithme nous devons tester la moyenne des erreurs ainsi que la
précision du modèle comme l’indique la figure ci-dessous :
– La moyenne des erreurs (Mean Absolute Error) Indique la différence moyenne entre
la valeur réelle des données et la valeur prédite par le modèle qui est dans notre cas
18587.66, cela signifie que notre algorithme a fait une prédiction, mais il a besoin de
beaucoup d’améliorations.
– La précision (Accuracy) : est une mesure pour évaluer notre modèle et donne la fraction
des prédictions que notre modèle a obtenues qui est 73.91 % dans notre cas qui n’est pas
un très bon score et il y a beaucoup de possibilités d’amélioration.
Enfin, nous traçons la différence entre la valeur réelle et la valeur prévue de notre modèle
comme l’indique la figure ci-dessous :
85
CHAPITRE 6. ANALYSE PRÉDICTIVE
F IGURE 6.7: La représentation graphique de la valeur réelle et prévue (Le forêt aléatoire )
La régression logistique est un modèle d’analyse multivariée, très utilisé dans le domaine du
machine learning qui étudie le rapport entre une variable principale et des variables explicatives.
Elle est dite logistique, quand il existe un lien de fonction logistique entre la variable d’intérêt
et les autres variables.[8]
Nous illustrions ci-dessous les différentes instructions utilisées pour implémenter l’algorithme
régression logistique :
86
CHAPITRE 6. ANALYSE PRÉDICTIVE
D’après la figure :
– Nous allons prédire la somme des ventes et nous devons tester notre modèle sur la partie
de données destinée au test avec la commande predict() (Bloc A2, Figure 6.8).
– Nous vérifions la différence entre les valeurs réelles et les valeurs de prédictions (Bloc
A3, Figure 6.8).
Nous pouvons mesurer la performance du modèle par le calcul de la moyenne des erreurs
ainsi que la précision du modèle comme l’indique la figure ci-dessous :
87
CHAPITRE 6. ANALYSE PRÉDICTIVE
– La moyenne des erreurs (Mean Absolute Error) dans notre cas est 20468.92 , cela signifie
que notre algorithme a fait une prédiction, mais il a besoin de beaucoup d’améliorations.
– La précision (Accuracy) : est 70.98 % dans notre cas qui n’est pas un très bon score et il
y a beaucoup de possibilités d’amélioration.
Enfin, nous traçons la différence entre la valeur réelle et la valeur prévue de notre modèle
comme l’indique la figure ci-dessous :
88
CHAPITRE 6. ANALYSE PRÉDICTIVE
C’est une des méthodes d’apprentissage supervisé les plus populaires pour les problèmes
de classification et de régression de données. Concrètement, un arbre de décision modélise une
hiérarchie de tests pour prédire un résultat.[9]
Nous illustrions ci-dessous les différentes instructions utilisées pour implémenter l’algorithme
arbre de décision :
D’après la figure :
– Nous allons prédire la somme des ventes et nous devons tester notre modèle sur la partie
de données destinée au test avec la commande predict() (Bloc C2, Figure 6.11).
– Nous vérifions la différence entre les valeurs réelles et les valeurs de prédictions (Bloc
C3, Figure 6.11).
89
CHAPITRE 6. ANALYSE PRÉDICTIVE
Après l’implémentation de l’algorithme nous devons tester la moyenne des erreurs ainsi que
la précision du modèle comme l’indique la figure ci-dessous :
– La moyenne des erreurs (Mean Absolute Error) dans notre cas est 379.3, cela signifie que
notre algorithme a fait une prédiction, et il possède moins des erreurs par rapport aux
deux modèles précédentes.
– La précision (Accuracy) : 99 % qui est un très bon score dans notre modèle
Nous traçons enfin la différence entre la valeur réelle et la valeur prévue de notre modèle
comme l’indique la figure ci-dessous :
90
CHAPITRE 6. ANALYSE PRÉDICTIVE
Afin de prédire la somme des ventes par jour, nous avons eu recours à trois algorithmes de
régression qui sont : la régression logistique, le forêt aléatoire et l’arbre de décision qui nous
permettent de constater en comparant les résultats de calcul des indicateurs de performance ( la
moyenne des erreurs et la précision ). Nous avons conclu que le modèle « Arbre de
décision » donne moins d’erreurs et des meilleurs résultats pour la précision par rapport à la
régression logistique et le forêt aléatoire.
D’où nous pouvons conclure que le modèle « Arbre de décision » est le plus approprié pour
prédire la somme des ventes de l’entreprise .
6.3 Conclusion
Dans ce dernier chapitre, nous avons implémenté une couche prédictive en illustrant les
interprétations nécessaires. Ce qui nous conduit à terminer ce rapport après avoir présenté les
différentes phases du cycle de vie dimensionnel.
91
Conclusion générale
Ce rapport est le résultat des travaux réalisés au cours de notre stage chez « DELTA SOFT
INTERNATIONAL ».
Dans cette période de stage, nous avons fourni une solution d’aide à la décision dédiée au
client FnacDarty dans le domaine de grande distribution pour le suivi des ventes , achat et stock
afin de faciliter la prise de décisions aux décideurs.
Notre travail s’est déroulé en six étapes : Dans une première partie nous avons dégagé la
problématique suivie par la proposition de la solution adéquate. Par la suite, après avoir choisi
la méthodologie de travail, nous avons spécifié les besoins qui nous ont permis de distinguer
les différents acteurs interagissant avec l’application et de déterminer les besoins fonctionnels
et non fonctionnels du système . Durant la troisième phase, nous avons défini l’architecture
de notre solution et les technologies utilisées. La quatrième phase est consacrée au modèle
physique et la partite ETL de l’application . Puis, tout au long de la cinquième phase, nous
avons réalisé les tableaux de bord finaux. Enfin, la dernière phase était consacrée à l’analyse
prédictive .
Notre projet de fin d’études satisfait les exigences de l’entreprise d’accueil. En termes de
perspective, nous pouvons améliorer notre système décisionnel en ajoutant un volet pour le
suivi financier et comptable de l’entreprise selon le besoin du décideur ainsi que nous pouvons
mieux développer la partie DataMining en travaillant sur la prédiction des résultats futurs pour
d’autres indicateurs.
92
Webographie
93
Résumé
Le présent rapport s’inscrit dans le cadre du projet de fin d’études au sein de l’organisme
d’accueil DELTA SOFT INTERNATIONAL pour l’obtention du diplôme national d’ingénieur
en informatique.
Notre projet consiste à la mise en place d’une solution d’aide à la décision dans le domaine
de grande distribution pour le client FnacDarty. Ce système doit permettre aux décideurs, à
travers les tableaux de bord, le contrôle et le suivi des ventes, achats et stocks.
Pour la réalisation de ce projet, nous avons couvert tout le processus BI. D’abord, nous
avons traité les données dans la phase ETL d’extraction, de transformation et de chargement
des données. Ensuite, nous avons généré notre modèle de donnée. À la fin, nous avons généré
les tableaux de bords et implémenté la couche prédictive.
Abstract
This report is part of the graduation project at the host organization DELTA SOFT
INTERNATIONAL to obtain the national diploma in computer engineering.
Our project consists on setting up a decision support solution in the field of mass distribution
for the client FnacDarty. This system must allow decision makers to control and monitor,
through dashboards, to control and monitor sales, purchases and stocks.
To realize this project, we covered the whole process BI . First, we processed the data in
the ETL phase by extracting, transforming and loading the data. Then, we generated our data
model. Finally, we generated the dashboards and implemented the predictive layer.