Chap 2 - ISIL
Chap 2 - ISIL
Chap 2 - ISIL
Module 8
Bases de Données Avancées
Chapitre II
Business Intelligence
Conception de data warehouse
Pr: A. Guezzaz
Année: 2019 -2020
I.Introduction au Business Intelligence (BI)
1. Introduction à l’aide de décision
2. Transactionnel vers Décisionnel
3. Entrepôts de données (DW) Data Warehouse
4. Cycle de vie d’un projet BI
3
Introduction à l’aide de décision
Décider des actions à conduire,
Contrôle l’exécution des travaux,
Analyse l’environnement,
Système de Pilotage
Contrôle le système opérant,
Collecter,
Mémoriser,
Traiter, Système
d’INFORMATION
Distribuer l’information.
Besoin
Améliorer les performances décisionnelles de l'entreprise:
Décisions stratégiques,
Décisions rapides.
Pourquoi ?
Besoin de réactivité face à la concurrence.
Qui ?
Les décideurs (non informaticiens).
Comment ?
En répondant aux demandes d’analyse.
5
Transactionnel vers Décisionnel
Caractéristiques du Transactionnel
« Le système transactionnel est généralement une base de données,
développée par application, stockant les données courantes d’une
organisation. Il n’y a pas de données d’archives dans les systèmes
transactionnels».
9
Transactionnel vers Décisionnel
Contraintes du Transactionnel
Nombre élevé de tables donc nombre élevé de jointures.
Élaboration complexe des requêtes.
Temps de traitement long.
Les processus de décision nécessitent :
11
Entrepôts de données (DW)
13
Entrepôts de données (DW)
Data Marts (DM)
Data Marts: sous-ensembles d’un entrepôt de données destinés à
répondre aux besoins d’un secteur ou d’une fonction particulière
ou d’un utilisateur particulier.
Moins de données que DW et plus facile à comprendre et à
manipuler.
Amélioration des temps de réponse.
Utilisateurs plus ciblés: DM plus facile à définir.
DMs
Service Marketing
DW de
l’entreprise
DM
Service Ressources Humaine
14
Cycle de vie d’un projet BI
15
Cycle de vie d’un projet BI
Planification du projet
La planification aborde la définition et l’extension du projet BI.
17
Cycle de vie d’un projet BI
Modélisation dimensionnelle
C'est la définition des besoins qui détermine quelles sont les
données requises pour répondre aux besoins d'analyse des
utilisateurs.
Déploiement
Une planification est indispensable pour gérer le déploiement:
le support utilisateur,
20
Cycle de vie d’un projet BI
21
Conception d’un entrepôt de données (DW)
22
Analyse de l’entrepôt de données
Flux entrant
Extraction: multi-source, hétérogène,
Transformation: filtrer, trier, homogénéiser, nettoyer,
Chargement: insertion des données dans l’entrepôt.
Flux sortant:
Mise à disposition des données pour les utilisateurs finaux
(Restitution).
Zone de préparation
Zone temporaire de stockage des données extraites pour faire
le nettoyage, la normalisation et d’autres transformations.
Données souvent détruites après chargement dans le DW.
23
Analyse de l’entrepôt de données
Zone de stockage (DW)
On y transfère les données nettoyées.
Zone de présentation
Accès aux données contenues dans DW, elle peut contenir
des outils d’analyse programmés: Rapports, Requêtes…
24
Analyse de l’entrepôt de données
25
Analyse de l’entrepôt de données
26
Analyse de l’entrepôt de données
Table de Fait
Un fait est la plus petite information analysable.
Additif.
Semi additif.
Non additif.
28
Analyse de l’entrepôt de données
Table de Fait
Additif: additionnable suivant toutes les dimensions.
• Quantités vendues, chiffre d’affaire.
• Peut être le résultat d’un calcul: Bénéfice = montant vente – coût
Semi additif: additionnable suivant certaines dimensions.
• Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates.
Sommation des comptes: on connaît ce qu’on possède en
banque.
30
Analyse de l’entrepôt de données
Table de Fait
Mesures: valeurs numériques des mesures désirées.
Exemple:
ti + Finesse
Taille de l’entrepôt
32
Analyse de l’entrepôt de données
Table de dimension
Une dimension est une table qui représente un axe d'analyse selon
lequel on veut étudier les faits qui donnent des renseignements
nécessaires à la prise de décision.
Composante 2 : Atributs.
Produit
Clé Naturelle Code_Prd
(clé artificielle)
Designation
Description
Prix_uni
Table d'une
BD de production
Table d'une
BD multidimensionnelle 35
Analyse de l’entrepôt de données
Table de dimension
Remplacer la clé naturelle en utilisation: ce n'est pas elle qui est
utilisée pour les jointures avec les tables de faits et de dimension.
Clé de substitution
Atributs
(descripteurs )
37
Analyse de l’entrepôt de données
Table de dimension
Date effective: la date de création d‘un enregistrement.
Clé de substitution
Atributs (descripteurs )
Clés spéciales
38
Analyse de l’entrepôt de données
Table de dimension
Dimension Temps
Clé temps (CP)
Commune à l’ensemble des DW.
Jour
Reliée à toute table de faits. Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
39
Analyse de l’entrepôt de données
Table de dimension
Temps:
40
Modélisation de l’entrepôt de données
Nouvelle Modélisation
41
Modélisation de l’entrepôt de données
Modèle en étoile (Star Schema)
Le schéma en étoile tire son nom de sa configuration:
• Une table de fait centrale et des dimensions
• Les dimensions n’ont pas de liaison entre elles.
Avantages:
• Facilité de navigation.
• Nombre de jointures limité.
Inconvénients:
• Redondances dans les dimensions
• Alimentation complexe.
42
Modélisation de l’entrepôt de données
Modèle en étoile (Star Schema)
43
Modélisation de l’entrepôt de données
Modèle en étoile (Star Schema)
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin nom
ID magasin code
description Table de faits Achat
prix
ville ID client
poids
surface ID temps
groupe
… ID magasin
famille
ID région
…
ID produit
Quantité achetée
Dimension Region Montant des achats Dimension Client
ID région ID client
pays nom
description prénom
district vente adresse 44
…. …
Modélisation de l’entrepôt de données
Modèle en flocon de neige (Snowflack Schema)
Une table de fait et des dimensions décomposées.
45
Modélisation de l’entrepôt de données
Modèle en flocon de neige (Snowflack Schema)
46
Modélisation de l’entrepôt de données
Modèle en flocon de neige (Snowflack Schema)
Dimension produit
Dimension Temps ID produit
ID temps ID groupe
annee nom
mois code
Dimension Magasin jour prix Dimension groupe
ID magasin … poids ID groupe
description … ID famille
ville Table de faits Achat nom
surface ID client …
… ID temps
ID magasin
Dimension Region ID région
Dimension Famille
ID région ID produit
ID famille
ID division vente Quantité achetée
nom
pays Montant des achats
…
description
…. Dimension Client
Dimension ID client
Division vente nom
ID division vente prénom
description adresse 47
…. …
Modélisation de l’entrepôt de données
Modèle Mixte (Mixed Schema)
Il s’agit d’une structure qui résulte de la meilleure combinaison des
deux types de modèles précédents.
48
Modélisation de l’entrepôt de données
Modèle en constellation (Fact constellation Schema)
Il consiste à fusionner plusieurs modèles en étoile qui peuvent
utiliser des dimensions communes.
49
Modélisation de l’entrepôt de données
Modèle en constellation (Fact constellation Schema)
50
Evolution des dimensions
Dimensions à évolution lente
Dimensions à évolution lente (SCD: Slowly Changing Dimension)
Jeux éducatifs
52
Evolution des dimensions
Dimensions à évolution lente
Ajout d’un nouvel enregistrement:
• Utilisation d’une clé de substitution.
53
Evolution des dimensions
Dimensions à évolution lente
Ajout d’un nouvel attribut:
• Valeur origine /valeur courante.
• Avoir deux visions simultanées des données:
Voir les données récentes avec l’ancien attribut.
Voir les données anciennes avec le nouvel attribut.
• Voir les données comme si le changement n’avait pas eu lieu.
• Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires
54
Evolution des dimensions
Dimensions à évolution rapide
• Subit des changements très fréquents (par ex tous les mois) des
attributs dont on veut garder l’historique.
• Solution:
55
Evolution des dimensions
Dimensions à évolution rapide
Exemple :
Si l'on veut préserver l'historique des changements d'adresse
dans la dimension Clients dans un pays où 70% de la
population déménage une fois par année (1er juillet par
exemple au Canada).
56
Evolution des dimensions
Dimensions à évolution rapide
Dim client
Faits Clé_client
Dim client
Nom Faits
Clé_client Clé_client
… Prénom Clé_client
Nom
Adresse Clé_démog
Prénom
Date_naissance
Adresse
…
Date_nais
… Dim_démographique
Revenus Clé_démog
Niveau_étude Revenus
Nb_enfants Niveau_étude
Statut_marital Nb_enfants
Profil_financier Statut_marital
Profil_achat Profil_financier
57
Profil_achat
fin
58