chp3 140227090832 Phpapp01
chp3 140227090832 Phpapp01
chp3 140227090832 Phpapp01
Business Intelligence
Chp3 – Modélisation des Données Décisionnelles
Modélisation Entité-Relation
Modélisation Multidimensionnelle
Conception des Data Warehouses : Etapes et Exemple
Modèles d’un Data Warehouse
Aspects Fondamentaux de la Modélisation Multidimensionnelle
Forme normale :
o Type de relation particulier entre les entités
o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des
données
o Permet de vérifier la robustesse de la conception des modèles de données pour éviter les
problèmes de redondance et de mise à jour du contexte
Dans le modèle OLTP, il existe 8 formes normales
o Elles s’emboitent les unes dans les autres
o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs
o On va présenter les 3 premières (les plus utilisées)
Problème Solution
Produit Fournisseur Produit Fournisseur
Téléviseur Vidéo SA, Hitek LTD Téléviseur Vidéo SA
Téléviseur Hitek LTD
Problème Solution
Pdt Fournisseur Adresse Produit Fournisseur Fournisseur Adresse
Fournisseur
Télé Vidéo SA 13 rue Midi Télé Vidéo SA Vidéo SA 13 rue Midi
Ecran Vidéo SA 13 rue Midi Ecran Vidéo SA Hitek LTD 25 rue Bond
Modèle complexe
o Plusieurs tables et jointures mises en œuvre
Risque de dégradation des performances
Pas de compréhension pour l’utilisateur
Données historiques difficilement représentées
Contraire aux objectifs du DW
Modélisation
Multidimensionn CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
elle
Méthode de conception logique qui vise à présenter les données sous une forme
standardisée, intuitive et qui permet des accès hautement performants
Permet de considérer un sujet analysé comme point dans un espace à plusieurs
dimensions
Les données sont organisées de manière à mettre en évidence:
o Le Sujet Le Fait
o Les perspectives de l’analyse La table des dimensions
Fait
o Sujet d’analyse
o Grain de mesure de l’activité
o Résultat d’une opération d’agrégation des données
o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une
valeur numérique
o Les mesures sont stockées dans la table des faits
Table des faits
o Clé composite référencent des clés primaires des tables de dimensions
o Contient les valeurs des mesures et des clefs vers les tables de dimensions traduit une relation
(n,m) entre les dimensions
o Plusieurs tables de fait dans un DW
o Les faits les plus utiles d’une table des faits sont numériques et additifs
Business Intelligence 27/02/2014
16
Faits – Table des Faits
Exemple:
o Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin
A en général plusieurs lignes et peu de colonnes
Produit
Contient une clé primaire unique qui correspond à l’un des
composants de la clé multiple de la table des faits Clé Produit
Description produit
Les tables dimensionnelles sont les points d’entrée de Description marque
l’entrepôt de données Description catégorie
Description type emballage
Les dimensions Taille emballage
o Thème (ou axe) selon lequel les données sont analysées Poids
Unité de mesure du poids
o En général sous forme textuelle Type de stockage
Type de durée rayon
o Parfois discrète (ensemble limité de valeurs): couleurs, parfums Largeur sur étagère
Hauteur sur étagère
A en général plusieurs colonnes et peu de lignes Profondeur sur étagère
Exemple 1:
o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la
région nord ayant des véhicules de 10 à 14 CV en avril 2004?
o Vue:
Faits Région
Frais de déplacement
Kilométrage
Employé Clé Employé
Nom Clé Véhicule
Par Employé (fonction) Fonction
Clé Région
Par Véhicule (puissance) Clé Mois Mois
Par Région Véhicule Frais de déplacement
Marque Kilométrage
Par Mois
Puissance
Exemple 2:
o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah
Ahmed à Hammamet durant le mois de Janvier?
Client Région
o Vue:
Nom
Marge Fonction
Produit Vue 1
Client
Région Produit Marge Mois
Mois
Nom
Exemple 3:
o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant
l’année 2011?
Marque
o Vue:
Revenu
Vue 2 Année
Marque
Pays Pays Revenu
Année
Exemple 4:
o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2
pour la région du nord ?
Gamme
o Vue:
Quantité Vue 3 Trimestre
Gamme
Trimestre Région Quantité
Région
Domaine
o Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
o Implique un vocabulaire commun et une manière commune d’appréhender l’information
Contexte
o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de
cohérence
o Caractérisé par une association unique, groupant tous les faits relevés dans les vues
En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on
détecte deux sortes d’éléments de rapprochement
o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues
o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes
aux autres.
o On peut intégrer ces vues en un seul contexte comportant une association porteuse des
faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes
Année
Vue 1
Trimestre
Produit Marge Mois
Mois Client
Marque
Marge
Vue 2 Année Revenu
Produit Quantité Région
Revenu
Pays
Gamme Pays
Gamme
Marque
Vue 3 Trimestre
Quantité
Région
27/02/2014
26
Hiérarchie
Région Pays
… Territoire
Client Catégorie
… Client
Business Intelligence 27/02/2014
28
Granularité
Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette
dimension
o Le grain de la dimension Temps est Mois
o Le grain de la dimension Territoire est Région
L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur
une ou plusieurs dimensions
Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu toutes les dimensions.
Marque
Territoire
Produit
Business Intelligence 27/02/2014
31
Modélisation Multidimensionnelle:
Caractéristiques
Lisibilité
Performances (chargement + exécution des requêtes)
Évolutivité
Redondances envisageables
o Pas de mise à jour en ligne (chargement uniquement)
o Pas de problème d’intégrité des données (contrôles à l’acquisition)
o Privilégier l’accessibilité plutôt que la normalisation
Requêtes ensemblistes, portant sur de gros volumes de données
o Projections, restrictions, regroupements, agrégations
o Adaptation du modèle pour des requêtes ad-hoc
o Techniques d’optimisation basées sur les chemins d’accès
Pré-calcul de certains agrégats + dé-normalisation
Id_produit Produit
Produit Id_produit
Id_produit
Id_région Id_produit
Id_mois région
Id_mois Id_client
Id_client Marge
Marge Revenu
Région
Revenu Quantité
Quantité
Business Intelligence 27/02/2014
38
Règles de Normalisation
Dimensionnelle
Règle 2:
o Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les
combinaisons dimensionnelles de ce contexte
o Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent
l’éclatement du contexte
Exemple:
Mois Id_produit Produit
Id_région Id_produit
Id_mois
La marge des achats ne correspond
Id_client
pas à un client et région. Il faut donc
Marge_ventes
l’intégrer dans un autre contexte
Marge_achats Région
Client
Revenu
Quantité
Business Intelligence 27/02/2014
39
Règles de Normalisation
Dimensionnelle
Règle 3:
o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension
Règle 4:
o Le graphe de chaque dimension doit être acyclique
o Conséquence: Il faut rompre les cycles
Produit Produit
Id_produit Id_produit
Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition
de conserver une définition unique
Pour ces raisons pratiques, il est préférable de représenter les contextes sous une
forme déconnectée
Modèles d’un
Data CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
Warehouse
Modèle en étoile
Modèle en constellation
Produit
Code_pdt Ventes
Description
Couleur Code_produit Magasin
Marque Code_période
Créateur Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour
Marque
Code_marque Produit
Nom
Description
Code_pdt Ventes
Description
Créateur
Couleur Code_produit Magasin
Code_marque Code_période Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour
Fournisseur Produit
Code_four Achats
Code_pdt Ventes
Description
Nom
Adresse Code_produit Couleur Code_produit Magasin
Marque Code_période
Catégorie Code_période Code_ma
Créateur
Code_fournisseur Code_Magasin g
Nom_mag
Ville
Période Unités_vendues
Unités_achetées Téléphone
Code_per Montant_ventes Manager
Montant_achats Année
Montant_remises Trimestre
Montant_coût
Mois
Jour
Modèle en étoile
o Taille de dimension plus grosse
Modèle en flocon de neige
o Jointures pour reconstruire
Modèle en étoile >> Modèle en flocon
o car tables de dimension << tables de fait
Aspects
Fondamentaux
de la CHP3: MODÉLISATION DES
MultiDimensionn
elle
Une mesure est un élément de donnée sur lequel portent les analyses, en fonction
des différentes dimensions
o Ex : coût des travaux, nombre d’accidents, ventes
Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre
de chacune des dimensions
Exemple :
o « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le
membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du
niveau « ville » de la dimension « découpage administratif »
Fait additif :
o Additionnable suivant toutes les dimensions
o Exemples: quantité vendue, chiffre d’affaire, coût
Fait semi-additif :
o Additionnable selon certaines dimensions
o Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients
(excepté sur la dimension produit)
Fait non-additif :
o Non additionnable
o Exemple: attribut ratio (marge brute = 1- Coût/CA)
tout entrepôt
Reliée toute table de fait
2 choix d ’implantation
o Type SQL DATE
o Calendrier + Table Temps
Informations supplémentaires
Évènement (match de finale de coupe du monde)
OLAP relationnel
Données obtenues à partir de tables relationnelles et de jointures entre celles-ci
En fonction de la granularité, la requête générée est plus ou moins complexe
A chaque consultation, la requête est recalculée
o Les résultats ne sont pas stockés
Langage : SQL
Avantages
o Faible coût (car tire partie des ressources existantes)
Inconvénients
o Temps de réponse long car sollicitation de la base à chaque relance d’un rapport
OLAP multi-dimentionnel
Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o Exemple : Essbase…
Plus de relationnel!
Tous les croisements possibles sont précalculés
o Restitution des données instantanée
Langage : MDX
Avantages
o Temps de réponse très court (toutes les données et résultats sont stockés)
Inconvénients
o Coût élevé des licences pour les bases multi-dimentionnelles
o Coût élevé de développement des cubes
o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés
Avantages
o Temps de réponse assez court
o Moins coûteux que MOLAP car moins de développement
Inconvénients
o Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données
Conception
d’un Data
Warehouse: CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
Étapes et
Exemples
Étape 1
o Choisir le processus à modéliser
Étape 2
o Choisir le grain des faits
o Décider de ce que représente une ligne de la table de faits
Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…
Étape 3
o Identifier les dimensions qui s’appliquent aux lignes de la table des faits
Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…
Étape 4
o Identifier les mesures de fait qui renseignent la table de faits
De préférence des quantités numériques additives
Processus :
o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)
o Modéliser les ventes au niveau des TPV
Etape 1 : Le premier modèle dimensionnel
o Doit répondre aux questions les plus pressantes de l’utilisateur
o Ses données doivent être les plus faciles à extraire
o Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles
conditions de promotion?
Etape 2 :
o Quel niveau de détail doit être disponible dans le modèle?
o Principe: Obtenir un schéma basé sur les données les plus atomiques
o Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux
anticiper les requêtes ad-hoc des utilisateurs
Etape 3 :
o Choix des dimensions
o Principe: l’énoncé précis du grain détermine les dimensions principales
o Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique
pour chaque combinaison de valeurs des dimensions principales
o Produit
Clé Date Clé Produit
Attributs
Clé Magasin
o Magasin
Clé Promotion Promotion
o Promotion Produit … Clé Promo
Clé Produit Attributs
Attributs
Business Intelligence 27/02/2014
72
Conception d’un Data Warehouse
Exemple : La Distribution
Produit
Clé Produit
Description produit
Etape 3 (Suite): Description marque
Description catégorie
o Dimension Produit Description type emballage
Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
…
Supports de Cours
o Karima Tekaya – « Informatique Décisionnelle » - INSAT
o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT
o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier
o E. Grislin-Le Strugeon – « mes d’information cisionnels (Data Warehouse / Data
Mining) » - Université de Valenciennes