chp3 140227090832 Phpapp01

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 74

1

Institut National des Sciences Appliquées et de Technologie

Business Intelligence
Chp3 – Modélisation des Données Décisionnelles

Dr. Lilia SFAXI


GL5 - 2013-2014
2
Modélisation des Données
Décisionnelles

 Utilisation de concepts pour :


o Optimiser la restitution de données selon les axes métiers de l’entreprise
o Gérer et visualiser les données de manière rapide et intuitive
o Retrouver et analyser rapidement les données à partir de diverses sources
o Intégrer plusieurs bases de données
o Extraire, grouper, organiser et corréler et transformer les données
 Deux types de modélisations: Entité-Relation et Multidimensionnelle

Business Intelligence 27/02/2014


Modèles de Données 3

Business Intelligence 27/02/2014


4
Plan du Chapitre

 Modélisation Entité-Relation
 Modélisation Multidimensionnelle
 Conception des Data Warehouses : Etapes et Exemple
 Modèles d’un Data Warehouse
 Aspects Fondamentaux de la Modélisation Multidimensionnelle

Business Intelligence 27/02/2014


5

Modélisation CHP3: MODÉLISATION DES

Entité-Relation DONNÉES DÉCISIONNELLES

Business Intelligence 27/02/2014


6
Modélisation Entité-Relation

 Discipline permettant d’éclairer les relations microscopiques entre les données


o Supprimer la redondance des données
o Simplifier le traitement des transactions
o Aider le concepteur dans la répartition des propriétés entre les entités
 Principes
o Notion d’identifiant
o Dépendance fonctionnelle
o Décomposition
o Formes normales

Business Intelligence 27/02/2014


7
Normalisation dans les BDR

 Forme normale :
o Type de relation particulier entre les entités
o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des
données
o Permet de vérifier la robustesse de la conception des modèles de données pour éviter les
problèmes de redondance et de mise à jour du contexte
 Dans le modèle OLTP, il existe 8 formes normales
o Elles s’emboitent les unes dans les autres
o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs
o On va présenter les 3 premières (les plus utilisées)

Business Intelligence 27/02/2014


8
Première Forme Normale (1FN)

 Relation dont tous les attributs :


o Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sous-
valeurs dépendant également individuellement de la clé primaire)
o Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un
seul attribut).
o Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge).

Problème Solution
Produit Fournisseur Produit Fournisseur
Téléviseur Vidéo SA, Hitek LTD Téléviseur Vidéo SA
Téléviseur Hitek LTD

Business Intelligence 27/02/2014


9
Deuxième Forme Normale (2FN)

 Les attributs d'une relation sont divisés en deux groupes :


o Le premier groupe est composé de la clé (une ou plusieurs).
o Le deuxième groupe est composé des autres attributs (éventuellement vides).
 Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du premier groupe.
o « Un attribut non clé ne dépend pas que d'une partie de la clé »

Problème Solution
Pdt Fournisseur Adresse Produit Fournisseur Fournisseur Adresse
Fournisseur
Télé Vidéo SA 13 rue Midi Télé Vidéo SA Vidéo SA 13 rue Midi

Ecran Vidéo SA 13 rue Midi Ecran Vidéo SA Hitek LTD 25 rue Bond

Télé Hitek LTD 25 rue Bond Télé Hitek LTD


27/02/2014
10
Troisième Forme Normale (3FN)

 Les attributs d'une relation sont divisés en deux groupes :


o Le premier groupe est composé de la clé (une ou plusieurs).
o Le deuxième groupe est composé des autres attributs (éventuellement vides).
 Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du deuxième groupe.
o « Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ».
Problème Solution
Fournisse Adresse Ville Pays Fournisse Adresse Ville Ville Pays
ur ur
Vidéo SA 13 rue Midi Paris France Paris France
Vidéo SA 13 rue Midi Paris
Hitek LTD 25 rue London England London England
Hitek LTD 25 rue London
Bond Bond
Business Intelligence 27/02/2014
11
Modélisation Entité-Relation

 Le succès du traitement des transactions dans les BDR est essentiellement dû à


l’apport de la modélisation entité/relation
 Exemple
o une
simple recherche dans une table principale d'adresses clients.
o Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de
l'enregistrement et permet une recherche indexée extrêmement rapide.
o Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans
risque d’oublier des enregistrements

Business Intelligence 27/02/2014


12
Limites de la Modélisation E/R

 Modèle complexe
o Plusieurs tables et jointures mises en œuvre
 Risque de dégradation des performances
 Pas de compréhension pour l’utilisateur
 Données historiques difficilement représentées
 Contraire aux objectifs du DW

Business Intelligence 27/02/2014


13

Modélisation
Multidimensionn CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

elle

Business Intelligence 27/02/2014


14
Modélisation Multidimensionnelle :
Notions de Base

 Méthode de conception logique qui vise à présenter les données sous une forme
standardisée, intuitive et qui permet des accès hautement performants
 Permet de considérer un sujet analysé comme point dans un espace à plusieurs
dimensions
 Les données sont organisées de manière à mettre en évidence:
o Le Sujet  Le Fait
o Les perspectives de l’analyse  La table des dimensions

Business Intelligence 27/02/2014


15
Faits – Table des Faits

 Fait
o Sujet d’analyse
o Grain de mesure de l’activité
o Résultat d’une opération d’agrégation des données
o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une
valeur numérique
o Les mesures sont stockées dans la table des faits
 Table des faits
o Clé composite référencent des clés primaires des tables de dimensions
o Contient les valeurs des mesures et des clefs vers les tables de dimensions  traduit une relation
(n,m) entre les dimensions
o Plusieurs tables de fait dans un DW
o Les faits les plus utiles d’une table des faits sont numériques et additifs
Business Intelligence 27/02/2014
16
Faits – Table des Faits

 Exemple:
o Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin
 A en général plusieurs lignes et peu de colonnes

Table des Faits


Ventes Journalières
Date
Clé Date Magasin
Clé Produit
Dimensions Clé Magasin
Produit Quantité vendue
Montant des ventes Faits

Business Intelligence 27/02/2014


17
Table des Dimensions

Produit
 Contient une clé primaire unique qui correspond à l’un des
composants de la clé multiple de la table des faits Clé Produit
Description produit
 Les tables dimensionnelles sont les points d’entrée de Description marque
l’entrepôt de données Description catégorie
Description type emballage
 Les dimensions Taille emballage
o Thème (ou axe) selon lequel les données sont analysées Poids
Unité de mesure du poids
o En général sous forme textuelle Type de stockage
Type de durée rayon
o Parfois discrète (ensemble limité de valeurs): couleurs, parfums Largeur sur étagère
Hauteur sur étagère
 A en général plusieurs colonnes et peu de lignes Profondeur sur étagère

Business Intelligence 27/02/2014


18
Vue

 Représentation d’une ou plusieurs requêtes de l’utilisateur du SID


o À une requête correspond une et une seule vue
o À une vue peuvent correspondre plusieurs requêtes
 Une vue correspond également à un hyper-cube dont :
o Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités
o Les propriétés de l’association sont des faits ou mesures
o Les propriétés des entités intervenant dans la vue sont des conditions
 Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme
une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace
 Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par
l’association des conditions

Business Intelligence 27/02/2014


19
Vue

 Exemple 1:
o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la
région nord ayant des véhicules de 10 à 14 CV en avril 2004?
o Vue:
Faits Région
 Frais de déplacement
 Kilométrage
Employé Clé Employé
Nom Clé Véhicule
 Par Employé (fonction) Fonction
Clé Région
 Par Véhicule (puissance) Clé Mois Mois
 Par Région Véhicule Frais de déplacement
Marque Kilométrage
 Par Mois
Puissance

Business Intelligence 27/02/2014


20
Vue

 Exemple 2:
o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah
Ahmed à Hammamet durant le mois de Janvier?

Client Région
o Vue:
Nom
 Marge Fonction
 Produit Vue 1
 Client
 Région Produit Marge Mois
 Mois
Nom

Business Intelligence 27/02/2014


21
Vue

 Exemple 3:
o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant
l’année 2011?

Marque
o Vue:
 Revenu
Vue 2 Année
 Marque
 Pays Pays Revenu
 Année

Business Intelligence 27/02/2014


22
Vue

 Exemple 4:
o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2
pour la région du nord ?
Gamme
o Vue:
 Quantité Vue 3 Trimestre
 Gamme
 Trimestre Région Quantité
 Région

Business Intelligence 27/02/2014


23
Domaine et Contexte

 Domaine
o Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
o Implique un vocabulaire commun et une manière commune d’appréhender l’information

 Contexte
o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de
cohérence
o Caractérisé par une association unique, groupant tous les faits relevés dans les vues

Business Intelligence 27/02/2014


24
Contexte : Activité des Ventes

 En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on
détecte deux sortes d’éléments de rapprochement
o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues
o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes
aux autres.
o On peut intégrer ces vues en un seul contexte comportant une association porteuse des
faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes

Business Intelligence 27/02/2014


25
Contexte : Activité des Ventes

 Contexte : Activité des Ventes


Client Région

Année
Vue 1
Trimestre
Produit Marge Mois

Mois Client
Marque

Marge
Vue 2 Année Revenu
Produit Quantité Région
Revenu
Pays

Gamme Pays
Gamme

Marque
Vue 3 Trimestre

Quantité
Région
27/02/2014
26
Hiérarchie

 Élément fondamental dans la structure d’un contexte


 Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)
 Chaque niveau est représenté par une entité
 Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de
regroupement hiérarchique
 Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être
repérés par une analyse précise du vocabulaire des utilisateurs
(Produit, Gamme, Marque)

Business Intelligence 27/02/2014


27
Hiérarchie : Activité des Ventes

Mois Trimestre Année


… Temps

Produit Gamme Marque


… Produit

Région Pays
… Territoire

Client Catégorie
… Client
Business Intelligence 27/02/2014
28
Granularité

 Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette
dimension
o Le grain de la dimension Temps est Mois
o Le grain de la dimension Territoire est Région
 L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur
une ou plusieurs dimensions
 Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu toutes les dimensions.

Business Intelligence 27/02/2014


29
Granularité (Exemple)

 Grain du contexte: combinaison Produit-Mois-Client-Région


o S’applique à tous les faits
 Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
o Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à
tous les niveaux.
o Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par
Région et par Trimestre, il y aurait décalage de grain entre les faits
o Décalage  les faits n’appartiennent pas tous au même contexte  facteur
d’incohérence

Business Intelligence 27/02/2014


30
Grain du contexte Vente
Temps
Année
Client
Trimestre Catégorie

Mois Produit Client


Région
Mois
Client
Marge
Produit Revenu Région
Quantité
Gamme Pays

Marque
Territoire

Produit
Business Intelligence 27/02/2014
31
Modélisation Multidimensionnelle:
Caractéristiques

 Lisibilité
 Performances (chargement + exécution des requêtes)
 Évolutivité
 Redondances envisageables
o Pas de mise à jour en ligne (chargement uniquement)
o Pas de problème d’intégrité des données (contrôles à l’acquisition)
o Privilégier l’accessibilité plutôt que la normalisation
 Requêtes ensemblistes, portant sur de gros volumes de données
o Projections, restrictions, regroupements, agrégations
o Adaptation du modèle pour des requêtes ad-hoc
o Techniques d’optimisation basées sur les chemins d’accès
 Pré-calcul de certains agrégats + dé-normalisation

Business Intelligence 27/02/2014


32
Modélisation Multidimensionnelle:
Avantages

 Structure prévisible et standardisée


 Diminution du nombre de tables et de jointures
 Modèle évolutif qui peut être modifié sans peine
o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents
avec la granularité de la table des faits existante
o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est
définie pour chaque enregistrement factuel existant
o Ajout d’attributs dimensionnels nouveaux
o Changement de granularité: Décomposition des enregistrements d’une dimension
existante en un niveau de détail plus fin à partir d’une date déterminée

Business Intelligence 27/02/2014


33
Modélisation Multidimensionnelle:
Inconvénients

 Tables plus volumineuses

 Fréquence d’accès très variable aux contenus des tables

Business Intelligence 27/02/2014


34
Règles d’Élaboration et d’Intégration
des Vues

 La structure des vues externes se déduit directement des requêtes des


utilisateurs, non des connexions possibles entre les entités
 Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles
par des critères de cohérence sémantique et structurelles.  Contextes
 La liste exhaustive des vues n’est jamais figée
 La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans
chaque contexte le plus grand nombre possible de vues probables d’après la
structure vue connues.
 Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de
navigation sémantique et ce chemin doit être le plus court possible

Business Intelligence 27/02/2014


35
Démarche de Synthèse des Vues-
Contextes

 Identifier les faits de l’association


 Identifier les liens de dépendance entre les entités
 Regrouper les entités dépendantes dans une même dimension
 Nommer les dimensions
o Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes »
o Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »
 La structure d’une dimension douteuse peut varier à terme

Business Intelligence 27/02/2014


36
Normalisation des Contextes

 Un contexte regroupant un nombre élevé de dimensions a peu de chances de


correspondre à une réalité et serait d’un maniement trop complexe
o En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions
o Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en
plus importante
 Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification
dans le domaine de l’utilisateur

Business Intelligence 27/02/2014


37
Règles de Normalisation
Dimensionnelle
 Règle 1:
o Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des
dimensions différentes d’un même contexte
o Conséquence: Regroupement des entités dépendantes dans une même dimension
 Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région
dans la dimension Produit

Id_produit Produit
Produit Id_produit
Id_produit
Id_région Id_produit
Id_mois région
Id_mois Id_client
Id_client Marge
Marge Revenu
Région
Revenu Quantité
Quantité
Business Intelligence 27/02/2014
38
Règles de Normalisation
Dimensionnelle
 Règle 2:
o Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les
combinaisons dimensionnelles de ce contexte
o Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent
l’éclatement du contexte
 Exemple:
Mois Id_produit Produit
Id_région Id_produit
Id_mois
La marge des achats ne correspond
Id_client
pas à un client et région. Il faut donc
Marge_ventes
l’intégrer dans un autre contexte
Marge_achats Région
Client
Revenu
Quantité
Business Intelligence 27/02/2014
39
Règles de Normalisation
Dimensionnelle
 Règle 3:
o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
 Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
 Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension

 Règle 4:
o Le graphe de chaque dimension doit être acyclique
o Conséquence: Il faut rompre les cycles

Gamme Marque Gamme Marque Pays

Produit Produit
Id_produit Id_produit

Région Pays Région Pays

Business Intelligence 27/02/2014


40
Forme Dimensionnelle Normale

 Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou


galaxie dans laquelle chaque étoile correspond à un contexte

 Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition
de conserver une définition unique

 Pour ces raisons pratiques, il est préférable de représenter les contextes sous une
forme déconnectée

Business Intelligence 27/02/2014


41

Modèles d’un
Data CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

Warehouse

Business Intelligence 27/02/2014


42
Modèles d’un DataWarehouse

 Modèle en étoile

 Modèle en flocon de neige

 Modèle en constellation

Business Intelligence 27/02/2014


43
Modèle Étoile

 Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures


 Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.
 Les tables de dimension n'ont pas de lien entre elles.
 Avantages
o Facilité de navigation.
o Performances : nombre de jointures limité ; gestion des données creuses.
o Gestion des agrégats
 Inconvénients
o Redondances dans les dimensions.
o Alimentation complexe..

Business Intelligence 27/02/2014


44
Modèle en Étoile - Exemple

Produit
Code_pdt Ventes
Description
Couleur Code_produit Magasin
Marque Code_période
Créateur Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour

Business Intelligence 27/02/2014


45
Modèle en Flocon de Neige

 Dérivé du schéma en étoile où les tables de dimensions sont normalisées


o La table des faits reste inchangée
 Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)
 Exemple : Commune, Département, Région, Pays, Continent
 Utilisé lorsque les tables sont très volumineuses
 Avantages
o Réduction du volume
o Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée
 Inconvénients
o Navigation difficile
o Nombreuses jointures

Business Intelligence 27/02/2014


46
Modèle en Flocon de Neige - Exemple

Marque
Code_marque Produit
Nom
Description
Code_pdt Ventes
Description
Créateur
Couleur Code_produit Magasin
Code_marque Code_période Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour

Business Intelligence 27/02/2014


47
Constellation

 Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes

 Un modèle en constellation comprend donc :


o Plusieurs tables de faits
o Des tables de dimensions communes ou non à ces tables de faits.

Business Intelligence 27/02/2014


48
Modèle en Constellation - Exemple

Fournisseur Produit
Code_four Achats
Code_pdt Ventes
Description
Nom
Adresse Code_produit Couleur Code_produit Magasin
Marque Code_période
Catégorie Code_période Code_ma
Créateur
Code_fournisseur Code_Magasin g
Nom_mag
Ville
Période Unités_vendues
Unités_achetées Téléphone
Code_per Montant_ventes Manager
Montant_achats Année
Montant_remises Trimestre
Montant_coût
Mois
Jour

Business Intelligence 27/02/2014


49
Synthèse

 Modèle en étoile
o Taille de dimension plus grosse
 Modèle en flocon de neige
o Jointures pour reconstruire
 Modèle en étoile >> Modèle en flocon
o car tables de dimension << tables de fait

Business Intelligence 27/02/2014


50

Aspects
Fondamentaux
de la CHP3: MODÉLISATION DES

Modélisation DONNÉES DÉCISIONNELLES

MultiDimensionn
elle

Business Intelligence 27/02/2014


51
Dimension

 Une dimension peut être définie comme :


o un thème, ou un axe (attributs), selon lequel les données seront analysées.
 Ex : Temps, Découpage administratif, Produits.
 Une dimension contient des membres organisés en hiérarchie :
o Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité)
particulier
o Ex : pour la dimension Temps: année –semestre – mois – jour

Business Intelligence 27/02/2014


52
Dimensions - Caractéristiques
 Dimension
o Temps, Produit, Géographie, ...
 Niveau : hiérarchisation des dimensions
o Temps : Année, Semestre, Trimestre, Mois, Semaine, ...
o Produit : Rayon, Catégorie, Nature,...
o Géographie : Région, Département, Ville, Magasin, …
 Membres d'un Niveau
o Produit::Rayon : Frais, Surgelé, ... , Liquide
o Produit:: gorie : Frais.Laitage, ... , Liquide.Jus
o Produit:: gorie.Nature : Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange
 Cellule
o Intersection des membres des différentes dimensions
 Formule
o calcul, expression, règle, croisement des dimensions
 Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...
Business Intelligence 27/02/2014
53
Faits

 Une mesure est un élément de donnée sur lequel portent les analyses, en fonction
des différentes dimensions
o Ex : coût des travaux, nombre d’accidents, ventes
 Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre
de chacune des dimensions
 Exemple :
o « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le
membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du
niveau « ville » de la dimension « découpage administratif »

Business Intelligence 27/02/2014


54
Faits – Table des Faits

 Fait additif :
o Additionnable suivant toutes les dimensions
o Exemples: quantité vendue, chiffre d’affaire, coût
 Fait semi-additif :
o Additionnable selon certaines dimensions
o Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients
(excepté sur la dimension produit)
 Fait non-additif :
o Non additionnable
o Exemple: attribut ratio (marge brute = 1- Coût/CA)

Business Intelligence 27/02/2014


55
Dimension Temps

 tout entrepôt
 Reliée toute table de fait
 2 choix d ’implantation
o Type SQL DATE
o Calendrier + Table Temps
 Informations supplémentaires
 Évènement (match de finale de coupe du monde)

 Jours fériés, vacances, période fiscale,

 saison haute ou basse, …

Business Intelligence 27/02/2014


56
Opérations OLAP

 Drill Up / Drill Down


 Rotate
 Slicing
 Scoping

Business Intelligence 27/02/2014


57
Opérations OLAP - Drill Up/Drill Down

Business Intelligence 27/02/2014


58
Opérations OLAP - Rotate

Business Intelligence 27/02/2014


59
Opérations OLAP - Slicing

Business Intelligence 27/02/2014


60
Opérations OLAP - Scoping

Business Intelligence 27/02/2014


61
Stockage

 ROLAP : Relational OLAP

 MOLAP : Multi-Dimentional OLAP

 HOLAP : Hybrid OLAP

 DOLAP : Desktop OLAP

Business Intelligence 27/02/2014


62
ROLAP (Relational OLAP)

 OLAP relationnel
 Données obtenues à partir de tables relationnelles et de jointures entre celles-ci
 En fonction de la granularité, la requête générée est plus ou moins complexe
 A chaque consultation, la requête est recalculée
o Les résultats ne sont pas stockés
 Langage : SQL
 Avantages
o Faible coût (car tire partie des ressources existantes)
 Inconvénients
o Temps de réponse long car sollicitation de la base à chaque relance d’un rapport

Business Intelligence 27/02/2014


63
MOLAP (Multi-Dimentional OLAP)

 OLAP multi-dimentionnel
 Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o Exemple : Essbase…
 Plus de relationnel!
 Tous les croisements possibles sont précalculés
o Restitution des données instantanée
 Langage : MDX
 Avantages
o Temps de réponse très court (toutes les données et résultats sont stockés)
 Inconvénients
o Coût élevé des licences pour les bases multi-dimentionnelles
o Coût élevé de développement des cubes
o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés

Business Intelligence 27/02/2014


64
HOLAP (Hybrid OLAP)

 Association du ROLAP et du MOLAP


 Concept de Drill-Through
o Accès aux données agrégées avec MOLAP (Cube)
o Accès aux détails avec le ROLAP (tables relationnelles)
 Étapes :
o Données agrégées stockées dans une table multi-dimentionnelle
o Restitution de ces données à partir d’un outil de reporting
 Affichage des données agrégées extraites à partir des tables multi-dimentionnelles
 Affichage des détails des opérations issus des bases relationnelles

 Avantages
o Temps de réponse assez court
o Moins coûteux que MOLAP car moins de développement
 Inconvénients
o Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données

Business Intelligence 27/02/2014


65
DOLAP (Desktop OLAP)

 Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.

 Base de donnée OLAP limitée en taille

 Permet à l’utilisateur d’enregistrer une partie de la base de données multi-


dimentionnelle en local

Business Intelligence 27/02/2014


66
H-OLAP

 Nouvelles fonctions pour SQL


o BREAK BY (SAS)
o RANK un agrégat
o TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons)
o Extension du Group By (SQL99)
 Grouping Sets : Partitionnement selon plusieurs dimensions
 Rollup: réduire progressivement
 Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets
 MS MDX
o Langage d’expression OLAP pour MS SQL Server
o Exemples
 SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members
ON ROWS FROM Sales

Business Intelligence 27/02/2014


67

Conception
d’un Data
Warehouse: CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

Étapes et
Exemples

Business Intelligence 27/02/2014


68
Conception d’un Data Warehouse

 Étape 1
o Choisir le processus à modéliser
 Étape 2
o Choisir le grain des faits
o Décider de ce que représente une ligne de la table de faits
 Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…

 Étape 3
o Identifier les dimensions qui s’appliquent aux lignes de la table des faits
 Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…

 Étape 4
o Identifier les mesures de fait qui renseignent la table de faits
 De préférence des quantités numériques additives

Business Intelligence 27/02/2014


69
Conception d’un Data Warehouse
Exemple : La Distribution

 Processus :
o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)
o Modéliser les ventes au niveau des TPV
 Etape 1 : Le premier modèle dimensionnel
o Doit répondre aux questions les plus pressantes de l’utilisateur
o Ses données doivent être les plus faciles à extraire

o  Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles
conditions de promotion?

Business Intelligence 27/02/2014


70
Conception d’un Data Warehouse
Exemple : La Distribution

 Etape 2 :
o Quel niveau de détail doit être disponible dans le modèle?
o Principe: Obtenir un schéma basé sur les données les plus atomiques

o  Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux
anticiper les requêtes ad-hoc des utilisateurs

Business Intelligence 27/02/2014


71
Conception d’un Data Warehouse
Exemple : La Distribution

 Etape 3 :
o Choix des dimensions
o Principe: l’énoncé précis du grain détermine les dimensions principales
o Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique
pour chaque combinaison de valeurs des dimensions principales

Faits de Transaction TPV Magasin


 Dimensions principales Clé magasin
o Temps Date Clé date Attributs

o Produit
Clé Date Clé Produit
Attributs
Clé Magasin
o Magasin
Clé Promotion Promotion
o Promotion Produit … Clé Promo
Clé Produit Attributs
Attributs
Business Intelligence 27/02/2014
72
Conception d’un Data Warehouse
Exemple : La Distribution

Produit

Clé Produit
Description produit
 Etape 3 (Suite): Description marque
Description catégorie
o Dimension Produit Description type emballage
 Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère

Business Intelligence 27/02/2014


73
Conception d’un Data Warehouse
Exemple : La Distribution
 Etape 4 : Identifier les faits
o Quantité vendue, montant de la vente en euros, coût standard en euro
o Questions: stocker le bénéfice? La marge brute?
o Principe: pourcentage et ratios sont non-additifs  Ne pas les stocker, mais stocker le numérateur et
dénominateur

Faits de Transaction TPV Magasin


Clé magasin
Date Clé date
Attributs
Clé Date Clé Produit
Attributs Clé Magasin
Clé Promotion
Promotion
Produit Numéro de trans. TPV Clé Promo
Clé Produit Quantité vendue Attributs
Attributs Montant des ventes
Coût
Business Intelligence Bénéfice Brut 27/02/2014
74
Bibliographie

 Supports de Cours
o Karima Tekaya – « Informatique Décisionnelle » - INSAT
o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT
o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier
o E. Grislin-Le Strugeon – « mes d’information cisionnels (Data Warehouse / Data
Mining) » - Université de Valenciennes

Business Intelligence 27/02/2014

Vous aimerez peut-être aussi