Modélisation Et Implémentation D'un Data Warhouse
Modélisation Et Implémentation D'un Data Warhouse
Modélisation Et Implémentation D'un Data Warhouse
CHAPITRE 2
Modélisation et implémentation d’un entrepôt de données
1. Modélisation dimensionnelle
Les données d'un Data Warehouse sont de deux types:
Les faits: grosse accumulation de données reprenant des faits simples.
Exemple: chiffres de ventes,
Les données "dimensionnelles": données en quantité réduite, souvent statiques
qui précisent des informations sur les éléments apparaissant dans les faits.
La modélisation dimensionnelle sert à modéliser l’activité que l’on souhaite analyser.
1.1. Table des faits (clé multiple)
Table principale du modèle dimensionnel
Contient les données observables (les faits ou un agrégat de faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions), autrement dit elle Contient
un ou plusieurs faits numériques qui se produisent pour la combinaison de clés
définissant chaque enregistrement
Exemple
Sa clé est primaire et correspond à l’un des composants de la clé multiple de la table de
faits.
Exemple: Client, Produit, Période de temps, …
Une table Dimension contient souvent un grand nombre de colonnes, un ensemble
d'informations descriptives des faits et beaucoup moins d’enregistrements qu’une table de
faits.
Dimension produit
Clé produit (CP)
Clé de substitution
Code produit
Description du produit
Groupe de produits
Attributs de la dimension Marque
Emballage
Poids
a) Dimensions et Indicateurs
Dimensions
Produit
Client
Vendeur
Date
Indicateur
Chiffre d’affaires
Une dimension prend une liste de valeurs, un indicateur est un nombre.
b) Hiérarchie de dimensions
Mois Semaine Jour
2. Les types de modèles
2.1. Modèle en flocons (snowflake schema)
La représentation directe d’un contexte dimensionnel dans une base de données
relationnelle est un réseau de tables jointes selon un schéma en flocon. Dans ce mode de
représentation l’association conceptuelle qui contient les faits devient la table de faits, et
chacune des entités dimensionnelles devient une table distincte (Fig. 6).
La table de faits contient en plus des indicateurs significatifs qu’elle comporte par
définition, un ensemble de clés étrangères, dont chacune assure la liaison avec la table du
niveau le plus fin de chaque dimension.
La table des faits est généralement une très grande table, puisqu’elle comporte autant
d’enregistrements qu’il existe de combinaisons pertinentes entre les tables "Dimension".
Dans le cas de la figure 1, le nombre d’enregistrements de la table de faits "Activité" peut
théoriquement être égal au produit du nombre d’Etablissements par le nombre de Produits
et par le nombre de Jours de l’historique mémorisé.
C’est une borne maximum, car il n’y a pas nécessairement eu d’activité pour chaque
combinaison possible. Même si le nombre d’activité réelle est une faible proportion de ce
maximum, la table de faits a pratiquement toujours une taille supérieure d’un ordre de
Mohamed El Hadi BENELHADJ Systèmes Décisionnels
3. BD Multidimensionnelles et OLAP
3.1. Introduction
La vocation d’un entrepôt de données est l’analyse de données pour l’aide à la décision
dans les entreprises. La modélisation multidimensionnelle est la base des entrepôts de
données et de l’analyse multidimensionnelle (OLAP). Donc, la modélisation
multidimensionnelle est une réponse à un besoin analytique.
Les bases de données relationnelles, modélisées selon les principes classiques de
normalisation, s’adaptent très mal à un contexte analytique (OLAP). En analyse,
l’utilisateur doit disposer d’un modèle relativement intuitif et capable de stocker le résultat
de nombreux calculs d’agrégation.
L’intérêt pour l’analyse de données s’est développé énormément ces dernières années. Les
entreprises se sont rendues compte de l’efficacité de la technologie OLAP (On-line
Analytical Processing) dans l’analyse et l’exploration des données. Cette technologie est
utilisée dans les systèmes d’aide à la décision. Le plus souvent, ces systèmes sont basés sur
des techniques d’entreposage de données pour exploiter la grande masse d’informations
disponibles dans les entreprises à des fins d’analyse et d’aide à la décision.
La modélisation multidimensionnelle propose donc d’analyser des indicateurs numériques
(par exemple chiffre d’affaires, nombre d’individus, ratios, etc.) dans un contexte précisé
par le croisement de plusieurs dimensions d’analyse (par exemple temps, géographie,
organisation, produits, ...).
Par exemple, considérons les trois dimensions Temps, Pays et Produits, utilisées pour
analyser les ventes. L’indicateur Chiffre d’Affaires sera calculable sur l’ensemble des
combinaisons possibles entre ces trois axes. L'ensemble des combinaisons possibles peut
être représenté par un cube.
Mohamed El Hadi BENELHADJ Systèmes Décisionnels
L’obtention des données se fait via des tables relationnelles et des jointures qui vont
avec celles-ci. Donc, la requête créée sera relativement complexe, selon la
granularité, et, sera d’une longueur plus ou moins importante. Comme le résultat
n’est pas stocké, à chaque consultation, la requête devra être relancée à chaque
consultation la requête devra être relancée.
Les différents inconvénients de la méthode ROLAP: Le temps de réponse est
d’une longueur assez conséquente étant donné que les requêtes fonctionnent via des
tables. Les bases sont donc utilisées à chaque relance du rapport.
Les avantages de la méthode ROLAP: Le coût est relativement faible, en effet,
cette méthode utilise des ressources déjà existantes comme des ressources
matérielles, des licences etc.
Exemples: Microsoft Analysis Services, Oracle 10g, MetaCube d'Informix,
Mondrian de Pentaho, DSS Agent de MicroStrategy.
MOLAP: Multidimentional OLAP
Mohamed El Hadi BENELHADJ Systèmes Décisionnels
On stock les données dans un CUBE qui est en fait une base de données
multidimensionnelles. De cette façon, le concept de relationnel n’est plus présent.
Pré calculer tous les croisements envisageables est l’objectif de cette base de données
multidimensionnelle, de cette manière la restitution des données se fait de façon
instantanée. Les données étant stockées, le temps gagné pendant la restitution des
données sera considérable.
Inconvénients des cubes MOLAP : Le coût est important, en effet, elle nécessite
souvent des licences pour les bases multidimensionnelles et des coûts pour le
développement des CUBES.
Avantage des cubes MOLAP: Le temps de réponse est extrêmement court car la
totalité des données sont stockées au sein d’un CUBE.
Remarque: Les bases de données multidimensionnelles possèdent leur propre
langage permettant de faire des requêtes, appelé le MDX, qui est l’équivalent du
SQL utilisé pour les bases de données relationnelles.
Exemples: Board M.I.T., Essbase, IBM TM1, Jedox Palo, icCube server, Infor Alea,
Microsoft Analysis Services, Oracle OLAP.
HOLAP: Hybrid OLAP
L’HOLAP est un mélange du ROLAP et du MOLAP. Les cubes HOLAP sont donc
Hybrides. On se sert du MOLAP lorsque l’on veut accéder aux données agrégées. Si
l’on souhaite arriver à un niveau de détail plus important, nous utilisons le ROLAP.
Par exemple, les données sont stockées et accessible via un Cube multidimensionnel,
mais on fait également de la restitution via un outil de reporting comme SSRS par
exemple. L’utilisateur pourra donc avoir accès à un rapport contenant les données
issues du CUBE ainsi qu’à un autre rapport détaillé contenant les données en
provenance de tables, cette fois relationnelles.
Inconvénients de la méthode HOLAP: Elle est inutilisable en cas de complexité
trop élevée des rapports ou qu’ils fassent appel à trop de croisements de données.
Avantages de la méthode HOLAP: Un investissement financier moindre que la
méthode MOLAP, en effet la partie développement sera beaucoup moins importante.
De plus le temps de réponse est relativement court.
Exemple: Oracle OLAP, Microsoft Analysis Services.