CHAPITRE020-DW-Entrepot de Données
CHAPITRE020-DW-Entrepot de Données
CHAPITRE020-DW-Entrepot de Données
7
Caractéristiques d’un DW (3)
Data Warehouse est Non-Volatile
9
Caractéristiques d’un DW (4)
Varie dans le temps
13
Query-driven Data Integration
- Data is integrated on demand (lazy)
- Corresponds to single-layer architecture
- PROS
Access to most up-to-date data (all source data directly available)
No duplication of data
- CONS
• Delay in query processing due to slow (or currently unavailable)
information sources and complex filtering and integration
• Inefficient and expensive for frequent queries
• Competes with local processing at sources Data loss at the sources
(e.g., historical data) cannot be recovered
-
Warehouse-driven Data Integration
- Data is integrated in advance
- Data is stored in DW for querying and analysis
PROS
-High query performance
-Does not interfere with local processing at sources
-Assumes that DW update is possible during downtime of local
processing
-Complex queries are run at the DW OLTP
-queries are run at the source systems
CONS
- Duplication of data
- The most current source data is not available
Has caught on in industry
Architecture d’un système décisionnel
Single-layer DW Architecture
• Only source layer is physical
• DW exists only virtually as view
• Not frequently used in practice
+ Mimimizes amount of stored data
− No separation between analytical
and transactional processing, hence
queries affect regular workload
− No additional data can be stored
Architecture d’un système décisionnel
Approche virtuelle (ou le non entrepôt)
Inconvénients
• Pas de réelle intégration des
données
• Différentes vues non-
réconciliées
• Pas de vues dans le temps
• Les requêtes peuvent facilement
bloquer les transactions en cours
Architecture d’un système décisionnel
Two-layer DW Architecture
Architecture d’un système décisionnel
Three-layer DW Architecture
Architecture d’un système décisionnel
Approche entrepôt : physique
Architecture générale
Zone de présentation
– Donne accès aux données contenues dans le DW
– Peut contenir des outils d’analyse programmés:
• Rapports
• Définition: Métadonnées
– Information définissant et décrivant les structures, opération
et le contenu du système de BI
• Métadonnées techniques:
ETL: sources et cibles pour les transferts de données,
transformation, logs ETL (début, fin, écritures disque, …), etc.
Stockage: tables, champs, types, indexes, partitions, etc.
Présentation: modèle de données, rapports, privilèges d’accès
, etc.
• Métadonnées d’affaires: Décrit le contenu de l’entrepôt dans
des termes compréhensibles par les utilisateurs d’affaires;
Ex: descripteurs de tables et champs.
• Métadonnées de processus:
Décrit le résultat de diverses opérations du système de BI;
Ex: règles d’affaires, statistiques sur les requêtes, etc.
Métadonnées
• Bénéfices:
– Découple la dépendance entre la technologie et son utilisation
(ex: reconfigurer dynamiquement le système ETL pour modifier
ou ajouter une source)
– Permet de monitorer l'état et la performance de la solution BI
– Sert de documentation au système
– Permet de déterminer l'impact d'un changement
• Idéal:
– Avoir un seul répertoire de métadonnées partagé par toutes les
composantes de la solution BI
Metadata Repository
• Meta data is the data defining warehouse objects. It has the following kinds
– Description of the structure of the warehouse
• schema, view, dimensions, hierarchies, derived data definition, data
mart locations and contents
– Operational meta-data
• data lineage (history of migrated data and transformation path),
currency of data (active, archived, or purged), monitoring information
(warehouse usage statistics, error reports, audit trails)
– The algorithms used for summarization
– The mapping from operational environment to the data warehouse
– Data related to system performance
• warehouse schema, view and derived data definitions
– Business data
• business terms and definitions, ownership of data, charging policies
Data Warehouse Back-End
Tools and Utilities
• Data extraction:
– get data from multiple, heterogeneous, and external sources
• Data cleaning:
– detect errors in the data and rectify them when possible
• Data transformation:
– convert data from legacy or host format to warehouse format
• Load:
– sort, summarize, consolidate, compute views, check
integrity, and build indicies and partitions
• Refresh
– propagate the updates from the data sources to the
warehouse
Déclinaisons architecturales