CHAPITRE020-DW-Entrepot de Données

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 39

Entrepôt de données

Dr. Amarouche idir amine


[email protected]
Chapitre 2 : Entrepôt de données
• Définition
• Caractéristiques
• Architecture
• Différence avec un SGBD
L’entrepôt : Définition
• Industrie (Inmon 1992): Collection de données orientées sujets,
consolidées dans une base de données unique, non volatiles
et historisées, variant dans le temps et organisées pour le
support d'un processus d'aide à la décision

• Recherche (Stanford 1995): Dispositif de stockage


d’informations intégrées, de sources distribuées, autonomes et
hétérogènes.

• C’est une BD à des fins d’analyse !!


Caractéristiques d’un DW (1)
Données orientées sujet
• Le DW ne tiens pas compte de l’organisation fonctionnelle des
données. Il s’intéresse à la modélisation et l’analyse des données
pour aider les décideurs, non pas pour des activités quotidiennes ou
traitement transactionnel .
• Organisé autour d’un sujet bien précis, ex: client, produit, ventes.
• Fournit une vue simple et concise concernant un sujet particulier en
excluant les données qui ne servent pas à la prise de décision
Caractéristiques d’un DW (2)
Données intégrées
• Construites en intégrant plusieurs sources de données
possiblement hétérogènes
• BD’s relationnelles, fichiers plats, …
• Les techniques d’intégration et de nettoyage des données sont
utilisées
– Garantir la consistance des conventions de nommage (les
attributs Nom et Nom Famille dans BD1 et BD2 désignent la
même chose)
– structures de codage (l’attribut Nom est sur 15 char et 20
char sur BD1 et BD2; NSS est une chaîne dans BD1 et c’est
un entier long dans BD2),
– domaines des attributs (ex: cm vs pouce), etc.
– C’est au moment où les données sont copiées dans le DW
qu’elles sont traduites
Caractéristiques d’un DW (2)
Données intégrées
• Données intégrées: Normalisation des données; définition d’un
référentiel unique, etc..
Caractéristiques d’un DW (3)
Données non-volatiles

• Un support de stockage séparé


• Les mises à jour de la base opérationnelle n’ont pas lieu au
niveau du DW.
– N’a pas besoin de modules de gestion de transactions
(concurrence, reprise sur panne …)
– N’a besoin que de deux opérations pour accéder aux
données :
• Chargement initial des données et interrogation (lecture).

7
Caractéristiques d’un DW (3)
Data Warehouse est Non-Volatile

• Traçabilité des informations et des décisions prises;


• Copie des données de production
Caractéristiques d’un DW (4)
Varie dans le temps
• La portée temporelle des données dans un data warehouse est
plus longue que celle des bases opérationnelles
– Base opérationnelle: valeur courante des données.
– Data warehouse: fournit des infos sous une perspective
historique (ex: 5 à 10 dernières années)
• Dans un data warehouse, en général, chaque donnée
référence le temps
– Mais dans une base opérationnelle les données peuvent ne
pas faire référence au temps

9
Caractéristiques d’un DW (4)
Varie dans le temps

• Données historisées / datées : Les données persistent dans le


temps . Mise en place d’un référentiel temps
Caractéristiques d’un DW (5)
De l’entrepôt (DW) au magasin (DM)
Inconvénient
• De par sa taille, le DW est rarement utilisé directement par les
décideurs, car il contient plus que nécessaire pour une classe de
décideurs.

Intérêt des magasins de données


• Nouvel environnement structuré et formaté en fonction des besoins
d’un métier ou d’un usage particulier.
• Moins de données que dans le DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse
• Utilisateurs plus ciblés.
Le datamart
• Sous-ensemble d’un entrepôt de données
• Destiné à répondre aux besoins d’un secteur ou d’une fonction
particulière de l’entreprise
• Point de vue spécifique selon des critères métiers
• DM alimenté à partir de l’entrepôt de données (DM dependant)
• DM alimenté directement à partir des sources de données (DM
independant)
Architecture d’un système décisionnel
Data Warehouse vs. SGBD hétérogènes

• Traditionnellement, l’intégration de BDs hétérogènes se fait par


le biais de:
– Approche orientée requête
• Wrappers/mediateurs au dessus des BD’s hétérogènes
• Quand une requête est posée par un site client, un méta-dictionnaire
est utilisé pour la traduire en plusieurs requêtes appropriées à
chacune des BD’s. Le résultat est l’intégration des réponses
partielles.
• L’exécution des requêtes demande donc beaucoup de ressources
mais…………..
– Approche orientée Data warehouse: Les infos sont intégrées et stockées
pour une interrogation directe. Plus efficace en coût d’exécution des
requêtes

13
Query-driven Data Integration
- Data is integrated on demand (lazy)
- Corresponds to single-layer architecture
- PROS
Access to most up-to-date data (all source data directly available)
No duplication of data
- CONS
• Delay in query processing due to slow (or currently unavailable)
information sources and complex filtering and integration
• Inefficient and expensive for frequent queries
• Competes with local processing at sources Data loss at the sources
(e.g., historical data) cannot be recovered
-
Warehouse-driven Data Integration
- Data is integrated in advance
- Data is stored in DW for querying and analysis
PROS
-High query performance
-Does not interfere with local processing at sources
-Assumes that DW update is possible during downtime of local
processing
-Complex queries are run at the DW OLTP
-queries are run at the source systems
CONS
- Duplication of data
- The most current source data is not available
Has caught on in industry
Architecture d’un système décisionnel
Single-layer DW Architecture
• Only source layer is physical
• DW exists only virtually as view
• Not frequently used in practice
+ Mimimizes amount of stored data
− No separation between analytical
and transactional processing, hence
queries affect regular workload
− No additional data can be stored
Architecture d’un système décisionnel
Approche virtuelle (ou le non entrepôt)

Inconvénients
• Pas de réelle intégration des
données
• Différentes vues non-
réconciliées
• Pas de vues dans le temps
• Les requêtes peuvent facilement
bloquer les transactions en cours
Architecture d’un système décisionnel
Two-layer DW Architecture
Architecture d’un système décisionnel
Three-layer DW Architecture
Architecture d’un système décisionnel
Approche entrepôt : physique
Architecture générale

Flux entrant: Extraction, Transformation, Chargement.


Flux sortant : Mise à disposition des données pour les décideurs
Architecture générale
Les différentes zones de l’architecture
Zone de préparation (Staging area)
– Zone temporaire de stockage des données extraites
– Réalisation des transformations avant l’insertion dans le DW:
• Nettoyage
• Normalisation…
– Données souvent détruites après chargement dans le DW

Zone de stockage (DW, DM)


– On y transfère les données nettoyées
– Stockage permanent des données

Zone de présentation
– Donne accès aux données contenues dans le DW
– Peut contenir des outils d’analyse programmés:
• Rapports
• Définition: Métadonnées
– Information définissant et décrivant les structures, opération
et le contenu du système de BI
• Métadonnées techniques:
 ETL: sources et cibles pour les transferts de données,
transformation, logs ETL (début, fin, écritures disque, …), etc.
 Stockage: tables, champs, types, indexes, partitions, etc.
 Présentation: modèle de données, rapports, privilèges d’accès
, etc.
• Métadonnées d’affaires: Décrit le contenu de l’entrepôt dans
des termes compréhensibles par les utilisateurs d’affaires;
Ex: descripteurs de tables et champs.
• Métadonnées de processus:
Décrit le résultat de diverses opérations du système de BI;
Ex: règles d’affaires, statistiques sur les requêtes, etc.
Métadonnées
• Bénéfices:
– Découple la dépendance entre la technologie et son utilisation
(ex: reconfigurer dynamiquement le système ETL pour modifier
ou ajouter une source)
– Permet de monitorer l'état et la performance de la solution BI
– Sert de documentation au système
– Permet de déterminer l'impact d'un changement
• Idéal:
– Avoir un seul répertoire de métadonnées partagé par toutes les
composantes de la solution BI
Metadata Repository
• Meta data is the data defining warehouse objects. It has the following kinds
– Description of the structure of the warehouse
• schema, view, dimensions, hierarchies, derived data definition, data
mart locations and contents
– Operational meta-data
• data lineage (history of migrated data and transformation path),
currency of data (active, archived, or purged), monitoring information
(warehouse usage statistics, error reports, audit trails)
– The algorithms used for summarization
– The mapping from operational environment to the data warehouse
– Data related to system performance
• warehouse schema, view and derived data definitions
– Business data
• business terms and definitions, ownership of data, charging policies
Data Warehouse Back-End
Tools and Utilities
• Data extraction:
– get data from multiple, heterogeneous, and external sources
• Data cleaning:
– detect errors in the data and rectify them when possible
• Data transformation:
– convert data from legacy or host format to warehouse format
• Load:
– sort, summarize, consolidate, compute views, check
integrity, and build indicies and partitions
• Refresh
– propagate the updates from the data sources to the
warehouse
Déclinaisons architecturales

1.Magasins de données indépendants


2. Architecture en bus de magasins de données
3. Architecture Hub-and-spoke
4. Entrepôt de données centralisé
5. Architecture fédérée
Magasins de données indépendants
Bus de magasins de données
Architecture Hub-and Spoke
(Corporate Information Factory)
Entrepôt de données centralisé
Architecture fédérée
Comparaison entre les architectures
Popularité:
Exploitation de l’entrepôt
Business Intelligence:
• Possibilité de visualiser et d’exploiter une masse importante de
données complexes
Trois principaux outils:
• OLAP :On-Line Analytical Processing
• Data mining: fouille de données
• Formulation de requêtes et visualisation des résultats
Domaines d’applications
• Banque, Assurance : Détermination des profils client (prêt, …)
• Commerce : Ciblage de clientèle ; Compagnies de grande
production; Aménagement des rayons (2 produits en corrélation)
• Compagnies téléphoniques
• Santé
Exploitation de l’entrepôt
• Three kinds of data warehouse applications
– Information processing
• supports querying, basic statistical analysis, and reporting
using crosstabs, tables, charts and graphs
– Analytical processing
• multidimensional analysis of data warehouse data
• supports basic OLAP operations, slice-dice, drilling,
pivoting
– Data mining
• knowledge discovery from hidden patterns
• supports associations, constructing analytical models,
performing classification and prediction, and presenting
the mining results using visualization tools.
• Differences among the three tasks
Pourquoi pas un SGBD ?
Fonctions d’un SGBD :
• Systèmes transactionnels (OLTP)
• Permettre d’insérer, modifier, interroger rapidement, efficacement les
données de la base
• Sélectionner, ajouter, mettre à jour, supprimer des tuples
• Répondre à de nombreux utilisateurs simultanément
• Requêtes simples (OLTP), méthodes d’accès et indexation
Fonctions d’un DW :
• Systèmes pour l’aide à la prise de décision (OLAP)
• Regrouper, organiser des informations provenant de sources diverses
• Intégrer et stocker les données pour une vue orientée métier
• Retrouver et analyser l’information rapidement et facilement
• requêtes OLAP souvent complexes!!!
Pourquoi pas un SGBD ?
Pourquoi pas un SGBD ?
Récapitulatif

Vous aimerez peut-être aussi