1-Ed Cours-Introduction

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

Chapitre 1

Introduction

Depuis la démocratisation des ordinateurs, toute information utile dans une


organisation est stockée et répertoriée dans un système d'information. Ces systèmes
d'informations dits opérationnels (SIO) ont pour seul objectif d'aider à la réalisation
des activités au sein de l'organisation en garantissant la cohérence des données et
en réduisant l'espace de stockage.
Depuis, d'autres besoins sont apparus parmi lesquels le besoin de pouvoir
expliquer des résultats, le besoin de mieux répondre aux exigences des clients, le
besoin d'optimiser le rendement d'une entreprise, etc. L'analyse de données est
apparue pour répondre à ces besoins. Cette nouvelle discipline est vue comme
un processus qui à partir d'hypothèses et de données permet à une personne de
générer de la connaissance. À partir de ces connaissances, il est possible de prendre
des décisions sur les nouvelles stratégies à adopter pour impacter positivement
l'entreprise. Cette prise de décision implique de pouvoir au préalable se poser les
bonnes questions et de savoir ou et comment chercher. C'est dans ce cadre qu'est
apparu le domaine décisionnel.
Prenons un exemple pour illustrer ce besoin décisionnel. Les systèmes mis
en place dans les universités permettent principalement d'enregistrer les activités
relatives à ses acteurs (personnels, enseignants, étudiants, etc.). Il existe plusieurs
systèmes d'informations opérationnels pour une seule université. Si cette dernière
souhaite mettre en place de nouvelles stratégies pour améliorer son rendement et son
image, elle doit se lancer dans un processus d'analyse de données. Quelle est le taux
de réussite des étudiants? Quelles sont les raisons qui font qu'un département X a
de meilleurs résultat qu'un département Y? Quel est le rendement en recherche?
Que faut-il changer pour améliorer les résultats?, etc.
Les systèmes d'informations opérationnels ne peuvent pas et n'ont pas comme
objectif de répondre à ce type de questions. Pour ce faire, il est important de mettre
en place un nouveau système regroupant toutes les données utiles an de pouvoir
les analyser et en extraire les réponses. Ce type de système est appelé système
d'information décisionnel.
Avant de présenter les diérentes étapes pour mettre en place un système
décisionnel, nous revenons en détail sur les systèmes d'informations opérationnels et
leurs limites.
1.1 Système d'information opérationnel
Les systèmes d'information opérationnels, ou encore transactionnels,
constituent ce qu'on appelle les systèmes OLTP (On-Line Transactional
Processing). Ils sont destinés à assurer la prise en charge d'un grand nombre de
requêtes peu complexes sur une quantité faible de données. Ces systèmes sont
robustes performants et sécurisés et pour cause, ils se basent sur :
1
2 CHAPITRE 1. INTRODUCTION

 Les propriétés ACID (Atomicité, Consistance, Isolation et Durabilité) d'une


transaction pour assurer la cohérence des données et la continuité du système.
 Un modèle entité-association et sa normalisation pour représenter les données
de manière cohérente et sans redondances, permettant ainsi l'exécution ecace
d'un grand ensemble de requêtes peu complexes (Ajout, suppression, mise à
jour, etc).
1.1.1 Modèle entité-association et normalisation
Le modèle entité-association constitue l'un des premiers et des plus courants
modèles conceptuels de données. Il permet une description naturelle du monde
à partir de concepts d'entités et d'associations. La gure 1.1 illustre de manière
simpliée un exemple réduit de modèle entité-association relatif à un système
d'information universitaire.
Enseignant Etudiant

id_ens id_etd
enseigne
nom nom

grade date_naissance

est_charge etudie obtient

Matiere Note

id_mat id_note

nom concerne note

volume type_note

Figure 1.1: Exemple d'un modèle entité-association

Les acteurs du système sont représentés en entités : Enseignant, Étudiant, etc.


Et la relation entre ces acteurs est représentée par des associations : Enseigne,
Etudie, etc.
Quant à la normalisation, son objectif est de construire un schéma de données
en supprimant les redondances. Cela garantit la cohérence en éliminant les risques
d'erreurs lors des opérations de mise à jour. En eet, ces dernières sont souvent
eectuées dans un SIO. Le niveau de normalisation (il en existe 8) est choisi selon
que les tables de la base sont plus sollicitées en lecture ou plus en écriture. Une
bonne conception d'une base de données dans un SIO doit être au minimum en
3eme forme normale car plusieurs écritures sont eectuées.
1.2. SYSTÈME D'INFORMATION DÉCISIONNEL 3
1.1.2 Limites des SIO dans un contexte décisionnel
Aujourd'hui, avec l'aux continu de données, aussi bien internes qu'externes, un
certain nombre de nouveaux besoins sont apparus :
 Dans un marché de plus en plus concurrentiel et globalisé, le besoin de prendre
la bonne décision au bon moment est devenu crucial.
 Les besoins analytiques sont devenus complexes et nécessitent de manipuler
un grand ensemble de données à la fois.
 Le besoin de garder l'historique de toutes les données transitant dans le
système.
Les SIO tels qu'ils sont conçus peinent à répondre à ces nouveaux dés et pour
cause :
 Le modèle entité-association en 3eme forme normale du SIO a été pensé pour
assurer la cohérence de données et la réalisation de transactions sans erreurs. Il
est très performant pour répondre a un nombre élevé de requêtes simples mais
n'est pas adapté pour des requêtes analytiques trop complexes nécessitant un
grand nombre de jointures.
 Un SIO doit être cohérent à un instant T et pour cela, les données enregistrées
sont souvent modiées et parfois supprimées sans que les anciennes valeurs
de ces données ne soient conservées, alors que ces dernières constituent un
ensemble d'informations important pour prendre des décisions.
 En règle générale, dans une organisation, le développement se fait de manière
verticale. Autrement dit, quand un nouveau besoin se présente, un nouveau
SIO est développé pour y répondre. Par conséquent, une organisation regroupe
généralement plusieurs SIO répondant chacun à un besoin diérent. Ces SIO
travaillent et évoluent de manière indépendante dans des environnements bien
hétérogènes. Dans un contexte décisionnel, il est important de regrouper les
informations dans un seul endroit sous une même logique pour pouvoir les
exploiter de manière optimale.
An de pallier les limites des SIO, un nouveau système d'information a été pensé
pour répondre aux besoins décisionnels. Les systèmes d'informations décisionnels,
par opposition aux systèmes d'information opérationnels, ont pour vocation de
répondre aux besoins des décideurs d'une manière able et rapide.
1.2 Système d'information décisionnel
Les systèmes d'information décisionnels (SID) sont des systèmes englobant
un ensemble d'outils permettant l'organisation d'ensemble de données de façon
spécique, facilement accessibles et ont pour vocation la prise de décision. Ils
constituent ce qu'on appelle les systèmes OLAP (On-Line Analytical Processing).
Dans ce type de système, les analystes, les responsables et le personnel exécutif
peuvent mieux comprendre les données via un accès rapide, consistant et interactif
à une large variété de vues possibles de l'information. OLAP transforme les données
du plus bas niveau an de montrer leur véritable dimension dans l'entreprise, selon
la compréhension et le point de vue de chaque utilisateur. Les systèmes OLAP
utilisent une vue multidimensionnelle de données agrégées pour fournir un accès
rapide à l'information stratégique pour des analyses plus poussées.
4 CHAPITRE 1. INTRODUCTION

1.2.1 Modèle multidimensionnel


Face aux limites du modèle entité-association, une nouvelle modélisation a vu le
jour : la modélisation multidimensionnelle. Son inventeur, Ralph Kimball, propose
une nouvelle manière de représenter les données en fonction des besoins analytiques.
Pour cela, il introduit de nouveaux concepts :
 Les activités et les évènements dans une organisation sont décrits par des faits.
 La mesure d'un fait est décrite par un indicateur appelé aussi mesure.
 Le contexte de la réalisation d'un fait est décrite par un ensemble de
dimensions.
An de représenter les informations dans un modèle multidimensionnel il est
important pour les concepteurs du SID de collaborer avec les décideurs (utilisateurs
du SID) eux mêmes en prenant en compte leurs visions et leurs besoins.
En reprenant l'exemple du système d'information universitaire, la gure 1.2
représente le modèle multidimensionnel dédié à l'analyse des résultats de passage
des étudiants au sein de l'université.
enseignant etudiant

id_ens id_etd

id_sio_ens evaluation id_sio_etd

nom id_eval nom

grade id_etd date_naissance

id_mat

id_temps

id_ens

note

temps matiere

id_temps id_mat

jour id_sio_mat

mois nom

annee volume

Figure 1.2: Exemple d'un modèle multidimensionnel

1.2.2 Vue globale d'un SID


Nous illustrons dans la gure 1.3 les diérents composants d'un système
d'information décisionnel.
1.2. SYSTÈME D'INFORMATION DÉCISIONNEL 5
Sources ETL Entrepôt de données Restitution

SIO

Extraction Reporting
ERP
Meta
données

CRM
Analyse OLAP
Transformation
Données Données
aggrégées détaillées

Fichiers
Plats

Data Mining
Loading
Autres Data Warehouse

Figure 1.3: Architecture globale d'un SID

 Sources : Composée de données hétérogènes provenant des diérents SIO de


l'organisation.
 Alimentation : Composée d'outils ETL (Extract, Transforme and Load) pour
extraire et transformer les données à partir des sources et les charger dans le
modèle décisionnel.
 Stockage : Collection de données intégrées, organisées et historisées pour la
prise de décision sous forme d'un entrepôt de données (DataWarehouse) et/ou
de magasins de données (DataMarts).
 Restitution : composée d'applications pour l'exploitation de données
(Reporting, indicateurs,...).
1.2.3 Mise en place d'un SID
Le processus de mise en place un système d'information décisionnel est composé
de quatre diérentes étapes.
1. Étude des besoins et de l'existant Lors de cette phase, il est important
de dégager les buts recherchés, les questions auxquelles le système à mettre en
place doit répondre. À partir de là, il faut déterminer et recenser les données
qui jouent un rôle important.
2. Modélisation et conception La deuxième étape consiste à choisir la
modélisation adéquate de l'entrepôt de données et l'architecture qui répond
aux exigences techniques et organisationnelles de l'organisation.
3. Mise en place de l'entrepôt de données Cette étape consiste à mettre
en place techniquement l'entrepôt, à savoir, choisir la stratégie de stockage
à adopter et les outils d'intégration à mettre en place pour, l'extraction, la
transformation et le chargement des données.
6 CHAPITRE 1. INTRODUCTION

4. Mise en place d'outils d'exploitation


 Requêtes analytiques : permettent aux utilisateurs et analystes
d'interagir directement avec l'entrepôt de données pour répondre aux
besoins de leurs métiers.
 Reporting : Destiné essentiellement à la production et à la présentation
périodique de rapports et de tableaux de bords sur les activités et
les résultats d'une organisation. Ces outils permettent de donner une
précieuse vue d'ensemble.
 Analyse dimensionnelle : Permet aux utilisateurs d'analyser les
données selon diérents critères an de suivre les performances d'une
entreprise.
 Fouille de données : Appelé aussi forage de données, ces techniques
permettent d'extraire de nouvelles connaissances en appliquant divers
algorithmes. À partir de ces connaissances, de nouvelles corrélations entre
les données et des prédictions sur les résultats futurs peuvent se faire.
1.3 SIO VS SID
Le tableau 1.1 résume les principales diérences entre les deux types de système.
Critère OLTP (transactions) OLAP (analyse)
Objectif Production Décisionnelle
Utilisateurs Agents opérationnels (nombreux) Analystes/décideurs (peu nombreux)
Données Courantes, détaillées, évolutives Historisées, agrégées, statiques
Taille de données Peu volumineuse Très volumineuse
Fréquence de mise à jour En temps réel En batch
Requêtes Simples et répétitives Complexes et imprévisibles
Fréquence des requêtes Très fréquente Peu fréquente
Temps d'exécution des requêtes Court Long
Mode d'accès Lecture/écriture Lecture
Degré de normalisation Normalisé Dénormalisé
Mode d'alimentation Utilisateurs de la base ETL uniquement
Table 1.1: Comparaison entre OLTP et OLAP

1.4 Organisation du manuscrit


Ce polycopié est consacré à la présentation des aspects théoriques et aux
diérentes briques nécessaires pour la mise en place d'un SID.
Dans le chapitre 2, nous présenterons le c÷ur du SID, à savoir, les entrepôts
de données. Nous y détaillerons ses caractéristiques. Le chapitre 3 présentera les
diérentes architectures d'un entrepôt de données. Nous nous focaliserons dans le
chapitre 4 sur les concepts clés d'un entrepôt de données et son modèle conceptuel.
Un guide de bonne pratique pour la conception y sera présenté. Dans le chapitre
5, nous présenterons les diérentes approches d'intégration. Nous nous attarderons
sur l'approche ETL qui est le coeur du processus d'intégration dans un entrepôt de
données. Le chapitre 6 présentera les diérentes stratégies de stockage physique et
les diérentes opérations réalisables sur l'entrepôt de données à des ns d'analyse
1.4. ORGANISATION DU MANUSCRIT 7
et d'exploitation. Nous présenterons les deux langages de requêtes les plus utilisés :
Le SQL étendu pour l'OLAP et le langage MultiDimensional eXpressions (MDX).

Vous aimerez peut-être aussi