Crypto

Télécharger au format doc, pdf ou txt
Télécharger au format doc, pdf ou txt
Vous êtes sur la page 1sur 8

Introduction

3
dobjets à répliquer sont les relations et les fichiers. Une granularité de réplication est l'unité
de données minimale quon réplique dans un système de gestion de données (Kunszt et al.,
2005). Dans la suite de ce manuscrit, un fragment de relation (quon appellera relation pour
simplifier) constitue la granularité de réplication. Par ailleurs, le facteur de réplication,
correspond au nombre total de répliques dun objet dans le système. Il est également utile de
préciser que la réplication de données est souvent à linitiative du serveur et doit être
transparente pour les applications. Enfin, nous verrons que lorsque la réplication intervient
dans un système déjà opérationnel, c'est-à-dire lors de la réception des requêtes des
utilisateurs, on parle alors dune réplication dynamique.
La réplication de données vise à satisfaire différents objectifs : (i) laugmentation de la
disponibilité de données, (ii) lamélioration des performances daccès en réduisant les coûts de
communication (à travers le placement des répliques près des utilisateurs), en exploitant le
parallélisme (à travers laccès parallèle à différentes répliques situées sur différents nœuds),
ou encore en améliorant léquilibrage de charge (à travers la réplication des données
fortement accédées sur différents nœuds), (iii) laugmentation de la fiabilité de données en
fournissant des répliques appropriées de données si une partie de ces données est
corrompue, et (iv) lamélioration de la tolérance aux pannes en cas de défaillance de nœuds.
Lorsque loptimiseur dun SGBD fourni un plan dexécution dune requête, la QdS
attendue par un utilisateur nest pas forcément satisfaite pour diverses raisons. Dans ce
contexte, la réplication de données permet de répondre à cette dégradation de la QdS suivant
différents scénarios :
(i) Une déconnexion dun nœud contenant la seule copie dune relation peut nuire de
manière durable à la disponibilité de données. Répliquer cette relation sur dautres
nœuds permet de garantir une plus grande disponibilité pour cette relation.
(ii) Laccès à une relation distante à travers un réseau à faible bande passante peut
conduire à un temps de réponse insatisfaisant. Répliquer cette relation sur un nœud
disposant dune plus grande bande passante avec le nœud qui requiert cette relation
permet de réduire ce temps de réponse.
(iii) La surcharge dun nœud peut conduire à un temps de réponse dégradé. Cela peut être
dû à des requêtes complexes ou à un nombre important de requêtes concurrentes,
exécutées sur un nœud ne disposant pas dassez de ressources. Répliquer l es relations
accédées sur un nœud moins chargé permet, par exemple, de résoudre ce problème.
Une solution naïve consiste à répliquer les données sur tous les nœuds dun système.
Néanmoins, cette solution nest pas réaliste vu quelle génère une consommation importante
de ressources en termes de bande passante du réseau et de stockage. Définir des stratégies
de réplication constitue alors la solution à apporter à ces problèmes (Ranganathan and
Foster, 2001). Une stratégie de réplication de données doit absolument répondre aux
problématiques suivantes :
(i) Quand créer/supprimer une réplique ? Répliquer trop tôt ou trop fréquemment
entraîne une utilisation inefficace des ressources et réduit les performances. Une
réplication des données paresseuse ou trop tardive est également préjudiciable, car cela
neutralise les avantages de la réplication.
(ii) Quelles données sont répliquées ? Cela consiste à identifier les données à répliquer
suivant lobjectif de la stratégie de réplication.

Introduction
4
(iii) Où placer une nouvelle réplique ? Cela permet didentifier les nœuds potentiels qui
peuvent recevoir les nouvelles répliques. Ces nœuds doivent notamment disposer dun
espace de stockage suffisant et ne doivent pas être surchargés. La bande passante entre
le nœud de placement et le nœud hébergeant les données à répliquer doit également
être acceptable.
(iv) Combien de répliques sont à créer ? Cela consiste à déterminer le nombre de répliques
nécessaires pour la satisfaction de la QdS.
Dans la littérature, de nombreuses stratégies de réplication de données ont été proposées
pour lamélioration des performances des requêtes en lecture seule ( Edwin et al., 2019;
Mokadem and Hameurlain, 2020). Dautres stratégies visent la satisfaction dautres objectifs,
par exemple la disponibilité de données, tout en assurant une cohérence de données lors des
requêtes de mise à jour (Hsu et al., 2018). Dans ce dernier cas, les performances peuvent être
dégradées si les données sont fréquemment mises à jour. Les avantages de la réplication
peuvent alors être neutralisés par la surcharge liée au maintien de la cohérence entre
plusieurs répliques. Le coût de la réplication dépend alors non seulement du nombre de
répliques mais aussi du temps nécessaire à la propagation des mises à jour. Une
synchronisation globale, avec des protocoles appropriés, est souvent nécessaire entre
différents nœuds contenant ces répliques (Campelo et al., 2020). En général, de tels
protocoles passent difficilement à léchelle. Cest pour cela que la plupart des stratégies de
réplication avec des objectifs de performances ne sintéres sent pas au maintien de la
cohérence des données répliquées.
Le problème de la réplication de données est donc un vaste thème de recherche. La
proposition de nouvelles stratégies de réplication de données doit être adaptée au contexte
des applications tout en prenant en compte le compromis entre des objectifs conflictuels tels
que la disponibilité, la cohérence de données et les performances (Pacitti et al., 2005). Dans
nos travaux de recherche, nous nous intéressons uniquement à la réplication de données
visant lamélioration des performances dans les systèmes de gestion de données à grande
échelle pour des applications décisionnelles OLAP (OnLine Analytical Processing), c'est-à-
dire que les données manipulées sont en lecture seule.
1.2 PROBLEMATIQUES ET MOTIVATIONS
De nombreux travaux se sont intéressés à lamélioration des performances dans les systèmes
distribués et parallèles classiques. Dans ce contexte, de nombreuses stratégies de réplication
de données ont été proposées. Par la suite, plusieurs travaux ont essayé dadapter ces
stratégies aux systèmes à grande échelle tels que les systèmes de grille de données.
1.2.1 Problèmes liés à la réplication de données dans les systèmes de grille de
données
Depuis le début des années 2000, les systèmes de grille de données sont devenus
incontournables pour les applications scientifiques nécessitant une importante puissance de
calcul et de grandes capacités de stockage (Foster, 2002). Dans ce contexte, la réplication de
données permet de garantir une certaine QdS pour les utilisateurs, par exemple en termes de
disponibilité de données et de réduction des temps daccès.

Introduction
5
Bien que de nombreuses stratégies de réplication de données ont été proposées dans les
systèmes distribués classiques (Benoit and Rehn-Sonigo, 2008), ces stratégies ne sont pas
adaptées aux systèmes de grille de données à cause des caractéristiques de ces systèmes, que
nous citons ci-dessous.
Dabord, nous retrouvons les caractéristiques fondamentales des systèmes de grille telles
que la grande échelle et la dynamicité des nœuds. La grande échelle est caractérisée par (i)
un espace de recherche qui dépasse largement celui dun système distribué classique, (ii) des
ressources hautement hétérogènes à différent niveaux (ressources de type matériel, sources
de données, réseau de communication ou environnement de développement), (iii) un
nombre plus important de sources de données et enfin, (iv) un gros volume de données
(Pacitti et al., 2007). La dynamicité signifie quun nœud peut rejoindre ou quitter le système à
nimporte quel moment (Hameurlain and Morvan, 2009). De plus, le mode daccès aux
données par les utilisateurs change constamment dans de tels systèmes. Il est évident que ces
caractéristiques doivent être prises en compte lors de la conception dune stratégie de
réplication dans les grilles de données. Il est alors difficile, voir illusoire, dadapter les
stratégies déjà existantes aux systèmes de grille de données.
Ensuite, les nœuds dun système de grille de données peuvent être organisés suivant
différentes topologies, par exemple une topologie hiérarchique multi-niveaux ou à base de
graphe. Définir une stratégie de réplication universelle pour nimporte quelle grille de
données nest pas envisageable du moment quune stratégie ne produira pas les mêmes
performances pour une architecture de grille ou une autre. Une stratégie de réplication doit
alors être conçue en fonction de la topologie pour laquelle elle a été proposée.
Aussi, les objectifs de la réplication de données cités précédemment savèrent conflictuels
dans les systèmes à grande échelle comme les grilles de données. Ainsi, quand on vise à
répliquer les données pour augmenter leur disponibilité, cela se fait naturellement au prix
dimportants transferts de données entre nœuds distants. De plus, un bon équilibrage de
charge entre les nœuds dun système nest pas forcément garantit. Cela a forcément un
impact sur les performances de tels systèmes. Il convient alors de trouver un compromis
entre différents objectifs.
Dautres problèmes tels que le placement de répliques et la recherche du nombre de
répliques ont fait lobjet de nombreux travaux de recherche à cause de leur impact sur les
performances. Le placement de données dans les systèmes de grille de données est un
problème NP-difficile (Du et al., 2011). Dans ce contexte, de nombreuses stratégies dans la
littérature visent à réduire lespace de recherche, ce qui réduit le temps nécessaire à un tel
placement (Mansouri and Javidi, 2017), tandis que dautres stratégies visent à déterminer un
nombre de répliques proche de loptimal (Muthu and Kumar, 2017).
1.2.2 Problèmes liés à la réplication de données dans les systèmes Cloud
La convergence de deux tendances à savoir la mise à disposition dapplications et la
virtualisation de linfrastructure a donné naissance au paradigme de Cloud Computing
(informatique en nuage) que nous décrivons dans le chapitre 3. Cela a conduit à la
prolifération de nombreuses solutions évolutives de gestion des données telles que le
stockage distribué de fichiers et dobjets (par exemple, HDFS), les bases de données NoSQL
(par exemple, MongoDB) et les frameworks de traitement de données massives (par
exemple, MapReduce et Spark), à la base dune riche offre de services de Cloud (IaaS, PaaS,
Related papers
Mémoires partagées distribuées pour systèmes dynamiques à grande échelle
Vincent Gramoli
2007

download
Download free PDF
View PDF
chevron_right
Infoscience: enrichir la base des journaux et interface de déduplication
David Aymonin

download
Download free PDF
View PDF
chevron_right
Edition collaborative sur réseau pair-à-pair à large échelle
Pascal Molli
2005
download
Download free PDF
View PDF
chevron_right
Une démarche conjointe de fragmentation et de placement dans le cadre des entrepôts de données
parallèles
Soumia BENKRID
Techniques et sciences informatiques, 2011

download
Download free PDF
View PDF
chevron_right
Une pénalité de groupe pour des données multivoie de grande dimension
Vincent Perlbarg
2015

download
Download free PDF
View PDF
chevron_right
PF-ETL : vers l'intégration de données massives dans les fonctionnalités d'ETL
Mahfoud Bala
2014

download
Download free PDF
View PDF
chevron_right
Une approche algébrique pour la réutilisation et l'orchestration de services dans les sysèmes d'information
Yann Pollet
Ingénierie Des Systèmes D'information, 2010

download
Download free PDF
View PDF
chevron_right
Une Plateforme ETL parallèle et distribuée pour l'intégration de données massives
Oussama Mokeddem
2015

download
Download free PDF
View PDF
chevron_right
Gestion des ressources et réplication adaptative pour fiabiliser les sma
Zahia Guessoum
2009
download
Download free PDF
View PDF
chevron_right
INFRASTRUCTURE POUR LE BIG DATA DANS UN RÉSEAU SDN
Andrianambinina M Rabenarivo
2015

download
Download free PDF
View PDF
chevron_right
Contrôle de la réplication dans les SGBD temps réel distribués
Anis Haj Said
unicaen.fr

download
Download free PDF
View PDF
chevron_right
Algorithme de maintien de cohérence dans les bases de données réparties sur grappes d'ordinateurs
Constant Wette Tchouati
2000

download
Download free PDF
View PDF
chevron_right
Le projet Petits Films: du retour aux participants à la valorisation des données
Vanessa Piccoli, Biagio Ursi

download
Download free PDF
View PDF
chevron_right
Architecture répartie à large échelle pour le traitement parallèle de requêtes de biodiversité
Idrissa Sarr
2012

download
Download free PDF
View PDF
chevron_right
Vers une approche à la MDA pour le développement d’entrepôts de données
Hanêne Ben-Abdallah

download
Download free PDF
View PDF
chevron_right
Gestion de masses de donn�es au sein de bases de donn�es capteurs
Sylvie Servigne
2009

download
Download free PDF
View PDF
chevron_right
Rapport du groupe de travail sur la gestion et le partage des données
Christine Gaspin
2012

download
Download free PDF
View PDF
chevron_right
La force de la mise en commun des données des partenaires : inventaire national, gestion et recherche
Nina Ognouabi

download
Download free PDF
View PDF
chevron_right
Appel à contributions - La fabrique de l'intelligibilité des données dans les organisations
Marie-Hélène Hermand
Revue Communication & Organisation, 2023

download
Download free PDF
View PDF
chevron_right
Étude des Stratégies de réplication de données prenant en compte la consommation énergétique vs. le
profit économique dans les systèmes Cloud
Riad Mokadem
Conférence d'informatique en Parallélisme, Architecture et Système (ComPAS 2019), 2019

download
Download free PDF
View PDF
chevron_right
Big data, le cas des systèmes d’information
Yoann PITARCH
Ingénierie des systèmes d'information, 2014

download
Download free PDF
View PDF
chevron_right
Vers davantage de flexibilité et d’expressivité dans les hiérarchies contextuelles des entrepôts de données
Cécile Favre

download
Download free PDF
View PDF
chevron_right
Le paradoxe de la productivité: l'apport des micro-données
Dirk Pilat

download
Download free PDF
View PDF
chevron_right
Gestion de masses de données au sein de bases de données capteurs
Thomas Devogele
Revue internationale de géomatique, 2009

download
Download free PDF
View PDF
chevron_right
Entrepôts de données multidimensionnelles réduites: principes et expérimentations
G. Zurfluh, Franck Ravat

download
Download free PDF
View PDF
chevron_right
Related topics
Computer Science
Data Management
Performance
Cloud Computing
Databases
Elasticity
Performances
Data Replication
Gestion De Données
Find new research papers in:
Physics
Chemistry
Biology
Health Sciences
Ecology
Earth Sciences
Cognitive Science
Mathematics
Computer Science

Vous aimerez peut-être aussi