Crypto
Crypto
Crypto
3
dobjets à répliquer sont les relations et les fichiers. Une granularité de réplication est l'unité
de données minimale quon réplique dans un système de gestion de données (Kunszt et al.,
2005). Dans la suite de ce manuscrit, un fragment de relation (quon appellera relation pour
simplifier) constitue la granularité de réplication. Par ailleurs, le facteur de réplication,
correspond au nombre total de répliques dun objet dans le système. Il est également utile de
préciser que la réplication de données est souvent à linitiative du serveur et doit être
transparente pour les applications. Enfin, nous verrons que lorsque la réplication intervient
dans un système déjà opérationnel, c'est-à-dire lors de la réception des requêtes des
utilisateurs, on parle alors dune réplication dynamique.
La réplication de données vise à satisfaire différents objectifs : (i) laugmentation de la
disponibilité de données, (ii) lamélioration des performances daccès en réduisant les coûts de
communication (à travers le placement des répliques près des utilisateurs), en exploitant le
parallélisme (à travers laccès parallèle à différentes répliques situées sur différents nœuds),
ou encore en améliorant léquilibrage de charge (à travers la réplication des données
fortement accédées sur différents nœuds), (iii) laugmentation de la fiabilité de données en
fournissant des répliques appropriées de données si une partie de ces données est
corrompue, et (iv) lamélioration de la tolérance aux pannes en cas de défaillance de nœuds.
Lorsque loptimiseur dun SGBD fourni un plan dexécution dune requête, la QdS
attendue par un utilisateur nest pas forcément satisfaite pour diverses raisons. Dans ce
contexte, la réplication de données permet de répondre à cette dégradation de la QdS suivant
différents scénarios :
(i) Une déconnexion dun nœud contenant la seule copie dune relation peut nuire de
manière durable à la disponibilité de données. Répliquer cette relation sur dautres
nœuds permet de garantir une plus grande disponibilité pour cette relation.
(ii) Laccès à une relation distante à travers un réseau à faible bande passante peut
conduire à un temps de réponse insatisfaisant. Répliquer cette relation sur un nœud
disposant dune plus grande bande passante avec le nœud qui requiert cette relation
permet de réduire ce temps de réponse.
(iii) La surcharge dun nœud peut conduire à un temps de réponse dégradé. Cela peut être
dû à des requêtes complexes ou à un nombre important de requêtes concurrentes,
exécutées sur un nœud ne disposant pas dassez de ressources. Répliquer l es relations
accédées sur un nœud moins chargé permet, par exemple, de résoudre ce problème.
Une solution naïve consiste à répliquer les données sur tous les nœuds dun système.
Néanmoins, cette solution nest pas réaliste vu quelle génère une consommation importante
de ressources en termes de bande passante du réseau et de stockage. Définir des stratégies
de réplication constitue alors la solution à apporter à ces problèmes (Ranganathan and
Foster, 2001). Une stratégie de réplication de données doit absolument répondre aux
problématiques suivantes :
(i) Quand créer/supprimer une réplique ? Répliquer trop tôt ou trop fréquemment
entraîne une utilisation inefficace des ressources et réduit les performances. Une
réplication des données paresseuse ou trop tardive est également préjudiciable, car cela
neutralise les avantages de la réplication.
(ii) Quelles données sont répliquées ? Cela consiste à identifier les données à répliquer
suivant lobjectif de la stratégie de réplication.
Introduction
4
(iii) Où placer une nouvelle réplique ? Cela permet didentifier les nœuds potentiels qui
peuvent recevoir les nouvelles répliques. Ces nœuds doivent notamment disposer dun
espace de stockage suffisant et ne doivent pas être surchargés. La bande passante entre
le nœud de placement et le nœud hébergeant les données à répliquer doit également
être acceptable.
(iv) Combien de répliques sont à créer ? Cela consiste à déterminer le nombre de répliques
nécessaires pour la satisfaction de la QdS.
Dans la littérature, de nombreuses stratégies de réplication de données ont été proposées
pour lamélioration des performances des requêtes en lecture seule ( Edwin et al., 2019;
Mokadem and Hameurlain, 2020). Dautres stratégies visent la satisfaction dautres objectifs,
par exemple la disponibilité de données, tout en assurant une cohérence de données lors des
requêtes de mise à jour (Hsu et al., 2018). Dans ce dernier cas, les performances peuvent être
dégradées si les données sont fréquemment mises à jour. Les avantages de la réplication
peuvent alors être neutralisés par la surcharge liée au maintien de la cohérence entre
plusieurs répliques. Le coût de la réplication dépend alors non seulement du nombre de
répliques mais aussi du temps nécessaire à la propagation des mises à jour. Une
synchronisation globale, avec des protocoles appropriés, est souvent nécessaire entre
différents nœuds contenant ces répliques (Campelo et al., 2020). En général, de tels
protocoles passent difficilement à léchelle. Cest pour cela que la plupart des stratégies de
réplication avec des objectifs de performances ne sintéres sent pas au maintien de la
cohérence des données répliquées.
Le problème de la réplication de données est donc un vaste thème de recherche. La
proposition de nouvelles stratégies de réplication de données doit être adaptée au contexte
des applications tout en prenant en compte le compromis entre des objectifs conflictuels tels
que la disponibilité, la cohérence de données et les performances (Pacitti et al., 2005). Dans
nos travaux de recherche, nous nous intéressons uniquement à la réplication de données
visant lamélioration des performances dans les systèmes de gestion de données à grande
échelle pour des applications décisionnelles OLAP (OnLine Analytical Processing), c'est-à-
dire que les données manipulées sont en lecture seule.
1.2 PROBLEMATIQUES ET MOTIVATIONS
De nombreux travaux se sont intéressés à lamélioration des performances dans les systèmes
distribués et parallèles classiques. Dans ce contexte, de nombreuses stratégies de réplication
de données ont été proposées. Par la suite, plusieurs travaux ont essayé dadapter ces
stratégies aux systèmes à grande échelle tels que les systèmes de grille de données.
1.2.1 Problèmes liés à la réplication de données dans les systèmes de grille de
données
Depuis le début des années 2000, les systèmes de grille de données sont devenus
incontournables pour les applications scientifiques nécessitant une importante puissance de
calcul et de grandes capacités de stockage (Foster, 2002). Dans ce contexte, la réplication de
données permet de garantir une certaine QdS pour les utilisateurs, par exemple en termes de
disponibilité de données et de réduction des temps daccès.
Introduction
5
Bien que de nombreuses stratégies de réplication de données ont été proposées dans les
systèmes distribués classiques (Benoit and Rehn-Sonigo, 2008), ces stratégies ne sont pas
adaptées aux systèmes de grille de données à cause des caractéristiques de ces systèmes, que
nous citons ci-dessous.
Dabord, nous retrouvons les caractéristiques fondamentales des systèmes de grille telles
que la grande échelle et la dynamicité des nœuds. La grande échelle est caractérisée par (i)
un espace de recherche qui dépasse largement celui dun système distribué classique, (ii) des
ressources hautement hétérogènes à différent niveaux (ressources de type matériel, sources
de données, réseau de communication ou environnement de développement), (iii) un
nombre plus important de sources de données et enfin, (iv) un gros volume de données
(Pacitti et al., 2007). La dynamicité signifie quun nœud peut rejoindre ou quitter le système à
nimporte quel moment (Hameurlain and Morvan, 2009). De plus, le mode daccès aux
données par les utilisateurs change constamment dans de tels systèmes. Il est évident que ces
caractéristiques doivent être prises en compte lors de la conception dune stratégie de
réplication dans les grilles de données. Il est alors difficile, voir illusoire, dadapter les
stratégies déjà existantes aux systèmes de grille de données.
Ensuite, les nœuds dun système de grille de données peuvent être organisés suivant
différentes topologies, par exemple une topologie hiérarchique multi-niveaux ou à base de
graphe. Définir une stratégie de réplication universelle pour nimporte quelle grille de
données nest pas envisageable du moment quune stratégie ne produira pas les mêmes
performances pour une architecture de grille ou une autre. Une stratégie de réplication doit
alors être conçue en fonction de la topologie pour laquelle elle a été proposée.
Aussi, les objectifs de la réplication de données cités précédemment savèrent conflictuels
dans les systèmes à grande échelle comme les grilles de données. Ainsi, quand on vise à
répliquer les données pour augmenter leur disponibilité, cela se fait naturellement au prix
dimportants transferts de données entre nœuds distants. De plus, un bon équilibrage de
charge entre les nœuds dun système nest pas forcément garantit. Cela a forcément un
impact sur les performances de tels systèmes. Il convient alors de trouver un compromis
entre différents objectifs.
Dautres problèmes tels que le placement de répliques et la recherche du nombre de
répliques ont fait lobjet de nombreux travaux de recherche à cause de leur impact sur les
performances. Le placement de données dans les systèmes de grille de données est un
problème NP-difficile (Du et al., 2011). Dans ce contexte, de nombreuses stratégies dans la
littérature visent à réduire lespace de recherche, ce qui réduit le temps nécessaire à un tel
placement (Mansouri and Javidi, 2017), tandis que dautres stratégies visent à déterminer un
nombre de répliques proche de loptimal (Muthu and Kumar, 2017).
1.2.2 Problèmes liés à la réplication de données dans les systèmes Cloud
La convergence de deux tendances à savoir la mise à disposition dapplications et la
virtualisation de linfrastructure a donné naissance au paradigme de Cloud Computing
(informatique en nuage) que nous décrivons dans le chapitre 3. Cela a conduit à la
prolifération de nombreuses solutions évolutives de gestion des données telles que le
stockage distribué de fichiers et dobjets (par exemple, HDFS), les bases de données NoSQL
(par exemple, MongoDB) et les frameworks de traitement de données massives (par
exemple, MapReduce et Spark), à la base dune riche offre de services de Cloud (IaaS, PaaS,
Related papers
Mémoires partagées distribuées pour systèmes dynamiques à grande échelle
Vincent Gramoli
2007
download
Download free PDF
View PDF
chevron_right
Infoscience: enrichir la base des journaux et interface de déduplication
David Aymonin
download
Download free PDF
View PDF
chevron_right
Edition collaborative sur réseau pair-à-pair à large échelle
Pascal Molli
2005
download
Download free PDF
View PDF
chevron_right
Une démarche conjointe de fragmentation et de placement dans le cadre des entrepôts de données
parallèles
Soumia BENKRID
Techniques et sciences informatiques, 2011
download
Download free PDF
View PDF
chevron_right
Une pénalité de groupe pour des données multivoie de grande dimension
Vincent Perlbarg
2015
download
Download free PDF
View PDF
chevron_right
PF-ETL : vers l'intégration de données massives dans les fonctionnalités d'ETL
Mahfoud Bala
2014
download
Download free PDF
View PDF
chevron_right
Une approche algébrique pour la réutilisation et l'orchestration de services dans les sysèmes d'information
Yann Pollet
Ingénierie Des Systèmes D'information, 2010
download
Download free PDF
View PDF
chevron_right
Une Plateforme ETL parallèle et distribuée pour l'intégration de données massives
Oussama Mokeddem
2015
download
Download free PDF
View PDF
chevron_right
Gestion des ressources et réplication adaptative pour fiabiliser les sma
Zahia Guessoum
2009
download
Download free PDF
View PDF
chevron_right
INFRASTRUCTURE POUR LE BIG DATA DANS UN RÉSEAU SDN
Andrianambinina M Rabenarivo
2015
download
Download free PDF
View PDF
chevron_right
Contrôle de la réplication dans les SGBD temps réel distribués
Anis Haj Said
unicaen.fr
download
Download free PDF
View PDF
chevron_right
Algorithme de maintien de cohérence dans les bases de données réparties sur grappes d'ordinateurs
Constant Wette Tchouati
2000
download
Download free PDF
View PDF
chevron_right
Le projet Petits Films: du retour aux participants à la valorisation des données
Vanessa Piccoli, Biagio Ursi
download
Download free PDF
View PDF
chevron_right
Architecture répartie à large échelle pour le traitement parallèle de requêtes de biodiversité
Idrissa Sarr
2012
download
Download free PDF
View PDF
chevron_right
Vers une approche à la MDA pour le développement d’entrepôts de données
Hanêne Ben-Abdallah
download
Download free PDF
View PDF
chevron_right
Gestion de masses de donn�es au sein de bases de donn�es capteurs
Sylvie Servigne
2009
download
Download free PDF
View PDF
chevron_right
Rapport du groupe de travail sur la gestion et le partage des données
Christine Gaspin
2012
download
Download free PDF
View PDF
chevron_right
La force de la mise en commun des données des partenaires : inventaire national, gestion et recherche
Nina Ognouabi
download
Download free PDF
View PDF
chevron_right
Appel à contributions - La fabrique de l'intelligibilité des données dans les organisations
Marie-Hélène Hermand
Revue Communication & Organisation, 2023
download
Download free PDF
View PDF
chevron_right
Étude des Stratégies de réplication de données prenant en compte la consommation énergétique vs. le
profit économique dans les systèmes Cloud
Riad Mokadem
Conférence d'informatique en Parallélisme, Architecture et Système (ComPAS 2019), 2019
download
Download free PDF
View PDF
chevron_right
Big data, le cas des systèmes d’information
Yoann PITARCH
Ingénierie des systèmes d'information, 2014
download
Download free PDF
View PDF
chevron_right
Vers davantage de flexibilité et d’expressivité dans les hiérarchies contextuelles des entrepôts de données
Cécile Favre
download
Download free PDF
View PDF
chevron_right
Le paradoxe de la productivité: l'apport des micro-données
Dirk Pilat
download
Download free PDF
View PDF
chevron_right
Gestion de masses de données au sein de bases de données capteurs
Thomas Devogele
Revue internationale de géomatique, 2009
download
Download free PDF
View PDF
chevron_right
Entrepôts de données multidimensionnelles réduites: principes et expérimentations
G. Zurfluh, Franck Ravat
download
Download free PDF
View PDF
chevron_right
Related topics
Computer Science
Data Management
Performance
Cloud Computing
Databases
Elasticity
Performances
Data Replication
Gestion De Données
Find new research papers in:
Physics
Chemistry
Biology
Health Sciences
Ecology
Earth Sciences
Cognitive Science
Mathematics
Computer Science