TD1 Correction

Télécharger au format rtf, pdf ou txt
Télécharger au format rtf, pdf ou txt
Vous êtes sur la page 1sur 7

TD N°1: (Questions de cours)

Objectif:
Evaluation de l’acquisition des notions présentés durant les deux premiers chapitres
( Big Data et l’écosystème Hadoop).

1) Rappeler les 5Vs des Big Data avec leurs


définitions ?
• Volume : Quantité de données générées et stockées.
Cela peut aller de quelques mégaoctets à des
pétaoctets.
• Vélocité : Vitesse à laquelle les données sont générées
et traitées. Cela inclut le flux continu de données en
temps réel.
• Variété : Diversité des types de données (structurées,
semi-structurées, non structurées) provenant de
différentes sources.
• Véracité : Fiabilité et précision des données. Cela
concerne la qualité des données et leur capacité à être
utilisées pour des analyses.
• Valeur : Utilité des données pour générer des insights
et prendre des décisions éclairées.
2) Quels sont les différents types de
traitement et quel est le meilleur ? Expliquer
?
Les types de traitement des données incluent :
• Batch Processing : Traitement de grandes quantités de
données à intervalles réguliers. Idéal pour les analyses
historiques.
• Stream Processing : Traitement des données en temps
réel à mesure qu'elles sont générées. Idéal pour les
applications nécessitant des réponses instantanées.
• Micro-batch Processing : Combinaison des deux
précédents, où les données sont traitées en petits lots
presque en temps réel.
Le meilleur type de traitement dépend du cas
d'utilisation. Pour des analyses historiques, le batch
processing est approprié, tandis que pour des
applications nécessitant une réponse immédiate, le
stream processing est préférable.
3) Qui sont les GAFA ?
Les GAFA désignent les quatre grandes entreprises
technologiques :
• Google
• Apple
• Facebook (maintenant Meta)
• Amazon
4) Définir le terme « données massives » ?
Les données massives (ou Big Data) désignent des
ensembles de données si volumineux et complexes
qu'ils nécessitent des outils et des technologies
spécifiques pour être traités, analysés et visualisés. Ces
données proviennent de diverses sources et peuvent
inclure des données structurées, semi-structurées et
non structurées.
5) Donner un exemple de scénario où le
traitement en temps réel (Real-time
processing) est le plus adéquat ?
Un exemple serait la détection de fraudes dans les
transactions bancaires. Les systèmes peuvent analyser
les transactions en temps réel pour identifier des
comportements suspects et alerter immédiatement les
utilisateurs ou bloquer les transactions.
6) Comment le Big Data intervient dans les
domaines de fouille de données et
prédiction/prévision ? Quelle est la relation
entre eux ?
Le Big Data permet d'analyser de vastes ensembles de
données pour découvrir des motifs et des tendances
(fouille de données). Ces analyses peuvent ensuite être
utilisées pour faire des prédictions et des prévisions sur
des événements futurs. La relation entre les deux est
que la fouille de données fournit les insights
nécessaires pour la prédiction.
7) Quels sont les problématiques liées au
stockage des données massives ?
• Scalabilité : Capacité à stocker et à gérer une
croissance exponentielle des données.
• Coût : Les solutions de stockage peuvent devenir
coûteuses avec l'augmentation du volume de données.
• Performance : Accéder et traiter rapidement de
grandes quantités de données peut être un défi.
• Sécurité : Protéger les données sensibles contre les
violations et les accès non autorisés.
• Intégrité : Assurer que les données sont exactes et
fiables tout au long de leur cycle de vie.
8) Rappeler le principe de scale-up et scale-
out ? Quel est le meilleur entre les deux ?
• Scale-up : Augmenter les ressources d'un seul serveur
(ajouter de la mémoire, des CPU, etc.).
• Scale-out : Ajouter plus de serveurs pour répartir la
charge de travail.
Le meilleur choix dépend du cas d'utilisation. Le scale-
up est souvent plus simple à gérer, mais le scale-out
offre une meilleure flexibilité et résilience.
9) Quels sont les systèmes de stockage
adoptés à l’ère du Big Data ?
• Hadoop Distributed File System (HDFS)
• NoSQL Databases (comme MongoDB, Cassandra)
• Data Lakes
• Cloud Storage Solutions (comme Amazon S3, Google
Cloud Storage)
6 10 Décrire le pipeline Big Data et ses
différentes étapes :
◦ Ingestion : Collecte des données provenant de
diverses sources.
◦ Stockage : Les données ingérées sont stockées
dans des systèmes de fichiers distribués ou des
bases de données.
◦ Traitement : Les données sont nettoyées,
transformées et analysées pour en extraire des
informations utiles.
◦ Analyse : Utilisation d'outils d'analyse avancée
pour extraire des insights.
◦ Visualisation : Présentation des résultats sous
forme de rapports, graphiques ou tableaux de
bord.
7 12 Donner les deux composants principaux
de Hadoop ? Donner les rôles de chacun :
◦ HDFS (Hadoop Distributed File System) :
Système de stockage distribué qui gère le
stockage des données sur plusieurs nœuds.
◦ MapReduce : Modèle de programmation pour le
traitement des données sur les clusters. Il divise
les tâches en étapes de "Map" (filtrage et tri) et
de "Reduce" (agrégation).
8 13 Rappeler les critères Big Data que
Hadoop assure :
◦ Coût-efficacité : Hadoop fonctionne sur des serveurs
standard et peut être déployé sur du matériel peu
coûteux, ce qui réduit considérablement les coûts
d'infrastructure par rapport aux solutions
traditionnelles.
◦ Évolutivité : Hadoop est hautement évolutif. Il permet
d'ajouter facilement de nouvelles machines au cluster
pour augmenter la capacité de stockage et de
traitement sans interruption des services.
◦ Scalabilité : Facilité à ajouter des ressources.
◦ Tolérance aux pannes : Résilience en cas de
défaillance d'un nœud.
9 14 Expliquer le principe Rack Awareness :
◦ Rack Awareness est une technique utilisée par
HDFS pour améliorer la tolérance aux pannes.
Elle consiste à distribuer les copies des données
sur des racks différents (ensemble de serveurs)
pour réduire la perte de données en cas de
défaillance d'un rack entier.
10 15 Expliquer le principe de fonctionnement
de Hadoop :
◦ Hadoop fonctionne en stockant les données sur
HDFS et en les traitant via MapReduce. Les
données sont réparties en blocs et stockées de
manière distribuée. MapReduce divise le
traitement en plusieurs tâches qui s'exécutent
sur différents nœuds du cluster, puis agrège les
résultats.
11 16 Quel est le rôle de HBase dans
l’écosystème Hadoop ?
◦ HBase est une base de données NoSQL
distribuée, idéale pour le stockage de données
non structurées. Elle permet d'accéder aux
données en temps réel et s'intègre étroitement
avec HDFS pour le stockage.
12 17 Quel est le rôle de Hive dans
l’écosystème Hadoop ?
◦ Hive permet d'interroger des données stockées
dans HDFS à l'aide d'un langage proche du SQL,
appelé HiveQL. Il simplifie l'accès aux données
pour ceux qui sont familiers avec SQL.
13 18 Hadoop est une solution Big Data à
moindre coût, justifiez pourquoi ?
◦ Hadoop repose sur des serveurs standards
(commodités) plutôt que sur des équipements
spécialisés. Son logiciel est open-source, ce qui
réduit les coûts de licence, et il permet une
scalabilité horizontale, ce qui limite les dépenses
en matériel.
14 19 HDFS est un système de fichier
distribué, extensible, portable et tolérant
aux pannes ? expliquer pourquoi ?
◦ Distribué : Les données sont stockées sur
plusieurs nœuds.
◦ Extensible : Facilité à ajouter des nœuds pour
augmenter la capacité.
◦ Portable : Peut être déployé sur divers types de
matériel.
◦ Tolérant aux pannes : Réplication des données
pour éviter la perte en cas de défaillance de
nœuds.
15 20 Quelle est la différence entre JobTracker
et TaskTracker ?
◦ JobTracker gère la répartition des tâches dans
le cluster, tandis que le TaskTracker exécute les
tâches sur chaque nœud.
16 21 Quelle est la différence entre NameNode
et DataNode ?
◦ NameNode gère les métadonnées et la structure
du système de fichiers HDFS. DataNode stocke
les blocs de données réels.
17 22 Décrire l’architecture de système de
fichier HDFS :
◦ HDFS se compose d'un NameNode qui gère la
structure et les métadonnées du système de
fichiers, et de DataNodes qui stockent les blocs
de données. Les données sont répliquées pour
assurer la tolérance aux pannes.
18 23 Quelle est la différence entre
MapReduce Version 1 et MapReduce
Version 2 ?
◦ MapReduce Version 1 repose sur un
JobTracker centralisé. Version 2 (aussi appelée
YARN) sépare les tâches de gestion des
ressources (ResourceManager) de celles de
planification des tâches (ApplicationMaster),
offrant plus de flexibilité et de scalabilité.

Vous aimerez peut-être aussi