Téléchargez comme RTF, PDF, TXT ou lisez en ligne sur Scribd
Télécharger au format rtf, pdf ou txt
Vous êtes sur la page 1sur 7
TD N°1: (Questions de cours)
Objectif: Evaluation de l’acquisition des notions présentés durant les deux premiers chapitres ( Big Data et l’écosystème Hadoop).
1) Rappeler les 5Vs des Big Data avec leurs
définitions ? • Volume : Quantité de données générées et stockées. Cela peut aller de quelques mégaoctets à des pétaoctets. • Vélocité : Vitesse à laquelle les données sont générées et traitées. Cela inclut le flux continu de données en temps réel. • Variété : Diversité des types de données (structurées, semi-structurées, non structurées) provenant de différentes sources. • Véracité : Fiabilité et précision des données. Cela concerne la qualité des données et leur capacité à être utilisées pour des analyses. • Valeur : Utilité des données pour générer des insights et prendre des décisions éclairées. 2) Quels sont les différents types de traitement et quel est le meilleur ? Expliquer ? Les types de traitement des données incluent : • Batch Processing : Traitement de grandes quantités de données à intervalles réguliers. Idéal pour les analyses historiques. • Stream Processing : Traitement des données en temps réel à mesure qu'elles sont générées. Idéal pour les applications nécessitant des réponses instantanées. • Micro-batch Processing : Combinaison des deux précédents, où les données sont traitées en petits lots presque en temps réel. Le meilleur type de traitement dépend du cas d'utilisation. Pour des analyses historiques, le batch processing est approprié, tandis que pour des applications nécessitant une réponse immédiate, le stream processing est préférable. 3) Qui sont les GAFA ? Les GAFA désignent les quatre grandes entreprises technologiques : • Google • Apple • Facebook (maintenant Meta) • Amazon 4) Définir le terme « données massives » ? Les données massives (ou Big Data) désignent des ensembles de données si volumineux et complexes qu'ils nécessitent des outils et des technologies spécifiques pour être traités, analysés et visualisés. Ces données proviennent de diverses sources et peuvent inclure des données structurées, semi-structurées et non structurées. 5) Donner un exemple de scénario où le traitement en temps réel (Real-time processing) est le plus adéquat ? Un exemple serait la détection de fraudes dans les transactions bancaires. Les systèmes peuvent analyser les transactions en temps réel pour identifier des comportements suspects et alerter immédiatement les utilisateurs ou bloquer les transactions. 6) Comment le Big Data intervient dans les domaines de fouille de données et prédiction/prévision ? Quelle est la relation entre eux ? Le Big Data permet d'analyser de vastes ensembles de données pour découvrir des motifs et des tendances (fouille de données). Ces analyses peuvent ensuite être utilisées pour faire des prédictions et des prévisions sur des événements futurs. La relation entre les deux est que la fouille de données fournit les insights nécessaires pour la prédiction. 7) Quels sont les problématiques liées au stockage des données massives ? • Scalabilité : Capacité à stocker et à gérer une croissance exponentielle des données. • Coût : Les solutions de stockage peuvent devenir coûteuses avec l'augmentation du volume de données. • Performance : Accéder et traiter rapidement de grandes quantités de données peut être un défi. • Sécurité : Protéger les données sensibles contre les violations et les accès non autorisés. • Intégrité : Assurer que les données sont exactes et fiables tout au long de leur cycle de vie. 8) Rappeler le principe de scale-up et scale- out ? Quel est le meilleur entre les deux ? • Scale-up : Augmenter les ressources d'un seul serveur (ajouter de la mémoire, des CPU, etc.). • Scale-out : Ajouter plus de serveurs pour répartir la charge de travail. Le meilleur choix dépend du cas d'utilisation. Le scale- up est souvent plus simple à gérer, mais le scale-out offre une meilleure flexibilité et résilience. 9) Quels sont les systèmes de stockage adoptés à l’ère du Big Data ? • Hadoop Distributed File System (HDFS) • NoSQL Databases (comme MongoDB, Cassandra) • Data Lakes • Cloud Storage Solutions (comme Amazon S3, Google Cloud Storage) 6 10 Décrire le pipeline Big Data et ses différentes étapes : ◦ Ingestion : Collecte des données provenant de diverses sources. ◦ Stockage : Les données ingérées sont stockées dans des systèmes de fichiers distribués ou des bases de données. ◦ Traitement : Les données sont nettoyées, transformées et analysées pour en extraire des informations utiles. ◦ Analyse : Utilisation d'outils d'analyse avancée pour extraire des insights. ◦ Visualisation : Présentation des résultats sous forme de rapports, graphiques ou tableaux de bord. 7 12 Donner les deux composants principaux de Hadoop ? Donner les rôles de chacun : ◦ HDFS (Hadoop Distributed File System) : Système de stockage distribué qui gère le stockage des données sur plusieurs nœuds. ◦ MapReduce : Modèle de programmation pour le traitement des données sur les clusters. Il divise les tâches en étapes de "Map" (filtrage et tri) et de "Reduce" (agrégation). 8 13 Rappeler les critères Big Data que Hadoop assure : ◦ Coût-efficacité : Hadoop fonctionne sur des serveurs standard et peut être déployé sur du matériel peu coûteux, ce qui réduit considérablement les coûts d'infrastructure par rapport aux solutions traditionnelles. ◦ Évolutivité : Hadoop est hautement évolutif. Il permet d'ajouter facilement de nouvelles machines au cluster pour augmenter la capacité de stockage et de traitement sans interruption des services. ◦ Scalabilité : Facilité à ajouter des ressources. ◦ Tolérance aux pannes : Résilience en cas de défaillance d'un nœud. 9 14 Expliquer le principe Rack Awareness : ◦ Rack Awareness est une technique utilisée par HDFS pour améliorer la tolérance aux pannes. Elle consiste à distribuer les copies des données sur des racks différents (ensemble de serveurs) pour réduire la perte de données en cas de défaillance d'un rack entier. 10 15 Expliquer le principe de fonctionnement de Hadoop : ◦ Hadoop fonctionne en stockant les données sur HDFS et en les traitant via MapReduce. Les données sont réparties en blocs et stockées de manière distribuée. MapReduce divise le traitement en plusieurs tâches qui s'exécutent sur différents nœuds du cluster, puis agrège les résultats. 11 16 Quel est le rôle de HBase dans l’écosystème Hadoop ? ◦ HBase est une base de données NoSQL distribuée, idéale pour le stockage de données non structurées. Elle permet d'accéder aux données en temps réel et s'intègre étroitement avec HDFS pour le stockage. 12 17 Quel est le rôle de Hive dans l’écosystème Hadoop ? ◦ Hive permet d'interroger des données stockées dans HDFS à l'aide d'un langage proche du SQL, appelé HiveQL. Il simplifie l'accès aux données pour ceux qui sont familiers avec SQL. 13 18 Hadoop est une solution Big Data à moindre coût, justifiez pourquoi ? ◦ Hadoop repose sur des serveurs standards (commodités) plutôt que sur des équipements spécialisés. Son logiciel est open-source, ce qui réduit les coûts de licence, et il permet une scalabilité horizontale, ce qui limite les dépenses en matériel. 14 19 HDFS est un système de fichier distribué, extensible, portable et tolérant aux pannes ? expliquer pourquoi ? ◦ Distribué : Les données sont stockées sur plusieurs nœuds. ◦ Extensible : Facilité à ajouter des nœuds pour augmenter la capacité. ◦ Portable : Peut être déployé sur divers types de matériel. ◦ Tolérant aux pannes : Réplication des données pour éviter la perte en cas de défaillance de nœuds. 15 20 Quelle est la différence entre JobTracker et TaskTracker ? ◦ JobTracker gère la répartition des tâches dans le cluster, tandis que le TaskTracker exécute les tâches sur chaque nœud. 16 21 Quelle est la différence entre NameNode et DataNode ? ◦ NameNode gère les métadonnées et la structure du système de fichiers HDFS. DataNode stocke les blocs de données réels. 17 22 Décrire l’architecture de système de fichier HDFS : ◦ HDFS se compose d'un NameNode qui gère la structure et les métadonnées du système de fichiers, et de DataNodes qui stockent les blocs de données. Les données sont répliquées pour assurer la tolérance aux pannes. 18 23 Quelle est la différence entre MapReduce Version 1 et MapReduce Version 2 ? ◦ MapReduce Version 1 repose sur un JobTracker centralisé. Version 2 (aussi appelée YARN) sépare les tâches de gestion des ressources (ResourceManager) de celles de planification des tâches (ApplicationMaster), offrant plus de flexibilité et de scalabilité.