Cours de Big Data LF2 IG ESB
Cours de Big Data LF2 IG ESB
Cours de Big Data LF2 IG ESB
Informatique Décisionnelle"
Assuré par Mourali O.
Promotion LF IG – 2ème année
Année universitaire 2018/19
1
Sommaire
Partie I: Big Data
Introduction au Big Data
Présentation de Hadoop
Hadoop Distributed File System (HDFS)
MapReduce
Partie II: Informatique décisionnelle
Introduction et définition des SID.
Architecture des SID.
Modélisation et stockage de données
Entrepôts de données.
Opérateurs et requêtes avancés.
2
Partie I:
3
Introduction au Big Data
Ses Caractéristiques,
4
Introduction au Big Data
Propriété intrinsèque de la donnée:
elle pousse
5
Introduction au Big Data
20% uniquement des données disponibles peuvent être
traitées par les systèmes traditionnels.
6
Introduction au Big Data
Un monde continuellement interconnecté et instrumentalisé
7
Caractéristiques du Big Data
4V = Volume, Velocity, Variety, Veracity
8
Pourquoi le Big Data
9
Domaines d’application
10
Les 5 Uses Cases du Big Data
11
Plateforme de Big Data:
12
Présentation de Hadoop
Pourquoi? Quand? Où?
Comparé aux systèmes de Gestion des BDr.
Architecture de Hadoop
HDFS
MapReduce
Hadoop Common
Ecosystem of related projects
Pig, Hive, Jaql
Other projects
13
Importance de Hadoop
«Nous croyons que plus de la moitié des données du monde sera
stockée dans Apache Hadoop durant les cinq ans à venir »
14
améliorations du Hardware à travers
les années ...
Vitesse CPU
1990 – 44 MIPS at 40 MHz
2010 – 147,600 MIPS at 3.3 GHz
RAM Memory
1990 – 640K conventional memory (256K extended memory
recommended)
2010 – 8-32GB (and more)
Disk Capacity
1990 – 20MB
2010 – 1TB
15
améliorations du Hardware à travers
les années ...
Disk Latency ( vitesse de lecture et d’écriture ) - pas beaucoup
d'améliorations dans les 10 dernières années , actuellement
environ 70 - 80MB / sec
16
Parallel Data Processing est la
réponse!
Nous avons travaillé longtemps avec:
- GRID computing - propage la charge de traitement –
17
Parallel Data Processing est la
réponse!
18
Parallel Data Processing est la
réponse!
Challenges du Distributed computing :
Hétérogénéité
Extensibilité
Sécurité
Evolutivité
Concurrence
La tolérance aux pannes
19
What is Hadoop?
Apache framework est un environnement open source
l'utilisateur
Développé en Java
20
What is Hadoop?
Consiste en 3 Sous projets:
− Hadoop Common
− MapReduce
− Hadoop Distributed File System (HDFS)
Conçu pour du matériel de base hétérogène
Nouvelle façon de stocker et traiter les données
Apporte le traitement aux données
21
Les principes de conception de Hadoop
Optimisé pour gérer :
Quantités massives de données à travers le parallélisme
Variété de données ( structurées , non structurées , semi-
structurées )
Utilisation de matériel de base peu coûteux
22
Attention
Hadoop est pas pour tous les types de travaux:
23
Qui Utilise Hadoop?
24
Evolution de Hadoop
25
Eco-système de Hadoop
Hadoop est étendu par un éco-système open source:
26
Apache Hadoop
Flexible,
Supporte un large processing de données
– Inspiré par la technologie Google (MapReduce, GFS,
BigTable, …)
– Initié par Yahoo
– Well-suited to batch-oriented, read-intensive applications
– Supporte une large varieté de données
27
Apache Hadoop
Permet aux applications de travailler avec des milliers
de nœuds et des pétaoctets parallèlement et avec coût
modéré.
– CPU + disks = “node”
– “Nodes” peuvent être combinés en clusters
– de nouveaux “nodes” peuvent être ajoutés selon besoin sans
changement de:
• Data formats
• comment les données sont chargées
• comment les jobs sont écrites
28
Two Key Aspects of Hadoop
MapReduce framework
– Comment Hadoop comprend et affecte le travail aux nodes (
machines )
Hadoop Distributed File System = HDFS
– Où Hadoop stocke les données
– Un système de fichiers qui couvre tous les «nodes» d'un cluster
Hadoop
Il relie les systèmes de fichiers sur de nombreux «nodes »
locaux pour en faire un grand système de fichiers
29
Two Key Aspects of Hadoop: HDFS
HDFS stocke les données sur plusieurs nodes
30
Two Key Aspects of Hadoop: HDFS
31
Fin Séance 1
32