Cours de Big Data LF2 IG ESB

Cours de "Introduction au Big Data et
Informatique Décisionnelle"
Assuré par Mourali O.
Promotion LF IG – 2ème année
Année universitaire 2018/19
1
Sommaire
 Partie I: Big Data
 Introduction au Big Data
 Présentation de Hadoop
 Hadoop Distributed File System (HDFS)
 MapReduce
 Partie II: Informatique décisionnelle
 Introduction et définition des SID.
 Architecture des SID.
 Modélisation et stockage de données
 Entrepôts de données.
 Opérateurs et requêtes avancés.
2
Partie I:
Introduction au Big Data
3
 Qu’est-ce que le Big Data?
 Ses Caractéristiques,
 Ses Uses Cases,
 Ses domaines d’applications.
4
 Propriété intrinsèque de la donnée:
 elle pousse
 90% des données au monde ont été créées au cours de la dernière

décennie.
 80% des données aujourd'hui sont non structurées.
5
 20% uniquement des données disponibles peuvent être
traitées par les systèmes traditionnels.
 Les dirigeants d’entreprises ne peuvent pas avoir accès aux

données dont ils ont besoin.
 83% décideurs citent le BI et l’analyse de données dans leur

business plan.
6
Un monde continuellement interconnecté et instrumentalisé
7
Caractéristiques du Big Data
 4V = Volume, Velocity, Variety, Veracity
8
Pourquoi le Big Data
Banalisation du matériel permettant de nouvelles Analyses

*plate-forme de calcul à faible coût
- L'architecture Hadoop
• Optimisé pour les volumes de données élevés
 (HDFS) et MapReduce
- Défaillance du matériel est prévue et gérée
9
Domaines d’application
10
Les 5 Uses Cases du Big Data
11
Plateforme de Big Data:
12
Présentation de Hadoop
 Pourquoi? Quand? Où?
 Comparé aux systèmes de Gestion des BDr.
 Architecture de Hadoop
 HDFS
 MapReduce
 Hadoop Common
 Ecosystem of related projects
 Pig, Hive, Jaql
 Other projects
13
Importance de Hadoop
 «Nous croyons que plus de la moitié des données du monde sera
stockée dans Apache Hadoop durant les cinq ans à venir »
14
améliorations du Hardware à travers
les années ...
 Vitesse CPU
 1990 – 44 MIPS at 40 MHz
 2010 – 147,600 MIPS at 3.3 GHz
 RAM Memory
 1990 – 640K conventional memory (256K extended memory
recommended)
 2010 – 8-32GB (and more)
 Disk Capacity
 1990 – 20MB
 2010 – 1TB
15
améliorations du Hardware à travers
les années ...
 Disk Latency ( vitesse de lecture et d’écriture ) - pas beaucoup
d'améliorations dans les 10 dernières années , actuellement
environ 70 - 80MB / sec
16
Parallel Data Processing est la
réponse!
Nous avons travaillé longtemps avec:
- GRID computing - propage la charge de traitement –
- Distributed workload - difficile pour gérer les applications , les

frais sont lourds.
- Parallel databases - DB2 DPF , Teradata , Netezza , etc ( distribue
les données )
17
réponse!
 Distributed computing : plusieurs ordinateurs apparaissent

comme un super-ordinateur pour communiquer les uns avec
les autres par envoi de messages , fonctionnent ensemble pour
atteindre un but commun
18
réponse!
 Challenges du Distributed computing :
 Hétérogénéité
 Extensibilité
 Sécurité
 Evolutivité
 Concurrence
 La tolérance aux pannes
19
What is Hadoop?
 Apache framework est un environnement open source
fiable, évolutif et distribué pour le calcul de quantité

massive de données
 Masque les détails et la complexité du système sous-jacents à
l'utilisateur
 Développé en Java
20
What is Hadoop?
 Consiste en 3 Sous projets:
− Hadoop Common
− MapReduce
− Hadoop Distributed File System (HDFS)
 Conçu pour du matériel de base hétérogène
 Nouvelle façon de stocker et traiter les données
 Apporte le traitement aux données
21
Les principes de conception de Hadoop
 Optimisé pour gérer :
 Quantités massives de données à travers le parallélisme
 Variété de données ( structurées , non structurées , semi-
structurées )
 Utilisation de matériel de base peu coûteux
 Fiabilité fournie par la réplication
22
Attention
Hadoop est pas pour tous les types de travaux:
 Pas pour traiter les transactions (accès aléatoire )
 Pas bon quand le travail ne peut pas être parallélisé
 Pas bon pour l'accès aux données à faible latence
 Pas bon pour le traitement de beaucoup de petits fichiers
 Pas bon pour les calculs intensifs avec peu de données
23
Qui Utilise Hadoop?
24
Evolution de Hadoop
25
Eco-système de Hadoop
Hadoop est étendu par un éco-système open source:
26
Apache Hadoop
 Flexible,
 Supporte un large processing de données
– Inspiré par la technologie Google (MapReduce, GFS,
BigTable, …)
– Initié par Yahoo
– Well-suited to batch-oriented, read-intensive applications
– Supporte une large varieté de données
27
Apache Hadoop
Permet aux applications de travailler avec des milliers
de nœuds et des pétaoctets parallèlement et avec coût
modéré.
– CPU + disks = “node”
– “Nodes” peuvent être combinés en clusters
– de nouveaux “nodes” peuvent être ajoutés selon besoin sans
changement de:
• Data formats
• comment les données sont chargées
• comment les jobs sont écrites
28
Two Key Aspects of Hadoop
 MapReduce framework
– Comment Hadoop comprend et affecte le travail aux nodes (
machines )
 Hadoop Distributed File System = HDFS
– Où Hadoop stocke les données
– Un système de fichiers qui couvre tous les «nodes» d'un cluster
Hadoop
 Il relie les systèmes de fichiers sur de nombreux «nodes »
locaux pour en faire un grand système de fichiers
29
Two Key Aspects of Hadoop: HDFS
 HDFS stocke les données sur plusieurs nodes
 Si HDFS détecte un node défectueux, alors il réalise la fiabilité
par la réplication des données sur plusieurs autres nodes.
 Le système de fichiers est construit à partir d'un groupe de nodes
de données , dont chacun gère des blocs de données sur le

réseau en utilisant un protocole de bloc spécifique à HDFS .
30
Two Key Aspects of Hadoop: HDFS
31
Fin Séance 1
32

Cours de Big Data LF2 IG ESB

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Big Data LF2 IG ESB

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Big Data LF2 IG ESB

Transféré par

Droits d'auteur :

Formats disponibles

Cours de "Introduction au Big Data et

Introduction au Big Data

 Qu’est-ce que le Big Data?

 Ses Uses Cases,

 Ses domaines d’applications.

 90% des données au monde ont été créées au cours de la dernière

 80% des données aujourd'hui sont non structurées.

 Les dirigeants d’entreprises ne peuvent pas avoir accès aux

 83% décideurs citent le BI et l’analyse de données dans leur

Banalisation du matériel permettant de nouvelles Analyses

- Distributed workload - difficile pour gérer les applications , les

 Distributed computing : plusieurs ordinateurs apparaissent

fiable, évolutif et distribué pour le calcul de quantité

 Fiabilité fournie par la réplication

 Pas pour traiter les transactions (accès aléatoire )

 Pas bon quand le travail ne peut pas être parallélisé

 Pas bon pour l'accès aux données à faible latence

 Pas bon pour le traitement de beaucoup de petits fichiers

 Pas bon pour les calculs intensifs avec peu de données

 Si HDFS détecte un node défectueux, alors il réalise la fiabilité

par la réplication des données sur plusieurs autres nodes.

 Le système de fichiers est construit à partir d'un groupe de nodes

de données , dont chacun gère des blocs de données sur le

Vous aimerez peut-être aussi