Cours de Big Data LF2 IG ESB

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

Cours de "Introduction au Big Data et

Informatique Décisionnelle"
Assuré par Mourali O.
Promotion LF IG – 2ème année
Année universitaire 2018/19

1
Sommaire
 Partie I: Big Data
 Introduction au Big Data
 Présentation de Hadoop
 Hadoop Distributed File System (HDFS)
 MapReduce
 Partie II: Informatique décisionnelle
 Introduction et définition des SID.
 Architecture des SID.
 Modélisation et stockage de données
 Entrepôts de données.
 Opérateurs et requêtes avancés.

2
Partie I:

Introduction au Big Data

3
Introduction au Big Data

 Qu’est-ce que le Big Data?

 Ses Caractéristiques,

 Ses Uses Cases,

 Ses domaines d’applications.

4
Introduction au Big Data
 Propriété intrinsèque de la donnée:
 elle pousse

 90% des données au monde ont été créées au cours de la dernière


décennie.

 80% des données aujourd'hui sont non structurées.

5
Introduction au Big Data
 20% uniquement des données disponibles peuvent être
traitées par les systèmes traditionnels.

 Les dirigeants d’entreprises ne peuvent pas avoir accès aux


données dont ils ont besoin.

 83% décideurs citent le BI et l’analyse de données dans leur


business plan.

6
Introduction au Big Data
Un monde continuellement interconnecté et instrumentalisé

7
Caractéristiques du Big Data
 4V = Volume, Velocity, Variety, Veracity

8
Pourquoi le Big Data

Banalisation du matériel permettant de nouvelles Analyses


*plate-forme de calcul à faible coût
- L'architecture Hadoop
• Optimisé pour les volumes de données élevés
 (HDFS) et MapReduce
- Défaillance du matériel est prévue et gérée

9
Domaines d’application

10
Les 5 Uses Cases du Big Data

11
Plateforme de Big Data:

12
Présentation de Hadoop
 Pourquoi? Quand? Où?
 Comparé aux systèmes de Gestion des BDr.
 Architecture de Hadoop
 HDFS
 MapReduce
 Hadoop Common
 Ecosystem of related projects
 Pig, Hive, Jaql
 Other projects

13
Importance de Hadoop
 «Nous croyons que plus de la moitié des données du monde sera
stockée dans Apache Hadoop durant les cinq ans à venir »

14
améliorations du Hardware à travers
les années ...
 Vitesse CPU
 1990 – 44 MIPS at 40 MHz
 2010 – 147,600 MIPS at 3.3 GHz
 RAM Memory
 1990 – 640K conventional memory (256K extended memory
recommended)
 2010 – 8-32GB (and more)
 Disk Capacity
 1990 – 20MB
 2010 – 1TB

15
améliorations du Hardware à travers
les années ...
 Disk Latency ( vitesse de lecture et d’écriture ) - pas beaucoup
d'améliorations dans les 10 dernières années , actuellement
environ 70 - 80MB / sec

16
Parallel Data Processing est la
réponse!
Nous avons travaillé longtemps avec:
- GRID computing - propage la charge de traitement –

- Distributed workload - difficile pour gérer les applications , les


frais sont lourds.
- Parallel databases - DB2 DPF , Teradata , Netezza , etc ( distribue
les données )

17
Parallel Data Processing est la
réponse!

 Distributed computing : plusieurs ordinateurs apparaissent


comme un super-ordinateur pour communiquer les uns avec
les autres par envoi de messages , fonctionnent ensemble pour
atteindre un but commun

18
Parallel Data Processing est la
réponse!
 Challenges du Distributed computing :
 Hétérogénéité
 Extensibilité
 Sécurité
 Evolutivité
 Concurrence
 La tolérance aux pannes

19
What is Hadoop?
 Apache framework est un environnement open source

fiable, évolutif et distribué pour le calcul de quantité


massive de données
 Masque les détails et la complexité du système sous-jacents à

l'utilisateur
 Développé en Java

20
What is Hadoop?
 Consiste en 3 Sous projets:

− Hadoop Common
− MapReduce
− Hadoop Distributed File System (HDFS)
 Conçu pour du matériel de base hétérogène
 Nouvelle façon de stocker et traiter les données
 Apporte le traitement aux données

21
Les principes de conception de Hadoop
 Optimisé pour gérer :
 Quantités massives de données à travers le parallélisme
 Variété de données ( structurées , non structurées , semi-
structurées )
 Utilisation de matériel de base peu coûteux

 Fiabilité fournie par la réplication

22
Attention
Hadoop est pas pour tous les types de travaux:

 Pas pour traiter les transactions (accès aléatoire )

 Pas bon quand le travail ne peut pas être parallélisé

 Pas bon pour l'accès aux données à faible latence

 Pas bon pour le traitement de beaucoup de petits fichiers

 Pas bon pour les calculs intensifs avec peu de données

23
Qui Utilise Hadoop?

24
Evolution de Hadoop

25
Eco-système de Hadoop
Hadoop est étendu par un éco-système open source:

26
Apache Hadoop
 Flexible,
 Supporte un large processing de données
– Inspiré par la technologie Google (MapReduce, GFS,
BigTable, …)
– Initié par Yahoo
– Well-suited to batch-oriented, read-intensive applications
– Supporte une large varieté de données

27
Apache Hadoop
Permet aux applications de travailler avec des milliers
de nœuds et des pétaoctets parallèlement et avec coût
modéré.
– CPU + disks = “node”
– “Nodes” peuvent être combinés en clusters
– de nouveaux “nodes” peuvent être ajoutés selon besoin sans
changement de:
• Data formats
• comment les données sont chargées
• comment les jobs sont écrites
28
Two Key Aspects of Hadoop
 MapReduce framework
– Comment Hadoop comprend et affecte le travail aux nodes (
machines )
 Hadoop Distributed File System = HDFS
– Où Hadoop stocke les données
– Un système de fichiers qui couvre tous les «nodes» d'un cluster
Hadoop
 Il relie les systèmes de fichiers sur de nombreux «nodes »
locaux pour en faire un grand système de fichiers

29
Two Key Aspects of Hadoop: HDFS
 HDFS stocke les données sur plusieurs nodes

 Si HDFS détecte un node défectueux, alors il réalise la fiabilité

par la réplication des données sur plusieurs autres nodes.

 Le système de fichiers est construit à partir d'un groupe de nodes

de données , dont chacun gère des blocs de données sur le


réseau en utilisant un protocole de bloc spécifique à HDFS .

30
Two Key Aspects of Hadoop: HDFS

31
Fin Séance 1

32

Vous aimerez peut-être aussi