TP3 Hadoop Exercices

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 2

Enseignante : Asma KERKENI

Institut supérieur d'informatique


Niveau : LF3
et de mathématiques de Monastir

Big Data

- TP3 : Hadoop MAP/REDUCE -

Objectif :
L'objectif principal de ce TP est de vous familiariser avec l'utilisation de Hadoop en conjonction
avec le langage de programmation Java pour la résolution de divers problème, tout en pratiquant
l'exécution de jobs MapReduce en local et sur un cluster Hadoop.

Exercice 1 : Anagrammes
On dispose d’un fichier texte contenant une liste de mots courants. On souhaite déterminer quels
mots sont des anagrammes.
On rappelle qu'un mot est une anagramme d'un autre si leurs lettres sont identiques (par exemple,
« crane » et « ancre »).
Le but de cet exercice est d'écrire un programme MapReduce pour identifier et regrouper les
anagrammes de cette liste. Vous pouvez tester ce programme avec l'exemple suivant:

Fichier en entrée

Résultat

Exercice 2 : Analyse des sentiments des clients sur Twitter

Une entreprise dispose d'un compte twitter pour son service après-vente, recevant plusieurs
dizaines de milliers de tweets par jour. Elle cherche à déterminer le taux de satisfaction de ses
clients à partir du compte twitter. Chaque heure, les tweets reçus sont exportés au sein d'un fichier
texte.

LF3 Page 1 sur 2


Big Data TP3

Écrire un programme MapReduce qui permet de calculer le nombre de tweets selon les calsses
suivantes : satisfait, insatisfait et incuoncluant.

Données d'entrée :

Résultat :

Indication :
 On pourra définir des descripteurs de sentiments et les mots attachés, par exemple :
o Sentiment négatif :"nul", "insatisfait", "bof", "incompétents", …
o Sentiment positif : "satisfait", "super", "excellent", …
 Si deux sentiments contradictoires détectés : renvoyer inconcluant

Exercice 3 : Index web inversé

Soit un très grand ensemble de pages web. Pour chaque page p dans l'ensemble, on souhaite trouver
l'ensemble des pages qui référencent p.

Exemple : Si dans les pages p1 et p2, il y a des liens vers la page q, alors nous avons :

Sources(q) : {p1, p2, ...}

Écrire un programme MapReduce permettant de générer un index web inversé en adoptant ka


représentation simplifié suivante :

Fichier en entrée Résultat

P1:P2,P3 P1: P2, P3, P4


P2:P1,P4 P2: P1, P4
P3:P1,P4 P3: P1, P4
P4:P1,P2,P3 P4: P2, P3

Page 2 sur 2

Vous aimerez peut-être aussi