TP3 Hadoop Exercices
TP3 Hadoop Exercices
TP3 Hadoop Exercices
Big Data
Objectif :
L'objectif principal de ce TP est de vous familiariser avec l'utilisation de Hadoop en conjonction
avec le langage de programmation Java pour la résolution de divers problème, tout en pratiquant
l'exécution de jobs MapReduce en local et sur un cluster Hadoop.
Exercice 1 : Anagrammes
On dispose d’un fichier texte contenant une liste de mots courants. On souhaite déterminer quels
mots sont des anagrammes.
On rappelle qu'un mot est une anagramme d'un autre si leurs lettres sont identiques (par exemple,
« crane » et « ancre »).
Le but de cet exercice est d'écrire un programme MapReduce pour identifier et regrouper les
anagrammes de cette liste. Vous pouvez tester ce programme avec l'exemple suivant:
Fichier en entrée
Résultat
Une entreprise dispose d'un compte twitter pour son service après-vente, recevant plusieurs
dizaines de milliers de tweets par jour. Elle cherche à déterminer le taux de satisfaction de ses
clients à partir du compte twitter. Chaque heure, les tweets reçus sont exportés au sein d'un fichier
texte.
Écrire un programme MapReduce qui permet de calculer le nombre de tweets selon les calsses
suivantes : satisfait, insatisfait et incuoncluant.
Données d'entrée :
Résultat :
Indication :
On pourra définir des descripteurs de sentiments et les mots attachés, par exemple :
o Sentiment négatif :"nul", "insatisfait", "bof", "incompétents", …
o Sentiment positif : "satisfait", "super", "excellent", …
Si deux sentiments contradictoires détectés : renvoyer inconcluant
Soit un très grand ensemble de pages web. Pour chaque page p dans l'ensemble, on souhaite trouver
l'ensemble des pages qui référencent p.
Exemple : Si dans les pages p1 et p2, il y a des liens vers la page q, alors nous avons :
Page 2 sur 2