ENNACIRI Zidate RapportSA

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 34

Rapport de stage d’application

Déploiement d’un modèle d’analyse des


sentiments

Préparé par :

Fatine EN-NACIRI (DS)


Hajar ZIDATE (DS)

Sous l’encadrement de :

Mr. Mahjoub Ait Meddah

Année universitaire :2022/2023


R
ésumé

Résumé :

Le présent travail s’inscrit dans le cadre de notre stage d’application effectué au sein de l’entreprise
TASMIM WEB. L’objectif est de déployer un modèle d’analyse des sentiments dans une application web.
Ce projet a pour but de faire une étude comparative entre deux modèles pré-entraînés d’analyse des
sentiments sur la base de données extraites du site AMAZON et de déployer celui avec la meilleure
performance dans une application web.
Reme
rciement

Remerciements :

Au terme de ce travail, nous remercions toute personne nous ayant aidés à achever à bon port le présent
projet de stage d’application.
Nos profonds remerciements s’adressent à notre encadrant, Mr. Mahjoub Ait Meddah, pour nous avoir
offert cette opportunité qui nous a été d’une valeur enrichissante. Nous le remercions également pour sa
disponibilité, ses retours et conseils, et enfin la liberté de choix et d’idées qu’il nous a accordé.

Nous exprimons également nos expressions de respect et de remerciements à tous les membres du
jurypour l’attention consacrée à ce travail.

-
2-
Table des
matières

Table des matières :


.
Résumé : ---------------------------------------------------------------------------------------------------------------------- 3
Remerciements : ------------------------------------------------------------------------------------------------------------- 5
Table des matières : ---------------------------------------------------------------------------------------------------------- 6
La liste des figures ----------------------------------------------------------------------------------------------------------- 7
Introduction générale : ------------------------------------------------------------------------------------------------------ 1
Présentation de TASMIM WEB : ------------------------------------------------------------------------------------------ 2
I. Présentation du cadre général ---------------------------------------------------------------------------------- 3
1. Introduction--------------------------------------------------------------------------------------------- 3
2. Analyse des sentiments : ------------------------------------------------------------------------------ 4
II. Extraction des données : ---------------------------------------------------------------------------------------- 6
1. Introduction--------------------------------------------------------------------------------------------- 6
3. Exploration du site web -------------------------------------------------------------------------------- 7
4. Web-scraping des données : -------------------------------------------------------------------------- 8
III. Comparaison des deux approches Lexicon-Based et Machine Learning ---------------------------------11
1. Introduction--------------------------------------------------------------------------------------------11
5. Introduction sur les différentes approches d'analyse des sentiments : --------------------------12
6. Le choix du modèle pour les deux approches : ----------------------------------------------------17
7. Comment fonctionne le modèle tblard/tf-allocine? -----------------------------------------------19
8. Comparaison des résultats des deux modèles ------------------------------------------------------20
IV. Déploiement du modèle ----------------------------------------------------------------------------------------23
1. Introduction--------------------------------------------------------------------------------------------23
2. Déploiement du modèle sélectionné : --------------------------------------------------------------24
V. Conclusion générale :-------------------------------------------------------------------------------------------26
2. Bibliographies : -------------------------------------------------------------------- Error! Bookmark not defined.
3. Webographies : ---------------------------------------------------------------------------------------------------------27
Liste
des figures

La liste des figures

Figure 1 : site amazon.fr ------------------------------------------------------ Error! Bookmark not defined.


Figure 2: Commentaire client-------------------------------------------------------------------------------------- 7
Figure 3:Structure du site ------------------------------------------------------------------------------------------ 8
Figure 4 : les librairies utilisées ----------------------------------------------------------------------------------- 8
Figure 5:Source des données des commentaires ---------------------------------------------------------------- 9
Figure 6:Code python fonction get_com_neg ------------------------------------------------------------------- 9
Figure 7:Code python fonction get_com_pos ------------------------------------------------------------------10
Figure 8:Code python nettoyage des donnée -------------------------------------------------------------------10
Figure 9 :Extraits des données ------------------------------------------------------------------------------------10
Figure 10: les approches de l'analyse des sentiments ----------------------------------------------------------12
Figure 11:Approche lexicon-based ------------------------------------------------------------------------------13
Figure 12 : approche de ml ---------------------------------------------------------------------------------------15
Figure 13 : Extraits du lexique de VADER ---------------------------------------------------------------------17
Figure 14:Code python Vadersentiment-fr ----------------------------------------------------------------------18
Figure 15:Architecture du fine-tuning de CamemBERT ------------------------------------------------------20
Figure 16:Code python tblard/tf-allocine -----------------------------------------------------------------------20
Figure 17: Le nombre explicite de chaque catégorie de sentiments pour Vader ----------------------------21
Figure 18:Pourcentage des sentiments pour Vader-------------------------------------------------------------21
Figure 19:Pourcentage des sentiments pour tblard/tf-allocine ------------------------------------------------21
Figure 20:Le nombre explicite de chaque catégorie de sentiments pour tblard/tf-allocine ----------------22
Figure 21:Aperçu de l'app -----------------------------------------------------------------------------------------24
Figure 22:Statistiques des sentiments----------------------------------------------------------------------------24
Figure 23:Nuage de mots pour les 2 sentiments ---------------------------------------------------------------- 25
Introduction
générale

Introduction générale :
L'analyse des sentiments est utile pour un large éventail de problèmes qui intéressent les praticiens et les
chercheurs en interaction homme-machine, ainsi que ceux issus de domaines tels que la sociologie, le marketing
et la publicité, la psychologie, l'économie et les sciences politiques. La nature inhérente du contenu des
microblogs pose de sérieux défis aux applications pratiques de l'analyse des sentiments. Certains de ces défis
découlent du taux et du volume de contenu social généré par les utilisateurs, combinés à la rareté contextuelle
résultant de la brièveté du texte et d'une tendance à utiliser des conventions linguistiques abrégées pour exprimer
des sentiments.
Dans ce sens, notre projet de stage d’application s’est articulé sur le déploiement du modèle d’analyse
des sentiments ayant la meilleure performance à partir d’une étude comparative.
Pour ce faire, dans la première partie, nous extrairons les données que nous allons utiliser dans la
comparaison. Ces données sont sous forme de commentaires issus des évaluations des clients de AMAZON sur
les produits vendus.
Dans une deuxième partie, nous présenterons d’abord les deux approches d’analyse des sentiments
utilisées, leurs principes et ensuite le choix de modèles pour chacune d’elles. Puis, nous mènerions une étude
comparative entre les deux modèles.
Et enfin, dans la dernière partie, nous déploierons le modèle le plus performant dans une application web
qui permet de donner des statistiques descriptives sur les données ce qui donne une idée générale sur l’opinion
des consommateurs sur le produit en question.

1
des

CDescription de l’organisme d’accueil

Description d’organisme d’accueil 1

Présentation de TASMIM WEB :

TASMIM WEB est une agence web implantée sur Casablanca. Entreprise dans l’air du temps, elle se
compose d’une équipe jeune, experte et passionnée. Sa structure à taille humaine garantit une écoute et un
accompagnement de qualité et de proximité.

Missions de TASMIM WEB :

Intégrateurs de solutions web, ils répondent aux besoins dans le domaine de la création, le
référencement de sites internet, la mise en place de stratégies web, la création ou refonte d’identité visuelle.
Agence web et agence conseil, ils sont également disposés à vous délivrer un accompagnement web complet
avant, pendant et après la phase de conception de votre projet, car l’accompagnement à long terme est sa
priorité. Agence web volontairement de taille humaine, elle assure une proximité auprès de ses clients et leur
propose des avantages grandement appréciés tels que l’écoute, la flexibilité et la réactivité.

Ses valeurs :
Afin de mieux répondre aux attentes de ses clients, TASMIM WEB assure :
- Adaptation sur-mesure des besoins de ses clients ;
- Suivi individuel et personnalisé ;
- T r anspar ence dans les t ar ifs ;
- Qualité du travail ;
- Respect des délais annoncés lors de ses collaborations ;

2
Chapitre 1 : Présentation du
cadre général

Chapitre 1
I. Présentation du cadre général

1. Introduction

Ce chapitre représente une introduction générale sur l'analyse des sentiments sur lequel nous allons
travailler etles techniques que nous allons utiliser.

3
Chapitre 1 : Présentation du
cadre général

2. Analyse des sentiments :

 C’est quoi l’analyse des sentiments ?

Le sentiment se rapporte essentiellement aux sentiments ; attitudes, émotions et opinions. L'analyse des
sentiments fait référence à la pratique consistant à appliquer des techniques de traitement du langage naturel et
d'analyse de texte pour identifier et extraire des informations subjectives d'un morceau de texte.

L'opinion ou les sentiments d'une personne sont pour la plupart subjectifs et non des faits. Cela signifie
qu'il peut être extrêmement difficile d'analyser avec précision l'opinion ou l'humeur d'un individu à partir d'un
morceau de texte. Avec l'analyse des sentiments du point de vue de l'analyse de texte, nous cherchons
essentiellement à comprendre l'attitude d'un écrivain par rapport à un sujet dans un texte et sa polarité ; que ce
soit positif, négatif ou neutre.

 L’importance de l’analyse des sentiments pour les entreprises :


Les entreprises essaient de déverrouiller la valeur cachée du texte afin de comprendre les opinions et les
besoins de leurs clients et de prendre de meilleures décisions commerciales plus éclairées. Traditionnellement,
les entreprises comptaient sur des enquêtes, des ateliers et des groupes de discussion pour mieux comprendre
les opinions et les sentiments de leurs clients, mais aujourd'hui, grâce à la technologie moderne, nous sommes
en mesure d'exploiter la puissance de l'apprentissage automatique et de l'intelligence artificielle pour extraire le
sens du texte et plonger dans les opinions des clients et les voir en dehors de l'environnement souvent contrôlé
d'une enquête.
Il existe une mine d'informations cachées dans les commentaires, les e-mails, les tweets, les soumissions
de formulaires, les critiques des individus. Le défi consiste à gérer toutes ces informations et à en extraire de la
valeur.

 Les différentes approches de l’analyse des sentiments :


L'extraction d'opinions (extraction de sentiments) est utilisée au moyen des techniques suivantes :
• Analyse lexicale : Cette technique est régie par l'utilisation d'un dictionnaire
composé de lexiques pré-balisés. Le texte d'entrée est converti en tokens par le Tokenizer.
Chaque nouveau token rencontré est ensuite mis en correspondance avec le lexique du
dictionnaire. S'il y a une correspondance positive, le score est ajouté au pool total de scores pour
le texte d'entrée. Par exemple, si "dramatique" est une correspondance positive dans le
dictionnaire, le score total du texte est incrémenté. Sinon, le score est décrémenté ou le mot est
marqué comme négatif. Bien que cette technique semble être de nature amateur, ses variantes
se sont avérées valables. La figure dessous montre le fonctionnement d'une technique lexicale.

4
Chapitre 1 : Présentation du
cadre général

• Analyse basée sur l'apprentissage automatique : L'apprentissage automatique est


l'une des techniques les plus importantes qui suscitent l'intérêt des chercheurs en raison de son
adaptabilité et de sa précision. Dans l'analyse des sentiments, principalement les variantes
d'apprentissage supervisé de cette technique sont employées. Il comprend trois étapes : collecte
de données, prétraitement, données d'apprentissage, classification et traçage des résultats. Dans
les données d'apprentissage, une collection de corpus étiquetés est fournie. Le classificateur est
présenté une série de vecteurs de caractéristiques à partir des données précédentes. Un modèle
est créé sur la base de l'ensemble de données de formation qui est utilisé sur le texte
nouveau/invisible à des fins de classification. Dans la technique d'apprentissage automatique,
la clé de la précision d'un classifieur est la sélection des caractéristiques appropriées.

• Analyse hybride/combinée : les progrès de l'analyse des sentiments ont incité les
chercheurs à explorer la possibilité d'une approche hybride qui pourrait collectivement présenter
la précision d'une approche d'apprentissage automatique et la rapidité d'une approche lexicale.

 L’avantage des modèles pré-entrainés :

o C’est quoi un modèle pré-entrainé ?


Dans le Machine Learning, un modèle pré-entraîné entre dans la catégorie de l'apprentissage par transfert.
Les modèles pré-entrainés sont des modèles d'apprentissage automatique qui sont formés, développés et mis à
disposition par d'autres développeurs. Ils sont généralement utilisés pour résoudre des problèmes basés sur
l'apprentissage en profondeur et sont toujours formés sur un très grand ensemble de données.

o L’avantage de l’utilisation des modèles pré-entrainés dans l’analyse des


sentiments :

En termes de méthodologie, les data scientists ont généralement deux options pour construire leurs
classificateurs de sentiments qui ont tous deux des avantages et des inconvénients. La construction du modèle
à partir de zéro implique généralement un ou plusieurs de ces composants : l'utilisation d'un lexique de
sentiments largement accepté, la notation des sentiments par des experts humains, l'étiquetage des données par
des sous-traitants d'agence ou des assistants de recherche, et le réglage du modèle qui fonctionne bien sur le
reste de la base de données. Ce processus peut être coûteux et prendre du temps.

D'autre part, l'utilisation de modèles pré-entrainés permet de gagner beaucoup de


temps. Ces modèles sont faciles à utiliser avec quelques lignes de code, mais la spécificité de
leurs ensembles de données de formation peut les contraindre.

5
Chapitre 2: Méthodologie de Collecte et analyse des
données de site web JUMIA

Chapitre 2
II. Extraction des données :

1. Introduction

Ce chapitre serait dédié à l’étape de l’extraction des données.


La première section traite la structure du site web Amazon, la deuxième section porte la
démarche de construction le code de web-scraping, et enfin la dernière section s’intéresse aux
prétraitements nécessaires des données, que nous devons effectuer avant d’entamer la partie de
la modélisation.

6
Chapitre 2: Méthodologie de Collecte et analyse des
données de site web JUMIA

3. Exploration du site web

Amazon est l'un des marchés en ligne les plus populaires utilisés par les particuliers et les
entreprises, et le site est disponible dans de nombreux pays et langues. Il permet aux particuliers et aux
entreprises de vendre et d'afficher des produits à vendre en ligne.

Figure 1:site amazon.fr

En effet, Amazon comprend une variété de produits allant de l'électronique jusqu’aux vêtements.
Chacun de ces produits est évalué par ses consommateurs à travers des commentaires positifs ou bien négatifs.

Figure 2: Commentaire client

7
Chapitre 2: Méthodologie de Collecte et analyse des
données de site web JUMIA

4. Web-scraping des données :

 Introduction
Le web-scraping est une technique intelligente qui peut être utilisée pour extraire de grandes
quantités d'informations des sites Web cibles. Les données extraites peuvent ensuite être enregistrées dans un
fichier local sur votre système ou sous forme de feuille de calcul.
Dans cette section, nous extrayons les commentaires des clients sur un produit choisi arbitrairement sur
le site Amazon.
Avant d’entamer l’extraction des données, il est important d’inspecter la source de données pour avoir
une idée sur la façon dont les données sont structurées pour les affichages.
En inspectant le code source, la structure de la page se présente comme ceci :

Figure 3:Structure du site

 Importation des librairies :


Nous utiliserons un driver chrome à travers la librairie selenium et pour le traitement du
code source nous utiliserons la librairie BeautifulSoup

Figure 4 : les librairies utilisées

 Extraction des commentaires :

8
Chapitre 2: Méthodologie de Collecte et analyse des
données de site web JUMIA

Après avoir appris sous quelle balise les données que nous voulons extraire sont imbriquées, on fait appel
à la requête get et à la librairie BeautifulSoup pour communiquer avec la page HTML et analyser ses données
structurées.

Figure 5:Source des données des commentaires

Il est à noter que les données à extraire devraient être étiquetées, c’est-à-dire chaque commentaire doit
être classé soit négatif soit positif, pour pouvoir évaluer la performance des deux modèles.
Pour ce faire, nous allons définir deux fonctions get_coms_negatif() et get_coms_positif().

Figure 6:Code python de la fonction get_com_neg

9
Chapitre 2: Méthodologie de Collecte et analyse des
données de site web JUMIA

Figure 7:Code python de la fonction get_com_pos

 Nettoyage des données : Après avoir extrait les données, on remarque qu’elles
contiennent quelques caractères qui doivent être retirés. Pour ce faire, nous allons
définir une fonction clean :

Figure 8:Code python nettoyage des données

 Sauvegarde des données :

Tout d'abord, Pour sauvegarder les données obtenues, nous créerons d’abord un dataframe ayant deux
colonnes “Commentaires” et “Etiquettes” et enfin on le sauvegarde dans un fichier excel.

Figure 9 :Extraits des données

10
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Chapitre 3
III. Comparaison des deux approches Lexicon-
Based et Machine Learning

1. Introduction

Ce chapitre est consacré à la comparaison des deux approches d’analyse des sentiments. Nous nous
concentrerons sur deux modèles seulement.

11
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

5. Introduction sur les différentes approches d'analyse des sentiments :

À un niveau supérieur, il existe deux techniques qui peuvent être utilisées pour effectuer une analyse des
sentiments de manière automatisée : Les techniques basées sur les règles (Lexicon-based) et les techniques
d'apprentissage automatique (Machine Learning).

Figure 10: les approches de l'analyse des sentiments

 L’approche Lexicon-based :
L'analyse des sentiments basée sur des règles fait référence à l'étude menée par les experts linguistiques.
Le résultat de cette étude est un ensemble de règles (également connu sous le nom de lexique ou lexique des
sentiments) selon lequel les mots sont classés comme positifs ou négatifs, ainsi que leur mesure d'intensité
correspondante.

En général, les étapes suivantes sont nécessaires pour appliquer l'approche basée sur les règles :

12
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Figure 11:Approche lexicon-based

1. Extraire les données


2. Tokeniser le texte. Il s'agit de diviser le texte en mots individuels.
3. Suppression des mots d'arrêt. Les mots qui n'ont pas de signification
significative et qui ne doivent pas être utilisés pour l'activité d'analyse. Exemples de
mots vides : a, le, la, mais etc.
4. Suppression de la ponctuation (dans certains cas)

13
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Comparaison du texte prétraité avec le lexique des sentiments qui doit fournir le nombre/la mesure
correspondant à l'émotion déduite.
Les données du monde réel sont beaucoup plus complexes et nuancées. Par exemple, le sentiment peut
contenir du sarcasme (lorsque des mots apparemment positifs ont une signification négative ou vice versa), de
la sténographie, des abréviations, des orthographes différentes (par exemple, saveur contre saveur), des mots
mal orthographiés, de la ponctuation (notamment des points d'interrogation), de l'argot et, bien sûr, des émojis.
Pour traiter les données complexes à analyser, il faut utiliser des lexiques sophistiqués qui peuvent prendre
en considération l'intensité des mots (par exemple, si un mot est positif, il faut savoir à quel point il est positif,
il y a une différence entre bon, génial et étonnant et cela est représenté par l'intensité attribuée à un mot donné),
la subjectivité ou l'objectivité du mot et le contexte également. Il existe plusieurs lexiques de ce type. En voici
deux parmi les plus populaires :

 VADER (Valence Aware Dictionary and Sentiment Reasoner) : Largement utilisé dans
l'analyse des sentiments sur les textes des médias sociaux, car il a été spécifiquement adapté pour
analyser les sentiments exprimés dans les médias sociaux (comme dans les documents liés). Il
est désormais intégré à la boîte à outils du langage naturel, NLTK. VADER est sensible à la fois
à la polarité et à l'intensité. Voici comment lire les mesures :
-4 : extrêmement négatif
4 : extrêmement positif
0 : Neutre ou N/A
 TextBlob : Bibliothèque NLP très utile qui est livrée pré-packagée avec sa propre fonctionnalité
d'analyse des sentiments. Elle est également basée sur NLTK. La propriété sentiment de
l'api/librairie renvoie la polarité et la subjectivité.
o Plage de polarité : -1.0 à 1.0
o Plage de subjectivité : 0.0 - 1.0 (0.0 est très objectif et 1.0 est très subjectif)
 Sentiwordnet : Il est également intégré à NLTK. Il est utilisé pour l'exploration
d'opinion. Il aide à déduire les informations de polarité à partir de l'instance de
problème donnée. SWN étend wordnet qui est une base de données lexicale de mots
(la relation entre les mots, d'où le terme net), développée à Princeton et qui fait partie
du corpus NLTK. Ici, je me concentrerai principalement sur les synsets,

 L’approche Machine learning-classification :

À un niveau supérieur, le ML comporte trois sous-types : l'apprentissage supervisé, l'apprentissage non


supervisé et l'apprentissage par renforcement.
Dans la technique d'apprentissage automatique supervisé, les machines sont entraînées sur des modèles
mathématiques avec des données d'entrée déjà étiquetées. Une fois entraîné, le modèle est ensuite testé sur
d'autres données (autres que celles utilisées pour l'entraînement) et cette fois, le modèle génère les étiquettes
(également appelées prédictions). Pour des raisons évidentes, plus la différence entre les prédictions correctes
et incorrectes est faible, mieux c'est. En général, les modèles ML peuvent être mieux formés sur un corpus de
données relativement plus important. La représentation mathématique est la suivante :
 Y=f(X)

 X: input

 Y: label/prédiction

14
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

 Notre cas d'utilisation, l'analyse des sentiments, entre dans la catégorie de


l'apprentissage automatique supervisé.
 Classification : Lorsque le résultat attendu est une valeur "définie" qui est connue comme une
catégorie/classe. Exemples : Spam ou jambon, noir ou blanc, positif ou négatif, couleurs (rouge,
vert, bleu), etc.
 Régression : Lorsque le résultat attendu est réel ou continu. Exemples : prédictions boursières,
prévisions, prédiction de l'âge, prédiction du salaire. Notez que toutes ces prédictions sont
basées sur des facteurs multiples, par exemple, si l'objectif est de prédire le prix de la maison, il
peut être basé sur des facteurs multiples tels que le nombre de pièces, la surface/pied carré,
l'emplacement et l'historique des ventes et des achats de cet emplacement, etc.

L'analyse des sentiments relève de la première catégorie, c'est-à-dire de la classification.

Figure 12 : approche de ml

15
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

 Les étapes à suivre pour mettre en œuvre une solution ML pour la classification de
textes :
 Vectorisation du texte : cette étape est nécessaire pour l'entraînement des modèles ML. En
termes simples, les machines ne comprennent pas le texte, elles obtiennent les chiffres.
 Construction du modèle : à ce stade, les données transformées sont divisées en ensembles
d’apprentissage et de test. L'ensemble d’apprentissage est utilisé pour former le classificateur
ML en fournissant les caractéristiques et les étiquettes comme entrées. Les algorithmes de
classification les plus courants sont les suivants Naïve Bayes, Support Vector Machine et
Decision Tree Classifier, Deep Learning (réseaux neuronaux).
 Test : une fois construit, le modèle est testé avec l'ensemble de test (généralement, les données
sont divisées en 80 % pour l’apprentissage et 20 % pour le test du modèle. Dans cette phase,
seules les caractéristiques sont fournies, et le classificateur produit l'étiquette (classification).
 Faire des prédictions : Après avoir testé le modèle avec succès, il est temps de le déployer et il
commence à faire des prédictions chaque fois qu'il reçoit une ligne de la bas

 Quelques considérations à prendre en compte lors du choix entre l'approche ML et


l'approche basée sur le lexique des sentiments :
 La ML est dynamique par nature, contrairement au lexique basé sur des règles qui est réglé pour
suivre des règles statiques prédéfinies. En d'autres termes, il est possible d'entraîner le modèle à
"apprendre" à partir de l'ensemble de données fourni.
 Il n'est pas nécessaire de faire appel à un expert en la matière pour créer les règles de l'approche
basée sur le ML. Ceci est lié au point précédent
 La précision de la prédiction du modèle ML dépend entièrement de la qualité des données
fournies pour la formation. En général, la taille du corpus est également importante, plus elle est
grande (c'est-à-dire plus les énoncés du problème sont nombreux), plus le modèle est entraîné à
produire des prédictions précises. Ce n'est pas vrai dans le cas du lexique.
 En l'absence d'analyseur syntaxique basé sur des règles pour la situation donnée, l'utilisation de
l'approche d'apprentissage automatique devient une option viable.
 En général, les solutions basées sur l'apprentissage automatique sont plus faciles à mettre à
l'échelle, mais elles sont difficiles à déboguer.
 Le contexte peut être déroutant pour les lexiques car ils ne sont pas conçus pour "apprendre" à
partir de données, c'est là que le ML excelle.

16
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

6. Le choix du modèle pour les deux approches :

 Pourquoi VaderSentiment-fr pour l’approche de lexicon-based?

L’avantage de VADER, c'est qu'il ne nécessite pas un grand nombre de prétraitements pour fonctionner.
Contrairement à certaines méthodes supervisées de la PNL, il n'est pas nécessaire de procéder à des
prétraitements tels que la tokénisation et la lemmatisation. Il est pratiquement possible d’introduire n'importe
quel texte et VADER déterminera le sentiment.
VADER est même suffisamment intelligent pour comprendre la valence d'un texte non conventionnel, y
compris les emojis (par exemple :/ ), les majuscules (par exemple triste vs SAD) et la ponctuation étendue (par
exemple ? vs ? ??). C'est ce qui rend le module si performant pour l'analyse des textes des médias sociaux. En
outre, VADER supprime automatiquement les mots vides, ce qui évite de devoir le faire soi-même.

 Comment fonctionne-t-il ?

VADER appartient à un type d'analyse des sentiments qui se base sur des lexiques de mots liés aux
sentiments (sentiment-related words). Dans cette approche, VADER s'appuie sur un dictionnaire qui associe
des caractéristiques lexicales à des intensités d'émotion connues sous le nom de score sentimental. Le score de
sentiment d'un texte peut être obtenu en additionnant l'intensité de chaque mot du texte.
Ci-dessous, vous pouvez voir un extrait du lexique de VADER, où les mots plus positifs ont des
évaluations positives plus élevées et les mots plus négatifs ont des évaluations négatives plus basses.

Figure 13 : Extraits du lexique de VADER

17
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

 Comment VADER calcule-t-il le score de valence d'un texte d'entrée ?


VADER s'appuie sur un dictionnaire qui met en correspondance de nombreuses autres caractéristiques
lexicales communes à l'expression du sentiment dans les microblogs. Ces caractéristiques comprennent :
 Une liste complète des émoticônes de style occidental (:D et :P)
 Des acronymes liés aux sentiments (LOL et ROFL)
 Des expressions argotiques courantes avec une valeur sentimentale (Nah et meh).
 VADER utilise aussi certaines règles pour intégrer l'impact de chaque sous-texte sur
l'intensité perçue du sentiment dans le texte au niveau de la phrase. Ces règles sont
appelées Heuristiques :
 La ponctuation : à savoir le point d'exclamation (!), augmente la magnitude de l'intensité sans
modifier l'orientation sémantique. Par exemple : "Le temps est chaud ! !!" est plus intense que "Le
temps est chaud".
 La capitalisation : plus précisément l'utilisation des MAJUSCULES pour mettre en valeur un mot
pertinent pour le sentiment en présence d'autres mots non capitalisés, augmente l'ampleur de
l'intensité du sentiment sans modifier l'orientation sémantique. Par exemple : "Le temps est
CHAUD." est plus intense que "Le temps est chaud."
 Les modificateurs de degré : ont un impact sur l'intensité du sentiment en augmentant ou en
diminuant l'intensité. Par exemple : "Il fait extrêmement chaud." est plus intense que "Il fait
chaud.", alors que "Il fait légèrement chaud." réduit l'intensité.
 Changement de polarité : dû aux conjonctions "mais" signale un changement de polarité du
sentiment, le sentiment du texte qui suit la conjonction étant dominant. Par exemple : "Il fait
chaud, mais c'est supportable." présente un sentiment mixte, la seconde moitié dictant la note
globale. Dans ce cas la suppression des mots vides va rendre le modèle confus.
 La négation : elle inverse la polarité du texte. Par exemple, une phrase négationnée serait "Le
temps n'est pas vraiment si chaud".

 Implémentation python du modèle Vadersentiment-fr

Figure 14:Code python Vadersentiment-fr

18
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

 Pourquoi le modèle tf-allociné pour l’approche Machine learning ?


 Comment fonctionne le modèle tblard/tf-allocine?
tblard/tf-allocine est un modèle pré-entraîné d’analyse des sentiments français fine-tuned sur
les avis des utilisateurs de Allociné.fr. Il est basé sur le modèle CamemBERT et moussaKam/barthez-
sentiment-classification basé sur BARThez utilisant la même définition bi-classe entre eux. Les
étiquettes "1 étoile" et "2 étoiles" pour les sentiments négatifs et "4 étoiles" et "5 étoiles" pour les
sentiments positifs.

Ses avantages :

 Bonne précision

 Code très court et facile à utiliser

 Pas besoin de prétraitement sophistiqué

 Pas besoin de jouer avec les valeurs de seuil

 Le principe de BERT :
BERT fait appel à Transformer, un mécanisme d'attention qui apprend les relations contextuelles entre
les mots (ou les sous-mots) d'un texte. Dans sa forme classique, Transformer comprend deux mécanismes
distincts : un encodeur qui lit le texte en entrée et un décodeur qui produit une prédiction pour la tâche. Puisque
l'objectif de BERT est de générer un modèle de langage, seul le mécanisme d'encodage est nécessaire.

Contrairement aux modèles directionnels, qui lisent le texte entré de manière séquentielle (de gauche à
droite ou de droite à gauche), l'encodeur Transformer lit la séquence entière de mots en une seule fois. Il est
donc considéré comme bidirectionnel, bien qu'il serait plus exact de dire qu'il est non directionnel. Cette
caractéristique permet au modèle d'apprendre le contexte d'un mot en se basant sur tout son environnement.

 Lien entre CamemBERT et BERT?

CamemBERT est une « version » de RoBERTa pré-entraînée sur un jeu de données francophone. RoBERTa
lui-même est une version de BERT pour laquelle, certains hyperparamètres du pré-entraînement ont été
modifiés et l’objectif de prédiction de phrase suivante (Next-Sentence Prediction) a été supprimé. CamemBERT
hérite donc des avantages de BERT.
 Architecture du modèle :

Il s’agit d’un fine-tuning de CamemBERT. C’est-à-dire qu’on va juste ajouter un réseau


Feed-
Forward et un Softmax à la sortie de CamemBERT.

19
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Figure 15:Architecture du fine-tuning de CamemBERT

Implémentation python du modèle tblard/tf-allocine

Après avoir importé les librairies nécessaires, on implémente le modèle tblard/tf-allocine.

Figure 16:Code python tblard/tf-allocine

7. Comparaison des résultats des deux modèles

Après avoir implémenter les deux modèles tblard/tf-allocine et Vadersentiment-fr, seuls les commentaires
sont fournis comme entrée aux modèles et le classificateur produit des prédictions.
En comparant les prédictions du modèle Vadersentiment-fr avec les étiquettes des données, on trouve que
la proportion des prédictions correctes est 0,7.
Voici quelques figures qui visualisent les statistiques obtenues par le modèle.

20
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Figure 17: Le nombre explicite de chaque catégorie de sentiments pour Vader

Figure 18:Pourcentage des sentiments pour Vader

Dans le cas du modèle tblard/tf-allocine, les prédictions correctes ont une proportion de 0,8.

Figure 19:Pourcentage des sentiments pour tblard/tf-allocine

21
Chapitre 3 : Comparaison des deux approches Lexicon-Based et Machine Learning

Figure 20:Le nombre explicite de chaque catégorie de sentiments pour tblard/tf-allocine

Conclusion :
Ce résultat va de pair avec les résultats des recherches qui démontrent que l’approche de Machine learning
est plus performante que l’approche de Lexicon-Based. Par la suite, on choisit le modèle tblard/tf-allocine de
l’approche Machine learning pour notre application web.

22
Chapitre 4 : Déploiement du modèle

Chapitre 4
IV. Déploiement du modèle

1. Introduction

Ce chapitre introduit l’application web d’analyse des sentiments qui aide l’entreprise à prendre des
décisions commerciales efficaces basées sur des données.

23
Chapitre 4 : Déploiement du modèle

2. Déploiement du modèle sélectionné :

Le déploiement est défini comme un processus par lequel nous intégrons le modèle sélectionné
d'apprentissage automatique dans un environnement de production existant pour obtenir des décisions
commerciales efficaces basées sur des données. Et c'est la dernière étape du cycle de vie de l'apprentissage
automatique.

 Bibliothèque Streamlit:
Streamlit permet de créer des applications pour votre projet de machine Learning à l’aide de simples
scripts Python. Il prend également en charge le rechargement à chaud, afin que l’application puisse se mettre à
jour en direct lorsque vous modifiez et enregistrez votre fichier. Une application peut être construite en quelques
lignes de code uniquement à l’aide de l’API Streamlit. Il est facile à déployer et à gérer.

 Application web d’analyse des sentiments :


Cette phase consiste de la construction d’une application web simple d’analyse des sentiments à l’aide de
la bibliothèque Streamlit,
Notre application permet de télécharger une base de données textuelles et retourner des statistiques
descriptives sur les sentiments exprimés par les clients sur le produit.

Figure 21:Aperçu de l'app

Figure 22:Statistiques des sentiments

24
Chapitre 4 : Déploiement du modèle

Et pour savoir plus sur les avis des clients, l’application affiche le nuage des mots pour chacun des 2
sentiments.

Figure 23:Nuage de mots pour les 2 sentiments

25
Conclusion
générale

V. Conclusion générale :
L'analyse des sentiments aide les entreprises à mieux communiquer avec les clients et à développer des
messages plus pertinents. En analysant le ton émotionnel dans les avis des clients, les entreprises peuvent
identifier les produits ou services les plus appréciés et les moins appréciés ; ainsi, elles peuvent modifier
leur stratégie commerciale pour les plus détestés. Ou, si l’entreprise vend des produits et utilise des systèmes
de recommandation de produits, elle peut mieux comprendre les besoins des clients et fournir de meilleures
recommandations.
Sous cette optique, la présence d’une application d’analyse des sentiments dans l’écosystème des
entreprises est favorable pour accroître leurs ventes et réaliser plus de profits.
Lors de ce travail, nous avons déployé un modèle d’analyse des sentiments dans une application web. Le
choix du modèle est conclu à partir d’une comparaison entre deux approches différentes d’analyse des
sentiments. Bien évidemment, l’application pourrait être raffinée en ajoutant plus de fonctionnalités.

26
Web
ographie

VI. Bibliographies:
VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media
Text, by C.J. Hutto and Eric Gilbert, Proceedings of the Eighth International AAAI
Conference on Weblogs and Social Media

VII. Webographies :
 https://www.amazon.fr/

27
28

Vous aimerez peut-être aussi