PlanProjetSubjectivityDetection V1
PlanProjetSubjectivityDetection V1
PlanProjetSubjectivityDetection V1
13/01/2024
M1 Informatique
S8
UE Management de projet
Résumé
Dans le cadre du CLEF (Conferences and Labs of the Evaluation Forum) le laboratoire
« CheckThat ! » se concentre sur la détection de fake news. Divisé en plusieurs tâches
dont la tâche 2 : détecter la subjectivité dans des articles de presse. C’est cette tâche
sur laquelle notre équipe de Master informatique (IA et Systèmes embarqués) reprend
ce projet collaboratif en ciblant l’utilisation de méthodologies basées sur des Modèles de
Langage (LLM) et des dictionnaires. Le document fournit un aperçu détaillé du contexte,
des techniques et approches de gestion utilisées, soulignant les objectifs du projet ainsi que
son organisation.
Mots-clefs
-LLM-
-Recherche-
-Méthodes-
-Détection-
-Objectivité-
-Subjectivité-
-Dictionnaire-
-Développement-
1
Table des matières
I Contexte et Objectif 3
I.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
II Parties prenantes 4
II.1 UE Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.1.1 Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.2 Maître d’ouvrage - Client . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.2.1 Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.2.2 Capture du besoin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.3 Assistants maître d’ouvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.3.1 Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
IV Phase de Recherche 8
IV.1 Modèles et résultats des équipes de CLEF 2023 . . . . . . . . . . . . . . . . . . . . . . 8
IV.2 État de l’Art de la détection automatique de la subjectivité . . . . . . . . . . . . . . . 8
IV.3 Avancement de la recherche sur le prompt engineering . . . . . . . . . . . . . . . . . . 8
V Phase de développement 9
VI Contrôle Qualité 10
VI.1 Clarté de communication avec les parties prenantes . . . . . . . . . . . . . . . . . . . . 10
VI.2 Accessibilité des informations récoltées . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
VI.3 Accessibilité des travaux effectués . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
VI.4 Clarté des livrables d’UE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
VI.5 Clarté des livrables auprès du client . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
VIIIBilan 13
2
I – Contexte et Objectif
I.1 Contexte
Le laboratoire CheckThat ! a été organisé pour la 7ème reprise dans le cadre de CLEF 2024. Notre
but est d’examiner les travaux précédents et de réaliser la tâche 2 qui consiste à l’identification de la
subjectivité. L’objectif de cette tâche est de promouvoir l’intelligence artificielle dans le domaine de
la détection de fragments de texte subjectifs depuis des articles de presse ou tweets. La subjectivité
est une caractéristique du langage : en prononçant un énoncé le locuteur exprime simultanément sa
position, son attitude et ses sentiments à l’égard de celui-ci, laissant ainsi sa propre empreinte. Selon
le laboratoire, une phrase est considérée comme subjective si elle contient plusieurs critères tels que :
• Rapporter explicitement l’opinion personnelle de son auteur ;
• Contenir des expressions sarcastiques ou ironiques ;
• Contenir des exhortations ou des auspices personnels ;
• Contenir des expressions discriminatoires ou dévalorisantes ;
• Contenir des figures de rhétorique explicitement formulées par son auteur pour exprimer son
opinion ;
• Contenir une conclusion tirée par son auteur en dépit d’informations factuelles insuffisantes ;
• Contenir des intensificateurs qui peuvent être attribués à son auteur pour exprimer son opinion ;
(cf. On the Definition of Prescriptive Annotation Guidelines for Language-Agnostic Subjectivity Detection)
La tâche propose des corpus composés de 9 530 phrases annotées manuellement, couvrant six langues
- arabe, néerlandais, anglais, allemand, italien et turc.
I.2 Objectif
Il s’agira de développer des modèles basés sur de l’apprentissage automatique. Les modèles utilisés
pourront s’appuyer sur des technologies de type LLM (chatGPT, LangChain, etc.) et/ou sur d’autres
modèles de Machine Learning en se basant sur un dictionnaire de textes (ex. : les forêts aléatoires).
Les différents modèles et différentes configurations seront évalués (évaluation de l’efficacité) sur plu-
sieurs jeux de données labelisés.
Fonctionnalité minimale : Un modèle d’apprentissage profond présentant des résultats corrects sur
la langue anglaise, un rapport d’évaluation de la prédiction sera rendu ; plusieurs configurations du
modèle seront tester
Fonctionnalités complémentaires :
• D’autres modèles d’apprentissage sur une ou plusieurs langues différentes de l’anglais .
3
II – Parties prenantes
II.1 UE Management
Présentation de l’UE : Faisant partie du programme de première année en Master Informatique,
l’Unité d’Enseigement (UE) Management de Projet encadre le projet de quatre mois que nous prenons
en charge, elle définit les aspects de gestion du projet et les évalue.
L’évaluation se fera tout au long de l’UE, avec des travaux que l’on doit aux professeurs de manage-
ment ; Dates et intitulés des livrables :
• Dépôt Rendu kick-off : 13 janvier 2024
• Dépôt Plan projet V1 : 17 février 2024
• Dépôt Plan projet V2 : 17 mars 2024
• Dépôt Plan project V3 : 14 avril 2024
• Dépôt Soutenance finale (Transparent) : avant fin avril 2024
II.1.1 Communication
La communication avec les responsables de l’UE management ce fait durant les cours de travaux
dirigés prévus ainsi qu’à travers un serveur Discord III.2 crée par les responsables pour échanger et
poser d’éventuelles questions.
II.2.1 Communication
Afin d’assurer une bonne communication avec le client, il a été conclu pendant la réunion de
lancement du projet que des réunions de 5 à 15 minutes seront faites en fin de journées sur chacun
des deux jours prévus pour le projet dans la semaine, lundi et mardi. Ces réunions rapides nous
permettent de tenir la cliente informée de l’avancement du projet et de définir dynamiquement les
tâches à effectuer par la suite. Elles sont transcrites dans un fichier log dédié sur le dépôt github Hors
des réunions, nous communiquons par mail avec tous les participants en copie (VI).
4
II.3 Assistants maître d’ouvrage
Les Assistants à la Maîtrise d’Ouvrage (AMO) M. Julien Contarin et M. Antoine Maîresse,
anciens étudiants de M1 ayant fait ce projet en 2023 peuvent avoir le rôle de valider une proposition
technique de notre part si besoin, de valider l’organisation du projet, d’accepter la gestion des risques
du projet, de proposer des éléments d’assurance et de contrôle qualité ou aussi de nous conseiller dans
les exigences à exprimer quant à la maintenabilité ou la pérennité du produit développé, d’assurer la
validation des livrables, de valider le référentiel projet.
II.3.1 Communication
La communication avec les Assistants maître d’ouvrage est établie à travers les mails échangés
avec le client ainsi que dans une section dédié sur le même serveur Discord que nous utilisons interne
(III.2) pour organiser des réunions de gestion projet.
5
III – Organisation interne
Nous avons aussi réaliser un Gantt initiale, dans le but de pouvoir nous organiser et avoir un "squelette"
sur les tâches que nous devons accomplir ainsi que le temps que nous estimons. Ce planning ainsi que
les plannings courants (évolutif) sont disponible dans le référentiel de structure du projet VII.1.
III.2 Communication
Afin de faciliter la communication interne, nous utilisons la plateforme de messagerie instantanée :
Discord. L’objectif de Discord est de nous permettre de communiquer rapidement et de se partager
des documents avant validation. Pour s’assurer que le serveur Discord reste organisé, chaque membre
du groupe a les permissions nécessaires afin de créer, remanier ou supprimer les canaux de discussion.
Au besoin, selon les tâches en cours, nous nous rassemblons en présentiel pour collaborer.
6
Structure), WBS (Work Breakdown Structure), diagramme de Gantt intial et un diagramme de gantt
que nous mettons à jour au fur et à mesure des besoins.
7
IV – Phase de Recherche
8
V – Phase de développement
9
VI – Contrôle Qualité
Dans le but de mener à bien le projet, nous définissons plusieurs objectifs de qualité, tant sur la
qualité des livrables que sur la qualité de notre organisation générale.
10
VI.4 Clarté des livrables d’UE
1. Cohérence des différentes parties du plan de projet.
2. Division correcte des parties du plan de projet.
3. Garder une trace des révisions effectuées et des anciennes versions des documents importants :
4. Plan projet écrit au présent.
5. Repasser une seconde fois par une personne différente, sur les documents écrits pour vérifier les
fautes d’orthographe.
6. Les documents suivants doivent être validés par au moins deux personnes qui ne les as pas
écrites avant d’apparaître sur le github : Gantt, compte-rendus de réunion.
7. Les documents suivants doivent être validés par tous à chaque version avant d’apparaître sur
le github : plan de projet, Référentiel de structure de projet.
8. La validation consiste en une réaction check vert sur Discord
11
VII – État actuel du projet
Dans cette section, nous présentons des liens vers les ressources actuelles du projet, structurées
sur un dépôt github (cliquez sur les bouttons représentés par <- Boutton ->), vous y trouverez le
référentiel de structure du projet, le diagramme de Gantt, les différentes versions de ce document et
les avancements de la recherche et du développement.
12
VIII – Bilan
13