Cours RI Latiri 2024 Ing Compressed
Cours RI Latiri 2024 Ing Compressed
Cours RI Latiri 2024 Ing Compressed
Chiraz Latiri
[email protected]
Autour de trois parties :
I. Introduction à la RI
II. Fondements de la RI
III. RI et Web
Chiraz Latiri
[email protected]
Partie I : Introduction à la RI
Chiraz Latiri
[email protected]
Recherche d’Information (RI) / Information Retrieval (IR)
Recherche d’Information
Ensemble des méthodes et techniques pour
l’acquisition, l’organisation, le stockage, la recherche
et la sélection d’information pertinente pour
un utilisateur
Chiraz Latiri 5
Recherche d'Information
Chiraz Latiri 6
Recherche d'Information
Les acteurs de la Recherche d'Information
Collection :
un ensemble de
documents
Chiraz Latiri 8
Recherche d'Information
RI: définitions
• Information retrieval (IR)
• is the science of searching for documents, for information within
documents, and for metadata about documents, as well as that of
searching relational databases and the World Wide Web.
• IR is interdisciplinary,
• based on computer science, mathematics, library science,
information science, information architecture, cognitive
psychology, linguistics, statistics, and physics.
• are used to reduce what has been called "information overload".
• Many universities and public libraries use IR systems to provide
access to books, journals and other documents. Web search
engines are the most visible IR applications.
Chiraz Latiri 9
Recherche d'Information
RI : une requête classique
Chiraz Latiri 10
Recherche d'Information
RI: qu’est ce qu’on cherche?
• Où se trouve la librairie la plus proche de chez moi ?
• Qui est actuellement en tête du Top 14 de rugby ?
• Quels sont les titres mentionnés à la une du journal Le Monde d’aujourd’hui ?
• Que rapporte la une du Monde d’aujourd’hui sur les candidats à l’élection
présidentielle ?
• Quels sont les films qui passent ce soir sur la TNT ?
• Dans quels films Jean Rochefort et Philippe Noiret ont-ils joué ensemble ?
• Quels sont les logiciels d’installation de logiciels sous Linux/Debian ?
• Comment peut-on installer des logiciels sous Linux/Debian ?
• Quelle est la traduction du mot anglais “ice” en français ?
• Qui était Claude Bernard ?
Questions
• Quelle est la nature des résultats attendus ?
• Comment évalue-t-on la pertinence des résultats ?
• Sous quelle forme doit-on formuler ses requêtes ?
•…
Données
Information :
Signification
Chaîne de caractères/valeurs
(explication/description) des
associées à des objets, des
personnes et des événements (42) données, données intelligible (42° C
- relevé à 18 h, sous abri, à Tozeur le
Select .. From … where
2 mai)
Connaissance :
Information découverte, comprise
et partagée par une communauté
(étant donné qu'on est au sud
Tunisien, 42°C en mai c’est plutôt
très chaud) (Data mining, fouille de
données)
Twitter (2015)
• Les tweets contenant une photo sont deux fois
plus partagés que la moyenne.
• 500 millions de tweets sont envoyés chaque jour.
• 300 milliards de tweets ont été envoyés depuis le
21 mars 2006.
Facebook (2015)
• Exploration
– Le but n’est pas de répondre à une question en particulier,
mais de parcourir l’ensemble des données pour découvrir
quels types d’informations concernant un sujet ou un
domaine sont présents.
à Navigation
• Distinguer d’abord :
– Outils propres au web : moteurs de recherche, métamoteurs, moteurs
de blogs…(Google, yahoo les plus populaires).
– Outils accessibles par le web : bases de données, catalogues…
• Deux critères essentiels :
– Offre des ressources : outil généraliste / spécialisé
– Mode d’indexation : outil humain / automatisé
• Moteurs généralistes : Google, Yahoo, Ask, Bing…
• Moteurs spécialisés : géographique : Google.tn, selon le contenu des
ressources indexées (Google Scholar), presse (Google News), disciplinaire
SciencesDirect en Sciences exactes, par domaine (PubMed), forums
(Google Groups), listes de diffusion (info-IC) ; blogs , selon les supports :
images, vidéos (Google ou Yahoo), fichiers son.
Chiraz Latiri 32
Recherche d'Information
Mots composés
• Les mots composés sont beaucoup moins polysémiques
• Les rechercher ensemble dans les textes est bénéfique
(mais compliqué)
• Ils ont un sens qui n'est pas la composition des sens des atomes
– Homme-grenouille
– Pomme de terre
– Traitement de texte
ã M. Heinrich, J. Negra
Chiraz Latiri
[email protected]
Problématique de la RI
Besoin en information ou Collections dynamiques ou
requête statiques
SRI
Résultat
Ici s’évalue la pertinence du
résultat
Sélectionner dans une collection
– Résultats: les informations ( documents, images, vidéos...)
– … pertinentes répondant aux
– … besoins en information des utilisateurs (Requêtes)
Comment capturer le
besoin de l’utilisateur ?
Requête
SRI
Langage de Traitement Traitement =
Indexation
requêtes Indexation
Appariement Index (mots clés) et
Liste de mots
Ranking organisation
physique
Fichier
inverse
Visualisation
Modèles de RI :
Vectoriel, probabiliste
Recherche d'Information Ranking dans le web Chiraz Latiri 44
SRI et modèle de RI
1 9 7
q1
3 q2
4 6 5
Système à
évaluer
Liste 0,9
documents 5 0,8
9 0,7 Syst A
7 0,6
Précision
0,5
0,4
0,3
Liste de bonnes Evaluation 0,2
réponses Précision
0,1
0
q1 1, 9
et rappel 0,1 0,2 0,3 0,4 0,5 0,6
Rappel
0,7 0,8 0,9 1
q2 4
Courbes de rappel/précision
Représente l’évolution de la précision et du rappel avec
des résultats triés.
Méthode :
Pour chaque document retrouvé, on calcule la précision et
le rappel obtenus en considérant seulement le premier
document comme réponse, puis les deux premiers, puis les
trois premiers etc., jusqu'à la réponse totale du système.
Chiraz Latiri 63
Recherche d'Information
Campagnes d’évaluation
• TREC - Text REtrieval Conference
– Évaluation des approches RI (beaucoup de tâches sont évaluées
dans cette campagne)
Information 2, retrieval 2, IR 1,
• Regrouper les mots activity1, obtain 1
Un sac de
mots (BOW)
Recherche d'Information Chiraz Latiri 69
Indexation : pourquoi ?
• L’idée principale du moteur de recherche est de retrouver les
documents qui « parlent de » la requête.
• On utilise ce qu’on a sous la main : les mots
– Qu’est-ce qu’un mot ?
– Que faire lorsqu’un mot est « proche » d’un mot de la requête ?
• Le parcours complet de l'ensemble des documents avec les termes
d'une requête est impossible : trop de documents et temps de
réponse prohibitif.
• On passe par un traitement préalable : l'indexation :
Le but de l'indexation automatique : "transformer des documents
en substituts capables de représenter le contenu de ces documents"
(Salton et McGill, 1983)
• Indexation contrôlée
– Listes de termes prédéfinies
– Vocabulaire contrôlé (évite
– polysémie, synonymie et problèmes
de granularité)
– Thésaurus
Normalisation
Corpus de
des termes
textes
Construction
de l’index
Segmentation
Chiraz Latiri 73
Recherche d'Information
Dans quels documents cherche-t-on ?
• Formats
– HTML (menus, tableaux, publicité, rendu)
– Texte brut (structure ?)
– pdf (problèmes d’encodage, rendu)
– Word (format propriétaire, structure)
– Excel (gestion des tableaux)
– OpenOffice (XML)
– …
• Il est assez simple de détecter le type d’un document
• Des heuristiques spécifiques à chaque format pour extraire
le texte
• Les moteurs de recherche utilisent très rarement la
structure des documents
• Encodages
– Des erreurs dans la gestion de l’encodage peuvent
conduire à des résultats erronés
« président du Pérou »
Collections
de Sélection
documents des termes
Normalisation
Corpus de
des termes
textes
Construction
de l’index
Segmentation
Chiraz Latiri 77
Recherche d'Information
La segmentation (Tokenisation)
• Identification des unités élémentaires
(phonèmes, morphèmes, mots, etc.).
Pour l'écrit, des mots et des phrases.
• Un problème très complexe dans certaines
langues (chinois...)
• L’étape initiale indispensable pour tout travail sur le texte
• On obtient des mots, ou des termes, ou des tokens
Normalisation
Corpus de
des termes
textes
Construction
de l’index
Segmentation
Chiraz Latiri 82
Recherche d'Information
Filtrage des mots vides (Stopword list)
• Les mots « outils » n’apportent pas de sens au texte
déterminants : « le », « la », pronoms : « je », « nous », prépositions :
« sur », « contre », …
• Ce sont les mots les plus fréquents de la langue
– Les 30 mots les plus fréquents représentent 30 % des occurrences de
mots
– Les supprimer permet d’économiser beaucoup de place dans l’index
• Mais :
– On en a besoin pour des requêtes multi-termes
« pomme de terre », « les Chevaliers du Zodiaque »
– Ils sont parfois porteurs de sens dans des cas particuliers
« Let it be », « The Who », « ça », « être ou ne pas être »
– La compression permet finalement de conserver les mots vides dans peu
d’espace
Recherche d'Information Chiraz Latiri 83
Antidictionnaire (Stopword list) Smart (571)
a all and are
a's allow another aren't
able allows any around
about almost anybody as
above alone anyhow aside
according along anyone ask
accordingly already anything asking
across also anyway associated
actually although anyways at
after always anywhere available
afterwards am apart away
again among appear awfully
against amongst appreciate
ain't an appropriate
Normalisation
Normalisation
Corpus de
des termes
textes
Construction
de l’index
Segmentation
Chiraz Latiri 85
Recherche d'Information
Normalisation textuelle (1)
• Dans les documents comme dans la requête
• On veut par exemple normaliser :
– « U.S.A. » et « USA » à USA
– « morpho-syntaxe » et « morphosyntaxe » à morphosyntaxe
– « Tuebingen », « Tübingen » et « Tubingen » à Tubingen
– « Gorbatchov » et « Gorbatchev » à Gorbatchev
• Mais pas :
– « sur » et « sûr »,
– « pêche » et « péché »
– En allemand, « mit » (avec) et « MIT »
– En anglais, « C.A.T. » (Caterpillar) et « cat »
• Sans oublier les fautes de frappe / d’orthographe
Chiraz Latiri 87
Recherche d'Information
Normalisation linguistique
• La lemmatisation
• La racinisation
• L’étiquetage
Chiraz Latiri 88
Recherche d'Information
Lemmatisation
• Obtention de la forme canonique (le lemme) à partir du mot :
– Pour un verbe : sa forme à l'infinitif (sans les flexions)
montrer, montreras, montraient à montrer
am, are, is à be
• sses à ss
• ies à i
• ational à ate
• tional à tion
• Si m > 1 alors cement à ""
replacement à replac
cement à cement
• Porter
document describ market strategi carri compani agricultur chemic …
• Krovetz
document describe marcketing strategy carry company agriculture
chemical …
Collections Comment
de Sélection représenter
documents des termes l’index?
Normalisation
Corpus de
des termes
textes
Construction
de l’index
Chiraz Latiri 98
Recherche d'Information
Construction de l’index : le fichier inverse
• Notion "classique" de l'index
• Un fichier inverse associe des index aux documents qui les
contiennent. Chaque document possède un identifiant unique.
– a ▸ d1, d2, d3, d4, d5...
– à ▸ d1, d2, d3, d4, d5...
– abaissa ▸ d3, d4...
– abaissable ▸ d5
– abandon ▸ d1, d5
– abandonna ▸ d2
– abasourdi ▸ d1
– …
Brutus 2 4 8 16 32 64 128
Calpurnia 1 2 3 5 8 13 21 34
Caesar 13 16
Brutus 2 4 8 16 32 64 128
Calpurnia 1 2 3 5 8 13 21 34
Caesar 13 16
Documents
Dictionnaire
Fichier inverse
(dictionnaire)
En RI,
"fréquence" =
….. ….. "nb d’occurrences"
Ä « pommes terre »
ð Index de positions
Termes Paramètre
triviaux rang des termes dépendant
du corpus
Termes
marginaux Chiraz Latiri 117
Recherche d'Information
Tf : term frequency
• tf (fréquence des termes) : La fréquence d’un terme t est
un indicateur de son importance
• Intuitivement, plus un document contient d’occurrences
d’un terme t, plus il sera pertinent pour une requête
contenant ce terme t.
• Nombre d’occurrences du terme t dans le document d
= 1 + 𝑙𝑜 𝑔( 𝑓𝑟𝑒𝑞 𝑡, 𝑑 )
𝑓𝑟𝑒𝑞(𝑡, 𝑑)
=
𝑡𝑓 = 𝑓𝑟𝑒𝑞 𝑡, 𝑑 = 𝑚𝑎𝑥∀ " !∈$%&'( (𝑡 ) , 𝑑)
𝑓𝑟𝑒𝑞(𝑡, 𝑑)
=
∑∀ " !∈$𝑓𝑟𝑒𝑞(𝑡 ) , 𝑑)
Requête
SRI
Langage de Traitement Traitement =
Indexation
requêtes Indexation
Appariement Index (mots clés) et
Liste de mots
Ranking organisation
physique
Fichier
inverse
Visualisation
Modèles de RI :
Vectoriel, probabiliste
Ranking dans le web
Recherche d'Information Chiraz Latiri 123
Modèle de RI : au cœur du SRI
Exemple
D1 = t1∧t2∧t3 (les 3 termes apparaissent dans D)
D2 = t2∧t3∧t4∧t5
Q = (t1∧t2)∨(t3∧t4)
D1 ⊃Q,
/ alors R(D1, Q) = 1.
mais D2 ⊃ Q, alors R(D2, Q) = 0.
D⊃Q
Utilisation de déduction par :
0 0 0 0 1 0
0 0 0 1 0 0
0 1 1 0 1 1
0 1 1 1 0 0
1 0 1 0 1 1
1 0 1 1 0 0
1 1 1 0 1 1
1 1 1 1 0 0
t (1,1) t (1,1)
2 2
1 1
y1 0,65 y1 0,65
D2 D2
y2 0,5 D1 y2 0,5 D1
x2 x1 x2 x1
t t
(0,0) 0,25 0,75 1 1
(0,0) 0,25 0,75 1 1
𝑥! + 𝑦! 1−𝑥 ! + 1−𝑦 !
𝑅𝑆𝑉 D, Q OR = 𝑅𝑆𝑉 D, Q AND = 1 −
2 2
'
!
∑!"#..% 𝑐&
𝑅𝑆𝑉 D, Q OR =
𝑚
'
!
∑!"#..% 1 − 𝑐 &
𝑅𝑆𝑉 D, Q AND = 1 −
𝑚
avec :
• c les coordonnées des mots
• m le nombre de termes
de la requête
p = 1 modèle booléen classique
•1≤p≤∞ p = 2 exemple précédent
Requête Q : t1 t2 t3 D
0.80
Q
Document D : … t1 … t3 …
t2
t2
D1
Cosinus
Q
𝑄:𝐷 ∑(!"# 𝑤!,* × 𝑤!,+
sim 𝑄, 𝐷 = =
𝑄×𝐷 ∑ 𝑤²!,* × ∑ 𝑤²!,+
D3 D2
D4