Indexation Et Recherche D'information Vidéo: Introduction À La RI Modèles de RI
Indexation Et Recherche D'information Vidéo: Introduction À La RI Modèles de RI
Indexation Et Recherche D'information Vidéo: Introduction À La RI Modèles de RI
d’Information vidéo
Introduction à la RI
Modèles de RI
Plan
1.Qu’est ce que la RI ?
3. Modèles de RI
• Terminologie
– Recherche d’information, Informatique documentaire
– Information Retrieval / Textual Information Retrieval /
Document Retrieval / multimedia Information
Retrieval
Domaine très visible …
… Et utile !
• Ouvert à tout le monde
• Domaines d’application
– Web, réseaux sociaux
– Bibliothèques numériques
– Entreprises
– Nos propres ordinateurs
La RI est un domaine vaste
• Recherche adhoc
• Classification /catégorisation (clustering)
• Question-réponses (Query answering)
• Filtrage d’information
(filtering/recommendation)
• Métat-moteurs (data-fusion,Meta-search)
• Résumé automatique (Summarization)
• Multi-langues (cross language)
• Fouille de textes (Text mining)
• Multimédias
Objectif de la RI
• Sélectionner dans une collection
– Les informations
– …pertinentes répondant à des
– …besoins d’utilisateurs
Eléments clés en RI
• Quels éléments sont centraux pour la
Recherche d’Information ?
– Documents
– Contenu des documents
– Besoin d’information d’un utilisateur
– Satisfaction
8
Les documents
• Formes
– Texte
– images, sons, vidéo, graphiques, etc.
• Propriétés
– Structure
• non structuré OU semi structuré (XML) (HTML)
– Hétérogénéité
• langage (multilingues)
• media (multimédia)
• granularité
Information sur les documents
• 2 classes d’information
– Méta-Information (information à propos du
document)
• Attributs : titre, auteur, date de création, etc.
• Structure (organisation du contenu) : structure logique,
liens, etc.
– Contenu
• Contenu brut : le document initial
• Contenu sémantique : information « riche » extraite du
contenu brut
10
Besoin d’information
• Le besoin
d’information est une
expression mentale
d’un utilisateur
• La requête est une
représentation
possible du besoin
Pertinence
• Quelle pertinence ?
?
La pertinence est difficile à
appréhender
• Pertinence est multidimensionnelle
– dépend de plusieurs paramètres : l’utilisateur,
besoin d’information, situations des utilisateurs
• Pertinence est graduelle (multivaluée)
– un document A peut être plus pertinent que B (ou A
préféré à B)
• Pertinence est dynamique
– peut changer dans le temps, selon l’état de
connaissance de l’utilisateur au moment de la
recherche
Pertinence ≈ similarité
• Elle est souvent traduite
– Vocabulaire similaire pertinent à la requête
• Similarité peut être mesurée
– Comparaison (matching) de chaînes de caractères
(ou de motifs)
– Même vocabulaire
– Même «sens»
Approche générale de la RI
• Vision simple de la RI textuelle :
«Trouver les documents ayant les mêmes
mots que la requête»
Visualisation
Description
Représentation
Représentation
Index Requête
(inverse) Correspondance
Problématiques de la RI
• Représentation de l’information
– Comment construire une représentation à partir de
documents ?
– Qu’est ce qu’une «bonne» représentation ?
– Quelle organisation physique pour les index ?
•
RI : un domaine de recherche
actif !
• Proposer des solutions :
– modèles, techniques, outils pour répondre à ces
problèmes
• Avec 2 soucis majeurs
– Quels supports théoriques ?
• Souvent basés sur des théories mathématiques :
Probabilités, statistiques, ensembles, algèbre, logique floue,
analyse de données, …
– Quel processus pour la validation ?
3. Modèles de RI
• Éléments clés
– Information textuelle
• mots simples : pomme
• groupe de mots : pomme de terre
– Image
• Couleurs, formes, textures
Indexation
• Peut être
– Manuelle (expert en indexation)
– Automatique (ordinateur)
– Semi-automatique (combinaison des deux)
• Basée sur
– Un langage contrôlé
(lexique/thesaurus/ontologie/réseau sémantique)
– Un langage libre (éléments pris directement des
documents)
•
Indexation
• Démarche de l’indexation automatique
– étape 1 : extraction des termes
– étape 2 : normalisation des mots (regrouper les
variantes d’un mot )
– étape 3 : pondération (discrimination entre les
termes clés/importants/significatifs et les autres)
Indexation automatique Etape1 :
Extraction des termes
• Extraire les termes (tockenization)
– Terme = mot (simple/composé), mots clés, concepts
– Mot : suite de caractères séparés par (blanc ou signe
de ponctuation, caractères spéciaux,…), Nombres
• Dépend de la langue
– Langue française
• Pomme de terre? un, deux ou trois termes?
– Langue Allemande les mots composés ne sont pas
segmentés
• Lebensversicherungsgesellschaftsangestellter
• « employé d’une compagnie d'assurance-vie »
Etape1 : Extraction des mots (suite)
• Pas d’espaces en chinois et en japonais
– Ne garantit pas l’extraction d’un terme de manière
unique
• Pire, le japonais utilise plusieurs alphabets
Etape 1 : Extraction des mots
(suite)
• Suppression des mots «vides» (stoplist/
Common Words removal)
– Mots trop fréquents mais pas utiles
– Exemples :
• Anglais : the, or, a, you, I, us, …
• Français : le, la, de , des, je, tu, …
– Des exceptions :
• US : «USA »
• A de (vitamine A)
Etape 2 : Normalisation
• «Lemmatisation» (radicalisation, racinisation)
(stemming)
– Processus morphologique permettant de regrouper
les variantes d’un mot
• Ex : économie, économiquement, économiste économie
• pour l’anglais : retrieve, retrieving, retrieval, retrieved,
retrieves retriev
Etape 2 : Normalisation (suite)
• Utilisation de règles de transformations
– règle de type : condition action
• Ex : si mot se termine par ‘s’ alors supprimer la terminaison
• L’algorithme le plus connu est l’algorithme de Porter
– Analyse grammaticale
• Utilisation de lexique (dictionnaire)
• Tree-tagger (gratuit sur le net)
Etape 3 : Pondération des mots
• Comment caractériser l’importance des termes
dans un document ?
– Associer un (ou plusieurs) poids à un terme
– Idée sous jacente :
• Les termes importants doivent avoir un poids fort
3. Modèles de RI
33
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D Q
– Utilisation de déduction par
» Axiomes : (a b) a, (a b) b, a (a b), b (a b), …
» modus ponens (MP) : si a et a b alors b
• Exemple : D = t1 t3 et Q = t1 t4
– Déduction :
1. t1 t3 t1 (équivalent à D t1)
2. MP(1) : t1
3. t1 t1 t4 (équivalent à t1 Q )
4. MP(3) : Q
34
Modèle booléen
– Correspondance stricte
– Q = t1 t3 t4
– D1 = t1 t4 ,
D1 Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.
35
Modèle booléen
– Pas de distinction entre les documents pertinents
– Q = t1 t4
– D2 = t1 t4 , D3 = t1 t3 t4 t5 t6 t7
D2 Q et D3 Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?
36
Modèle booléen
– Expression de requêtes complexe
– Q = ((t1 t4) t6) ( t8 (t10 t40)) … ???
– Sens du logique (inclusif) différent du « ou » courant (exclusif)
37
Modèle booléen : avantages et
inconvénients
• Avantage :
– Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
– Adapté pour les spécialistes et les vocabulaires contr
aints
• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous f
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
Di
Dj
Terme 2
Terme 3
40
Modèle vectoriel
• Pondération des termes pour les documents :
– Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
– Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »
42
Modèle vectoriel
• Pondération :
– On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le Terme fréquent dans un seul
corpus entier document du corpus
43
Modèle vectoriel
• Pondération :
– Fréquence documentaire d’un terme
44
Modèle vectoriel
• Pondération :
– Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
– Utilisation du t pour une requête
45
Modèle vectoriel
• Fonction de correspondance :
– Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Terme 1
Di
Requête Q
Terme 2
46
Modèle vectoriel
• Fonction de correspondance :
– Une solution est de calculer le cosinus de l’angle
entre le vecteur requête et le vecteur document.
• Produit scalaire
• Cosinus de l'angle
• Distance euclidienne
47
Modèle vectoriel : avantages et
inconvénients
• Avantages :
– Le langage de requête est plus simple (liste de mot
clés)
– Les performances sont meilleures grâce à la pondéra
tion des
termes
– Le renvoi de documents à pertinence partielle est po
ssible
– La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
– Le modèle considère que tous les termes sont indép
Modèle probabiliste (survol)
• Suppose que la recherche se déroule lors d’une
« session de recherche » (plusieurs itérations)
• Consiste à « estimer » la pertinence d'un
document en fonction de pertinences connues
pour d'autres documents.
• Ce calcul se fait en estimant la pertinence de
chaque index pour un document et en utilisant
le Théorème de Bayes et une règle de décision
49
Modèle probabiliste
• Pour un requête Q
Documents pertinents
“Relevant documents
rel CORPUS
Documents non pertinents
“Non relevant documents”
Avec nonrel
Corpus = rel nonrel
rel nonrel =
51
Modèle probabiliste
• Fonction de correspondance
• Décision : document retourné si
52
Modèle probabiliste : avantages et
inconvénients
• Avantages :
– Apprentissage du besoin d’information
– La fonction d'appariement permet de trier les documents
• Inconvénients :
– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)
– Pas de langage de requête !
– Problème des probabilités initiales