Cours 1 Idm

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 53

Le multimédia

Cours 1
Le multimédia
 Est né du monde numérique au milieu des
années 80 : la plupart du temps relié à
l’informatique.

 On peut estimer que le multimédia existe


depuis qu’il est possible de traiter et de
diffuser plusieurs médias (animation, image,
son, texte, vidéo) sur un même médium.
Le multimédia

On parle de médias depuis que toutes les données


ont pu être numérisées, que les canaux de diffusion
ont pu supporter une transmission numérique et
que les réseaux sont devenus accessibles pour le
grand public.
=> Début ‘90
Le multimédia

Comme son nom ne l'indique pas le multimédia se


concentre généralement sur un support unique
(MONO média). C'est le contenu du support qui est
multiple et riche : simple texte, images, sons, vidéo.

Intégration
Richesse et Variété Respect de standards
Le multimédia
Le contenu multimédia peut être stocké et accédé
de différentes manières :
Faible volume (quelques centaines de MO)
CD/DVD ROM et accessible via une IHM
 Volume important (GO ou TO) dans une BD
multimédia et accédé via un langage de requête
spécifique
 Volume illimité sur le WEB accédé de manière
associative via la navigation hypermédia
Ces nouveaux contenus induisent une forte
interactivité avec l'utilisateur
Des données porteuses d’un sens complexe :

Données biologiques, médicales,


génomiques
Textes, images, vidéos, sons, paroles,
musique
Signaux, alarmes, messages
Fichiers, bases de données
DONNÉES MULTIMÉDIA
Traitements
 Des traitements sur ces données
 Décrire, modéliser
 Classer, trier, ranger, organiser
 Visualiser, naviguer
 Rechercher, trouver, découvrir
 Résumer, condenser, réorganiser
 Diagnostiquer, détecter, décider
Le multimédia
Les fonctionnalités classiques d'un SGBD, sont
utiles à une BDMM :

Gestion de gros volumes,


Langage de requête et de mise à jour,
Sécurité (intégrité, disponibilité, fiabilité,
Gestion des accès
Système multimédia

Une base de données multimédia BDMM s'intègre dans


un système multimédia plus général et qui comprend
au moins 4 composants :

 la BDMM elle même,


 un serveur de stockage,
 un réseau,
 des clients MM fixes ou non.
Système multimédia
Les principaux processus d'un système multimédia
sont :
 la capture des données,
 le stockage,
 l'indexation,
 l'archivage,
 la recherche et la récupération d'information.
Quelque chiffres Moteur de recherche Google

Part de marché Google


Monde : 90,6% – Bing à 3,2%, Yahoo! à 2,1%.
Europe : 91,6% – Bing à 3,7%, Yandex RU à 2,3%.
France : 91,5% – Bing à 4,9%, Yahoo! à 1,8%.
Source : StatCounter (mai 2018)
Requêtes Google
30 000 milliards de pages sont indexées par Google.
20 milliards de sites sont visitées (crawlées) par Google,
chaque jour.
3,3 milliards de requêtes sont effectuées chaque jour (100
milliards par mois).
15% des requêtes sont de nouvelles requêtes (500 millions
par jour) !
Quelque chiffres You Tube

 Utilisateurs actifs mensuels (MAU Monthly Active


Users) : 1,5 milliard
 Nombre de vues par jour : 4 milliards
 Nombre de vues par jour sur mobile : 1 milliard (25%
des vues)
 6 milliards d’heures de vidéo vues par mois
 72 heures de vidéo ajoutées chaque minute
Problèmes

 Accéder, traiter l’information, extraire et


interpréter l’information
 La recherche, l’extraction, la maintenance
et la génération d’information
 Contenu et Information: pas accessible ni
interprétable par des machines
Problématique

 Problèmes
 Qualité de la recherche d’information
 Comment la machine peut-elle
savoir que les résultats de la
recherche sont pertinents ?
Système de recherche
d’information
Le recherche d’information (Information Retrieval)
est un domaine du monde informatique se focalisant
sur la représentation, le codage, l'organisation et
l’accès aux information.

Le but d’un système de recherche d’information SRI


est de sélectionner dans une collection de données
ceux qui sont susceptibles aux besoins en information
de l’utilisateur via une requête.
SRI

DOCUMENT REQUËTE PERTINENCE

Unité documentaire
constituant une réponse à Texte, image, …. Les résultats de
une requête recherche d'information
ne sont pas toujours
parfaits en raison du
Besoin d’information d’un fossé sémantique:
Teste, son, image, vidéo,… Retour de pertinence
utilisateur
Problématique

 Recherche d’information de type Google


 Polysémie
 Nombre de résultats très important

 Requête : « directeur » HAMZA OUZID

 Un nombre de milliers de résultats : toutes les pages qui


contiennent ces deux termes ou l’un des deux
Comment donner du

sens

aux Données
Problématique
Que voyez-vous
!!!!??????

Tube métal,
 Cylindre pour armes
 Chemise pour moteur
2 temps
Que voyez-vous
!!!!??????

Moteur BMW
 voiture
moto
Problématique

Que voyez-vous
!!!!??????

Poisson
Crabe
Etoile
Pour Donner du sens aux données

Utiliser les connaissances


dans des domaines spécifiques
pour identifier / reconnaître ces données

Connaissances partagées par des


communautés
Problématique: solution
 Donner du sens aux informations

 Compréhension des phrases


 Différents contextes : différents termes

 Interprétation commune liée à des connaissances communes

 Utilisation de vocabulaires standards partagés par tous !

 Chaque vocabulaire détermine un sens unique aux verbes, aux


catégories de sujets.
Problématique: solution
Du sens vers l’extraction :
Comment améliorer l'indexation automatique à
partir de la modélisation du contenu
sémantique d'un document ?
Content-mining : que faut-il représenter et
chercher ?
De l’extraction vers le sens :
En quoi l'analyse du contenu peut-elle
influencer sur l'interprétation du contenu ?
Problématique: solution
 Le cognitif ;
 Comment caractériser ce que l’on voit ou lit quand
on consulte un document ?
 Ensemble de fonctions de l’esprit liées à la
connaissance (perception, langage, raisonnement,
décision, mouvement)

 La sémantique
 Comment déterminer la valeur (Signifiance) de ce
qui est perçu.
Problématique: solution
Caractériser les différents points de vue de
l’indexation :
Structurel ;
Quel plan du document ?
Conceptuel ;
De quoi parle-t-il ?
Perceptif ;
Que voit-on ? Qu’entend-t-on ?
Documentaire :
Quelles collections ? Quels usages ? Quels
genres documentaires ?
Comment articuler ces points de vue ?
• Un objet saillant qui attire l’attention.
• On s’intéressera alors à la notion
d’attention visuelle.
• L'attention visuelle est généralement
représentée comme un faisceau lumineux
qui éclaire un objet ou un endroit de la
scène visuelle et favorise son traitement par
le cerveau.
Saillance visuelle

L’attention visuelle pourrait donc être


définie comme étant la capacité du cerveau
à sélectionner l’information visuelle
pertinente en rejetant ce qui ne l’est pas
dans un contexte particulier
La définition la plus opérationnelle de la saillance
attentionnelle repose sur les mécanismes élémentaires
de la vision, qui permettent de modéliser la détection
des régions les plus saillantes d’une scène visuelle à
partir de ses caractéristiques photométriques et
colorimétriques (contrastes de luminance, contrastes
colorés, bords, angles, etc.) pour les différentes
fréquences spatiales.
UN THESAURUS

Pourquoi ?
Pour qui ?
Comment ?
Un thésaurus, terme issu du latin, permet d’hiérarchiser
une liste de valeurs et d’en faire une arborescence.
Celle-ci facilite le travail d’indexation grâce à la mise en
relation de termes ou de descripteurs.

Le thésaurus est une classification sur laquelle on ajoute


des relations d’association et des relations hiérarchiques.
Il vise à classer les termes de manière thématique et
facilite ainsi les associations d’idées.
Vocabulaire d’un langage d’indexation
contrôlé organisé formellement de façon à
expliciter les relations à priori entre les
notions (par exemple relation générique -
spécifique)
THESAURUS: Caractéristiques

1) Niveau de coordination
2) Relations des termes
3) Spécificité du vocabulaire
4) Normalisation du vocabulaire
THESAURUS: Caractéristiques

1. Niveau de coordination

La construction de phrases à partir de termes


individuels.

Deux options de coordination: pré-


coordination et post-coordination.
THESAURUS: Caractéristiques

1. Niveau de coordination

 Un thésaurus pré-coordonné peut contenir


des phrases.
 L'avantage est que le vocabulaire est très
précis.
 L'inconvénient est que le chercheur doit
connaître les règles de construction des
phrases utilisées.
THESAURUS: Caractéristiques

1. Niveau de coordination

Dans un thésaurus post-coordonné, les phrases


sont construites lors de la recherche.
L'avantage est que l'utilisateur n'a pas à
s'inquiéter de l'ordre exact des mots dans la
phrase.
L'inconvénient est que la précision de la
recherche peut baisser.
.
THESAURUS: Caractéristiques

2. Relations des termes


Trois catégories de relations de terme:

a) Relations d'équivalence
b) Relations hiérarchiques
c) Relations non hiérarchiques
THESAURUS: Caractéristiques

2.Relations des termes: Equivalence


Les relations d'équivalence incluent à la fois la
synonymie (synonyme) et la quasi-synonymie
(semi-synonyme). Par exemple: génétique et
hérédité, Volontaire et Bénévole.

Terme qui n’est pas interchangeable avec un autre


que dans certains cas
THESAURUS: Caractéristiques

2. Relations des termes: Hiérarchie

Un exemple typique de relation


hiérarchique est le genre-espèce, tel que
"chien" et "berger " allemand .
THESAURUS: Caractéristiques

2. Relations des termes: Non-Hiérarchie

Les relations non hiérarchiques identifient


également les termes liés conceptuellement.

Il existe de nombreux exemples, notamment:


Chose-une partie telle que “bus” et “siège”;
Chose- attribut telle que “rose” et “parfum”.
THESAURUS: Caractéristiques

Une fonction de la précision associée aux


termes composant.

Un vocabulaire très spécifique permet


d’exprimer le sujet de manière très approfondie
et détaillée. Cela favorise la précision de la
recherche.
THESAURUS: Caractéristiques

3. Spécificité du vocabulaire

 L'inconvénient est que la taille du vocabulaire


augmente.
 Les termes spécifiques ont tendance à changer plus
rapidement que les termes généraux.
 De tels vocabulaires ont tendance à nécessiter un
entretien plus régulier.
 Une spécificité élevée implique un haut niveau de
coordination et l'utilisateur doit se préoccuper
davantage des règles de construction de phrases.
THESAURUS: Caractéristiques

3. Spécificité du vocabulaire: Contraintes


1. Les chercheurs ont déclaré que pour maintenir une
bonne correspondance entre les documents et les
requêtes, il était nécessaire de veiller à ce que les termes
inclus dans la même classe de thésaurus aient des
fréquences à peu près égales.
2. La fréquence totale dans chaque classe devrait également
être à peu près similaire.
3. Ces contraintes sont imposées pour garantir que la
probabilité de correspondance entre une requête et un
document est la même pour toutes les classes..
4. Les termes appartenant à la même classe doivent être
tout aussi spécifiques et la spécificité classée doit
également être la même.
THESAURUS: Caractéristiques

4. Normalisation du vocabulaire

 Il existe d’autres règles concernant des questions telles


que la singularité des termes , l’ordre des termes dans
les expressions , l’orthographe, la capitalisation, la
translittération , les abréviations , initiales, acronymes
et ponctuation .
 L'avantage est que les formes variantes sont mappées
dans des expressions de base, ce qui apporte de la
cohérence au vocabulaire.
 L'inconvénient est que, pour être utilisé efficacement,
l'utilisateur doit bien connaître les règles de
normalisation utilisées.
Construction manuelle d’un thésaurus

 Définir les limites du sujet


- Identifier les domaines centraux et périphériques
- Partitionner le domaine en divisions ou sous-zones
 Identifier les caractéristiques souhaitées
 Recueillir des termes pour chaque sous-sujet
Sources d'index, d'encyclopédie, de manuels, de
manuels, de revues, de résumés, de catalogues, de
thésaurus existants ou de systèmes de vocabulaire
 Incluant: expert en la matière et utilisateur potentiel
 Analyser chaque terme pour son vocabulaire associé
incluant les synonymes, les termes plus larges et plus
étroits.

 Organiser le terme et la relation dans une structure


hiérarchique

 Réviser ou affiner la cohérence

Produire un arrangement alphabétique des entrées

Testez le thésaurus
Types de termes
On distingue différents types de termes :

 Terme générique (TG) : qui représente un concept


large pour lequel plusieurs termes sont attachés.
 Terme spécifique (TS) : un terme dont le concept est
plus limité, subordonné à un ou plusieurs termes
génériques.
 Terme associé (TA): que l’on associe mentalement à
d’autres, sans qu’il ne fasse partie d’une même
hiérarchie.
Les termes peuvent en effet avoir plusieurs types
de relations :

•Relations hiérarchiques (terme générique ou


terme spécifique) ;
•Relations de synonymie (terme synonyme ou
variante orthographique) ;
•Relations associatives (terme associé) ;
•Relations linguistiques (terme traduit dans
d’autres langues).
Exemple en ligne

 https://bdsp-ehesp.inist.fr/
Conclusion
 Un thésaurus est une classification sur laquelle on
ajoute des relations d’association et des relations
hiérarchiques. Il vise à classer les termes de manière
thématique et facilite ainsi les associations d’idées.
 Utiliser un thésaurus permet de normaliser
l’indexation et d’éviter les erreurs d’écriture. Cela
permet de classer des ressources et médias en les
identifiant, les décrivant et les répertoriant.
 Ce travail d’indexation est indispensable pour
retrouver les contenus recherchés plus facilement et
plus rapidement avec un large champ de recherche.
Conclusion
 Impliquer un groupe d'individus et une variété de
ressources
 Besoin d'être maintenu pour assurer la viabilité et
l'efficacité
 Refléter tout changement dans la terminologie de la
région

Vous aimerez peut-être aussi