TAL1 HelaMahersia

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 26

Université de Carthage

Faculté des Sciences de Bizerte


Département Informatique
Mastère de Recherche

Traitement Automatique
des Langues (TAL)

Dr. Ing. Hela mahersia


Email: [email protected]
Partie 1

Introduction

2
Plan

Motivation Applications Défis

3
Motivation
TAL ?

Chapitre 1

4
TAL : Objectif

L'objectif du TAL est la conception de logiciels capables


de traiter de façon automatique des données exprimées
dans une langue «naturelle»

5
L’intelligence artificielle

6
Motivation
Le traitement automatique des langues (TAL) étudie la
composante langagière de l’intelligence artificielle
 Une caractéristique la plus distinctive de l’intelligence
humaine : sa capacité à comprendre/utiliser des langues
complexes
C’est une composante primordiale
dans le test de Turing

7
Test de Turing
Turing (1950) "Computing machinery and intelligence"
 Les machines sont-elles capables de penser?
 Les machines peuvent-elles avoir un comportement intellectuel ?

Le test: si la conversation avec la machine ne peut pas être


différenciée de la conversation humaine on peut dire que
la machine possède de l’intelligence

Durée du Test: 5min de conversation


But: Deviner qui est la personne et qui
est la machine
8
Exemple : Question-réponse
avec Watson

9
Exemple : Question-réponse
avec Watson

10
Traitement Automatique des
Langues
Compréhension :
 Encodage, stockage de documents
 Classification de documents
 Extraction d'information
 Recherche d'information

Génération :
 Restitution
 Visualisation
 Résumé
 Synthèse

11
Applications
du TAL

Chapitre 1

12
Reconnaissance de caractères
(OCR)
Principe général :
 Numérisation de documents écrits (scanner) en images
 Application de techniques de reconnaissance de formes
(lettres) à l'aide d'apprentissage (réseaux de neurones,
HMM)
 Exploitation d'un modèle de langage (dont des ressources :
dictionnaires, grammaires, etc.) pour déterminer
l'hypothèse la plus probable
Applications pratiques : dématérialisation de
documents (bibliothèques), formulaires (chèques,
administration), adresses pour le tri postal,
identification d'immatriculation
13
Correction orthographique /
grammaticale
Principe général :
 Identifier les mots (tokenization)
 Correction orthographique : mots qui n'appartiennent pas
au dictionnaire et qui ne sont pas en langue étrangère, ni
des noms propres, ni des chiffres, ni des sigles...
 Correction grammaticale : déterminer la fonction des mots
au sein de la phrase (déterminant, nom, verbe, adverbe,
etc.) puis réaliser une analyse syntaxique à l'aide de
grammaires
Applications pratiques : correion de document rédiger
par des aitudian (exemple de fautes !)
14
Traduction automatique
Principe général :
 Sélection des langues source et cible
 Deux stratégies (actuellement) :
• Utilisation d'un modèle de langage pour la source et pour la cible,
éventuellement d'un modèle « pivot »
• Recherche des traductions possibles et probables

Applications pratiques : traduction de documents,


dictionnaires bilingues, recherche d'informations
multilingue
15
Extraction et recherche
d'informations
Principe général :
 Enregistrerdes documents (ou leurs adresses) et déterminer
un ensemble de caractéristiques selon leur analyse
 Construire des indices accessibles et régulièrement mis à
jour
 Répondre à la demande aux requêtes par sélection des
documents les plus pertinents

Applications pratiques : recherche en ligne, veille,


surveillance, résumé automatique, classification de
documents
16
Reconnaissance de la parole
Principe général :
 Traitement acoustique du flux audio
 Analyse du signal (transformée de Fourier)
 Reconnaissance par modèles (appris : HMM ou réseaux de
neurones), avec implémentation de modèle de langage qui
donne la séquence la plus probable

Applications pratiques : dictaphones (smartphones),


serveurs vocaux (hotline), transcriptions automatiques
(sous-titres, notamment pour les malentendants)

17
Synthèse vocale
Principe général :
 Sélection de la langue cible
 Transcription phonétique du texte
 Modélisation de l'intonation et de la prosodie
 Production du signal audio

Applications pratiques : transports, serveurs vocaux


(hotlines), systèmes de navigation GPS, vocalisation
(notamment pour malvoyants), personnages de jeux

18
Défis
du TAL

Chapitre 1

19
Difficultés à surmonter
Interpréter une phrase/un document correctement est
une tâche très complexe à automatiser
Pour un être humain, c’est une tâche qui ne requiert
aucun effort
Mais même pour nous, certains cas peuvent être une
casse-tête
Quelques sources de difficultés à surmonter:
 Ambiguïté
 Métaphores
 Variations dans le temps
20
Ambiguïté
Les langues naturelles étant ambiguës, pour une
même phrase plusieurs analyses sont possibles
→ plusieurs interprétations syntaxiques

Exemple :

21
Métaphores
Certains mots sont utilisés d’une façon métaphorique
Exemple:

→ Cette utilisation de mots rend une approche à base de


règles prédéfinies très difficile
22
Variantions dans le temps
L’utilisation des mots peut varier dans le temps

Exemple : sort of
 Utilisation originale: what sort of animal did you see
 Utilisation plus moderne: he sort of understood what was
going on

Apparition de nouveaux mots: internet, wifi…

23
Pour résoudre ces problèmes…
NLP : tâche difficile, Quels pré-requis?
 Connaissance du langage
 Connaissance du mot

Comment on reconnait ?
 Modèles probabiliste construits à partir des données du
langage
• P(« house » → « maison ») élevée
• P(« avocat général » → « the general avocado ») faible

24
L’avenir…

25
? MERCI POUR VOTRE
ATTENTION

DES QUESTIONS ?
26

Vous aimerez peut-être aussi