Calcul du sens des mots arabes ambigus
Anis Zouaghi1, Mounir Zrigui1, Mohamed Ben Ahmed2
1
Unité de Monastir – Labo RIADI
[email protected] ;
[email protected]
2
Université de la Mannouba – Labo RIADI
[email protected]
Résumé
Nous présentons dans cet article un analyseur sémantique pour la langue arabe. Cet analyseur contribue à la
sélection du sens adéquat parmi l’ensemble des sens possibles que peut recevoir un mot hors contexte. Pour
atteindre cet objectif, nous proposons un modèle vectoriel qui permet de lever les ambiguïtés locales au niveau
de la phrase et celles relevant du domaine. Ce modèle est inspiré des modèles vectoriels très utilisés dans le
domaine de la recherche documentaire.
Mots-clef : désambiguïsation sémantique, modèle vectoriel, traitement de la parole arabe, influence sémantique.
Abstract
This article describes a semantic analyzer for the Arabic language. This analyzer contributes to the selection of
the adequate meaning among the set of possible meanings for a given word. To achieve this goal, we propose a
vectorial model that allows lifting local ambiguities on the level of the sentence and those concerning semantic
domains. This model is inspired from vector models commonly used in information retrieval.
Keywords: semantic disambiguation, vector models, processing of Arabic speech, pertinent context, semantic
influence.
1. Introduction
Notre travail s’intègre dans le cadre du projet Oréodule : un système de reconnaissance, de
traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un
analyseur sémantique des mots arabes ambigus. Contrairement à la plupart des analyseurs
utilisés dans les systèmes de compréhension de la parole, basés sur les modèles HMM
(Minker, 1999 ; Bousquet, 2002), notre analyseur est basé sur un modèle vectoriel. Ce modèle
permet de représenter chaque sens possible par un vecteur sémantique, composé des mots
ayant une affinité sémantique avec le mot ambigu. Ce modèle est inspiré des modèles
vectoriels utilisés dans le domaine de la recherche documentaire. Bien que la
désambiguïsation sémantique possède un enjeu important dans les applications TALN (Ide et
al., 1998), les ressources nécessaires pour résoudre ce problème restent presque indisponibles
pour la langue arabe. Ceci nous a amené à créer notre propre corpus d’entraînement, et de
l’étiqueter sémantiquement en attribuant à chaque mot ambigu l’ensemble de traits
sémantiques Tse approprié, où chaque Tse est constitué de 3 traits et représenté comme suit
Tse = (domaine, classe sémantique, trait micro sémantique).
2. Méthode de calcul du sens
RECITAL 2006, Leuven, 10-13 avril 2006
774
ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED
L’interprétation d’un mot ambigu est obtenue suite à la coopération de 2 étapes d’analyse. La
1re étape correspond à la levée des ambiguïtés relevant du domaine. Elle permet de déterminer
les ensembles Tse représentant une probabilité faible pour décrire le sens du mot ambigu dans
le texte où il est apparu, alors que la 2e étape correspond à une analyse plus fine. Cette
analyse est basée sur l’étude des affinités sémantiques entre le mot ambigu et les mots qui
l’entourent dans l’énoncé.
3. Étape de levée des ambiguïtés relevant du domaine
Au cours de cette étape d’analyse, nous considérons l’influence du domaine sur la
caractérisation du sens d’un mot. Ainsi, notre modèle considère une fenêtre d’analyse de taille
assez grande (égale à la longueur du texte). À partir de l’inventaire des sens possibles du mot
ambigu, est calculée la probabilité d’interprétation du mot MA avec chaque Tsei possible.
Cette probabilité est calculée comme suit :
PARD(Tsei / MA) = P(Dk) × P(Tsei / MA, Dk)
(1)
L’équation (1) tient compte de l’influence du domaine dans le calcul du sens de MA. Ceci par
la considération des 2 probabilités P(Dk) et P(Tsei / MA, Dk). P (Dk) calcule la probabilité que
le texte auquel appartient MA appartient au domaine Dk ; P(Tsei / MA, Dk) est la probabilité
que le sens Tsei soit affecté au mot MA sachant que le texte appartient au domaine Dk.
3.1. Calcul du domaine décrit par un texte
L’identification du domaine auquel appartient le mot ambigu est obtenue à partir de la
probabilité P(Dk), en se basant sur un modèle vectoriel. Ce modèle permet de caractériser
chaque domaine par un ensemble de mots-clés. À chaque mot-clé est attribué un poids pij en
utilisant la méthode Tf-Idf (Term frequency – Inverse document frequency). Ainsi le poids pij
d’un mot mi dans un texte décrivant un domaine Dj est obtenu à partir de l’équation suivante :
pij = [tf (mi, Dj)×log (n / df (mi))] / [tf (mi, Dj)+0.5+(1.5×n×l(Dj) / ∑ Dk l ( Dk ) ) × log(n+1)] (2)
où n et l(Dk) désignent respectivement le nombre des domaines considérés et la longueur de
l’ensemble des textes représentant le domaine Dk ; le terme tf (mi, Dj) désigne le nombre
d’occurrences de mi dans Dj ; df (mi) correspond au nombre de domaines où apparaît mi.
À partir de ces poids, est associé à chaque domaine Dj considéré un vecteur caractéristique
présenté comme suit : Dj=(p1j, p2j, p3j,.., pij,…, pnj); avec 1≤n≤l, où l est le nombre total de
tous les mots considérés pertinents pour l’identification de chacun des domaines considérés.
Nous définissons la probabilité notée P (DjT) qu’un texte T décrit un domaine Dj dont le
vecteur caractéristique est Dj = (p1j, p2j, p3j,.., pij,…, pnj), comme la somme des probabilités pij
des mots pertinents rencontrés dans le texte T :
P (Dj) = P (DjT) =
∑
mi∈T
pij
(3)
3.2. Calcul du sens en considérant l’influence du domaine
Comme signalé ci-dessus, notre modèle calcule le sens d’un mot ambigu MA en tenant
compte de l’influence sémantique du domaine sur celui-ci. Ceci est réalisé en utilisant la
probabilité conjointe P (Tsei / MA, Dk) dont la formule est donnée par l’équation (4) suivante
:
P (Tsei / MA, Dk) = N (Tsei(MA), Dk) / N (MA, Dk)
RECITAL 2006, Leuven, 10-13 avril 2006
(4)
CALCUL DU SENS DES MOTS ARABES AMBIGUS
775
où Tsei(MA) est l’instanciation du sens de MA par l’ensemble Tsei, et le terme N (Tsei(MA),
Dk) désigne le nombre d’interprétation de MA par Tsei dans le domaine Dk. N(MA, Dk) est en
faite tf (MA, Dk) qui désigne le nombre d’occurrences de MA dans Dk.
4. Étape de levée des ambiguïtés locales
Cette étape permet de calculer le sens adéquat du mot ambigu en se basant sur une analyse
sémantique locale. Pour cela, nous considérons une fenêtre d’analyse plus réduite que celle
considérée dans la première étape lors de la levée des ambiguïtés relevant du domaine. La
taille de cette fenêtre est égale à la longueur du contexte droit du mot cible dans la phrase où
il est apparu. Pour lever les ambiguïtés locales, nous représentons chaque sens possible d’un
mot ambigu MA par un vecteur sémantique noté <MA, Tsej>. Ce vecteur permet de
caractériser chaque sens possible Tsej de MA par les mots qui ont une influence sémantique
sur MA. À chacun de ces mots est attribué un poids qij déterminé à partir de la formule (5)
suivante :
qij = N (mi, Tsej(MA) / N (mi)
(5)
où le terme N (mi, Tsej(MA)) désigne le nombre de cooccurrence du mot mi avec MA dans
une même phrase, sachant que ce dernier est instancié par le sens Tsej, et N(mi) désigne le
nombre total d’occurrence de mi avec MA dans un même contexte (phrase). Ce poids qij peut
être aussi obtenu en utilisant une des méthodes de mesure de la similarité sémantique entre
deux mots, telle que l’information mutuelle moyenne (Rosenfeld, 1994). À partir de ces poids
qij est associé à chaque sens possible de MA un vecteur sémantique caractéristique présenté
comme suit : <MA, Tsej> = (q1j, q2j, .., qkj, …, qnj). Les mots considérés comme ayant une
influence sémantique sur MA sont les mots dont le poids qij est supérieur à un seuil donné.
Pour identifier le sens Tsej adéquat à attribuer au mot MA dans une phrase P, nous utilisons le
modèle PAL décrit comme suit :
PAL(Tsej/MA) = ∑mi∈Cd qij
(6)
Ce modèle définit la probabilité d’affecter le sens Tsej au mot MA, et dont le vecteur
sémantique est <MA, Tsej> = (q1j, q2j, .., qkj, …, qnj), comme la somme des probabilités qij des
mots mi influant sur le sens de MA, rencontrés dans le contexte droit Cd du mot MA.
5. Analyseur sémantique des mots ambigus
Notre modèle calcule le sens d’un mot en tenant compte des ambiguïtés locales et des
ambiguïtés relevant du domaine. Nous avons ainsi combiné les 2 modèles PARD et PAL, à partir
de l’équation suivante :
P(Tsei/MA) = λ×PARD(Tsei/MA) + ρ×PAL(Tsei/MA)
(7)
avec λ et ρ deux coefficients à déterminer empiriquement à travers des tests et des
comparaisons de pertinence.
6. Application du modèle
Pour l’évaluation de notre modèle, nous avons utilisé 100 énoncés (859 mots) décrivant des
demandes de renseignements ferroviaires en langue arabe. Nous avons testé chacun des
modèles définis séparément, afin de pouvoir juger de leur efficacité et étudier leurs limites.
En ce qui concerne le modèle PAL, nous l’avons appliqué pour déterminer le rôle sémantique
accompli par une ville (ville de départ, ou d’arrivée, ou de stop ou de correspondance). Pour
RECITAL 2006, Leuven, 10-13 avril 2006
ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED
776
évaluer le modèle PARD, nous l’avons appliqué pour la détermination du type et de l’acte
illocutoire accompli par un énoncé.
6.1. Évaluation du modèle de calcul du domaine
Comme mentionné dans le paragraphe 3.1, chaque domaine est caractérisé par un ensemble
de mots-clés. Dans notre cas il s’agit d’attribuer à chaque type d’énoncé, un vecteur
caractéristique Dj. Pour cela, nous avons utilisé 5 vecteurs pour la représentation des 5 types
d’énoncés considérés (voir tableau 1). Pour réduire la dimension de ces vecteurs, les motsclés dérivés d’une même racine sont regroupés en une seule entrée. Par exemple, les motsclés اﺣﺠﺰ, اﻟﺤﺠﺰ, ﺣﺠﺰidentifiant les énoncés de type réservation sont transformés en ﺣﺠﺰ
(réserver). Les ensembles de termes { ﺗﻮﻗﻴﺖ, اﻷوﻗﺎت أوﻗﺎت,}ﺑﺄوﻗﺎت, { أﺳﻌﺎر,}ﺳﻌﺮ, { اﻟﻌﺒﻮر,}یﻌﺒﺮ,
{ ,ﻣﺪة
}اﻟﻤﺪة, et { ﺙﻤﻦ, }اﻟﺜﻤﻦsont regroupés en وﻗﺖ, ﻋﺒﺮ, ﻣﺪet ﺙﻤﻦ.
Type de l’énoncé
Mots-clés
Vecteurs caractéristiques (les valeurs
sont obtenues en utilisant l’équat. 2)
اﻷیﺎم, أي, ﺳﺎﻋﺔ, ﻣﺘﻰ, ﺗﻮﻗﻴﺖ, أوﻗﺎت, اﻷوﻗﺎت,( ﺑﺄوﻗﺎت0.274; 0; 0; 0; 0; 0; 0; 0; 0.351; 0.142;
0.351; 1.111; 0)
Demande Tarif
ﺗﻌﺮیﻔﺔ, ﺙﻤﻦ, اﻟﺜﻤﻦ, أﺳﻌﺎر, ﺳﻌﺮ,ﺑﻜﻢ
(0; 0; 0; 0,669; 0; 0; 0; 1.226; 0; 0; 0;
0; 0.577)
Demande de durée
یﻤﻜﺚ, یﻤﻀﻲ, اﻟﻤﺪة,ﻣﺪة
(0; 0; 0,27; 0; 0; 0,832; 0,832; 0; 0; 0;
0; 0; 0)
Demande de trajet
اﻟﻌﺒﻮر,یﻌﺒﺮ
(0; 0,661; 0,075; 0; 0; 0; 0; 0; 0; 0.075;
0; 0; 0)
Demande de réservation
اﺣﺠﺰ, اﻟﺤﺠﺰ,ﺣﺠﺰ
(0.1; 0; 0; 0; 1.243; 0; 0; 0; 0; 0; 0; 0;
0)
Demande d’horaire
Tableau 1. Vecteurs caractéristiques Dj associés à chaque type d’énoncé
Ainsi chaque vecteur caractéristique est de la forme Dj = (وﻗﺖ, ﻋﺒﺮ, ﻣﺪ, ﺙﻤﻦ, ﺣﺠﺰ, یﻤﻜﺚ, یﻤﻀﻲ, ﺑﻜﻢ,
اﻷیﺎم, أي, ﺳﺎﻋﺔ,ﻣﺘﻰ, )ﺗﻌﺮیﻔﺔ. En appliquant par exemple ce modèle au calcul du type de l’énoncé (E)
suivant : ﺗﺬاآﺮ ﻣﻦ اﻟﺼﻨﻒ اﻷول ﻓﻲ اﻟﻘﻄﺎر ﻟﺴﻔﺮة ﺑﻴﻦ ﺳﻮﺳﺔ و ﺑﻨﺰرت4 أریﺪ ﺣﺠﺰJe veux réserver 4 billets de classe
première dans le train pour un voyage entre Sousse et Bizerte). On trouve que cet énoncé est
de type demande de réservation (P (DRéservationE) = 1,243). Ce modèle est efficace face aux
énoncés ne contenant pas des autocorrections. Pour améliorer les performances du modèle
face aux autocorrections, nous avons introduit dans les vecteurs Dj des classes de mots Ctij.
Une classe Ctij est appelée modificateur du poids du mot i dans les énoncés de type Dj, en
utilisant un contexte de taille t. On a remplacé par exemple dans Dréservation « ﺣﺠﺰréserver » par
(C34,réservation + )ﺣﺠﺰ, où C34,réservation={ « ﺑﻞplutôt »}. Ainsi, si on rencontre dans le contexte
gauche (de taille 3) du terme ﺣﺠﺰla classe C34, réservation, le poids p4,réservation associé à ﺣﺠﺰdans
le vecteur Dréservation sera modifié en utilisant la formule suivante : pij = pij - m (Ctij). Où m
(Ctij) est la masse associée à la classe Ctij. Pour la classe C34,réservation, la masse m(C34, réservation)
= - p4,réservation. En utilisant ce modèle vectoriel modifié le taux d’erreur est passé de 90 % à
5 %. Soit par exemple l’énoncé (E1) suivant :
Je veux réserver non plutôt connaître l’horaire d’allée Å أریﺪ ﺣﺠﺰ ﻻ ﺑﻞ ﻣﻌﺮﻓﺔ وﻗﺖ اﻟﺬهﺎب
Comme le montre la figure 1, le modèle vectoriel modifié est plus efficace. L’énoncé (E1) est
identifié de type demande d’horaire grâce à la présence du terme « ﺑﻞplutôt », qui active la
classe C34, réservation qui modifie le poids p4, réservation correspondant à ﺣﺠﺰde Dréservation. La taille
« 3 » du contexte à considérer pour l’activation de C34, réservation est déterminée empiriquement.
RECITAL 2006, Leuven, 10-13 avril 2006
CALCUL DU SENS DES MOTS ARABES AMBIGUS
Identification incorrecte
P(DE1j)
777
DR : demande de réservation
DH : demande d’horaire
Réponse correcte
DR
0,274
0,1
DH
DH
DR
Modèle classique (sans utilisation de
classes modificatrices)
Modèle vectoriel utilisé
Modèle modifié
Figure 1. Résultats obtenus via des modèles vectoriels classique et modifié
6.2. Évaluation du modèle de levée des ambiguïtés locales
Nous avons évalué le modèle PAL en l’appliquant pour l’interprétation d’une ville. Afin de
simplifier le modèle, nous avons regroupé toutes les villes dans une même classe VILLE.
Nous avons utilisé 4 vecteurs <VILLE,départ>, <VILLE,arrivée>, <VILLE,stop> et
<VILLE,correspondance>, pour représenter les sens possibles de chaque ville. Le tableau 2
représente le vecteur caractéristique correspondant à chaque sens. Chaque vecteur est
représenté comme suit : ( « إﻟﻰà », « ﻥﺤﻮvers », « اﺗﺠﺎﻩdirection », « ﻥﺰلdescendre », وﻗﻒ
« arrêter », « ﻋﺒﺮpasser », « یﻤﺮtraverse », « ﻣﻦde », « یﻨﻄﻠﻖpart », « ذهﺐaller », « ﺑﻴﻦentre »).
Les mots dérivés d’une même racine sont regroupés, tels que « ﻋﺒﺮ{ = ﻋﺒﺮà travers », ﻋﺒﺮ
« passe »}, یﻘﻒ{ = وﻗﻒ, }یﺘﻮﻗﻒ, اﻟﻨﺰول{ = ﻥﺰل, }اﻥﺰلet یﺬهﺐ{ = ذهﺐ, }اﻟﺬاهﺐ.
Rôles sémantiques
Vecteurs sémantiques caractéristiques
Ville de départ
Ville d’arrivée
Ville de stop
Ville de correspondance
(0; 0; 0; 0; 0; 0; 0; 0.8; 0.33; 0; 1)
(1; 1; 1; 1; 0; 0; 0; 0; 0.66; 1; 0)
(0; 0; 0; 0; 1; 0; 0; 0; 0; 0; 0)
(0; 0; 0; 0; 0; 1; 1; 0.2; 0; 0; 0)
Tableau 2. Vecteurs caractéristiques correspondant aux interprétations d’une ville.
Ci-dessous un exemple d’interprétation de deux villes occurrent dans un même énoncé en
utilisant le modèle PAL : هﻞ یﻤﻜﻨﻚ إﻋﻼﻣﻲ ﺑﻜﻢ ﺳﻌﺮ اﻟﺘﺬآﺮة ﻟﻠﺬهﺎب ﻣﻦ اﻟﻘﻠﻌﺔ إﻟﻰ ﺗﻮﻥﺲÆ Est-ce que tu
peux m’informer, combien le prix du billet pour aller de Kalaâ à Tunis.
L’interprétation de « اﻟﻘﻠﻌﺔKalaâ » comme ville de départ est réalisée grâce à la présence du
terme « ﻣﻦde » (dont le poids est égal à 0.8) dans le contexte droit de celui-ci. Alors que la
ville « ﺗﻮﻥﺲTunis » est interprétée comme étant une ville d’arrivée, grâce à la présence de إﻟﻰ
« à » dans le contexte se trouvant entre les deux villes (poids correspondant est égal à 1).
L’avantage de notre modèle est que les contraintes influant sur le sens d’un mot sont
déterminées automatiquement, sans avoir besoin d’une grammaire à base de règles comme
dans (Bennacef, 1994). Les mauvaises interprétations sont dues à la non-présence dans
l’énoncé des termes appartenant aux vecteurs caractéristiques des sens possibles d’une ville.
6.3. Évaluation du modèle de calcul du domaine
La figure 2 présente les résultats d’interprétation (Zouaghi et al., 2005), obtenus par
l’application de notre modèle et des modèles n-classes classiques (pour n=2 et n=3). Les
modèles n-classes permettent d’attribuer un sens Tsei à un mot en fonction d’un historique h,
en utilisant la formule suivante : P (Tsei / h) = P (MA / Tsei) × P(Tsei / h ).
RECITAL 2006, Leuven, 10-13 avril 2006
ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED
778
Taux d’erreur
Notre modèle
29%
Modèle bi-classes
57%
Modèle tri-classes
45%
Modèle utilisé
Figure 2. Résultats obtenus
On remarque que le meilleur score d’interprétation (71 %) est obtenu en utilisant notre
modèle vectoriel.
7. Conclusion
Nous avons présenté un modèle pour le calcul du sens des mots arabe ambigus dans le
domaine de la compréhension de la parole. Ce modèle est inspiré des modèles vectoriels
utilisés dans le domaine de la recherche documentaire. Il contribue à la sélection du sens
adéquat, à la suite de la coopération de deux étapes d’analyse. Une analyse permettant de
lever les ambiguïtés relevant du domaine, et une autre pour lever les ambiguïtés locales au
niveau de la phrase. Afin d’être robuste face aux autocorrections, nous avons introduit des
classes à l’intérieur des vecteurs, afin de corriger les poids du vecteur en cas d’autocorrection.
Les tests effectués prouvent la bonne performance de notre modèle.
Références
BENNACEF S., BONNEAU-MAYNARD H., GAUVAIN J-L., LAMEL L., MINKER W. (1994). « A spoken
language for information retrieval ». In Proceedings of ICSLP : 1271-1274.
BOUSQUET-VERNHETTES C. (2002). Compréhension robuste de la parole spontanée dans le dialogue
oral homme-machine – Décodage conceptuel stochastique. Thèse de doctorat, Université de
Toulouse III.
IDE N., VÉRONIS J. (1998). « Introduction to the Special Issue on WSD : The State of the Art ». In
Computational Linguistics 24 (1) : 1-40.
MINKER W. (1999). Compréhension automatique de la parole spontanée. L’Harmattan, Paris.
ZOUAGHI A., ZRIGUI M., BEN AHMED M. (2005). « Un étiqueteur sémantique des énoncés en langue
arabe ». In Actes de RECITAL 2005 : 727-732.
RECITAL 2006, Leuven, 10-13 avril 2006