Academia.eduAcademia.edu

Calcul du sens des mots arabes ambigus

2006, … ex machina: actes de la 13e …

Nous présentons dans cet article un analyseur sémantique pour la langue arabe. Cet analyseur contribue à la sélection du sens adéquat parmi l'ensemble des sens possibles que peut recevoir un mot hors contexte. Pour atteindre cet objectif, nous proposons un modèle vectoriel qui permet de lever les ambiguïtés locales au niveau de la phrase et celles relevant du domaine. Ce modèle est inspiré des modèles vectoriels très utilisés dans le domaine de la recherche documentaire. Mots-clef : désambiguïsation sémantique, modèle vectoriel, traitement de la parole arabe, influence sémantique.

Calcul du sens des mots arabes ambigus Anis Zouaghi1, Mounir Zrigui1, Mohamed Ben Ahmed2 1 Unité de Monastir – Labo RIADI [email protected] ; [email protected] 2 Université de la Mannouba – Labo RIADI [email protected] Résumé Nous présentons dans cet article un analyseur sémantique pour la langue arabe. Cet analyseur contribue à la sélection du sens adéquat parmi l’ensemble des sens possibles que peut recevoir un mot hors contexte. Pour atteindre cet objectif, nous proposons un modèle vectoriel qui permet de lever les ambiguïtés locales au niveau de la phrase et celles relevant du domaine. Ce modèle est inspiré des modèles vectoriels très utilisés dans le domaine de la recherche documentaire. Mots-clef : désambiguïsation sémantique, modèle vectoriel, traitement de la parole arabe, influence sémantique. Abstract This article describes a semantic analyzer for the Arabic language. This analyzer contributes to the selection of the adequate meaning among the set of possible meanings for a given word. To achieve this goal, we propose a vectorial model that allows lifting local ambiguities on the level of the sentence and those concerning semantic domains. This model is inspired from vector models commonly used in information retrieval. Keywords: semantic disambiguation, vector models, processing of Arabic speech, pertinent context, semantic influence. 1. Introduction Notre travail s’intègre dans le cadre du projet Oréodule : un système de reconnaissance, de traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un analyseur sémantique des mots arabes ambigus. Contrairement à la plupart des analyseurs utilisés dans les systèmes de compréhension de la parole, basés sur les modèles HMM (Minker, 1999 ; Bousquet, 2002), notre analyseur est basé sur un modèle vectoriel. Ce modèle permet de représenter chaque sens possible par un vecteur sémantique, composé des mots ayant une affinité sémantique avec le mot ambigu. Ce modèle est inspiré des modèles vectoriels utilisés dans le domaine de la recherche documentaire. Bien que la désambiguïsation sémantique possède un enjeu important dans les applications TALN (Ide et al., 1998), les ressources nécessaires pour résoudre ce problème restent presque indisponibles pour la langue arabe. Ceci nous a amené à créer notre propre corpus d’entraînement, et de l’étiqueter sémantiquement en attribuant à chaque mot ambigu l’ensemble de traits sémantiques Tse approprié, où chaque Tse est constitué de 3 traits et représenté comme suit Tse = (domaine, classe sémantique, trait micro sémantique). 2. Méthode de calcul du sens RECITAL 2006, Leuven, 10-13 avril 2006 774 ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED L’interprétation d’un mot ambigu est obtenue suite à la coopération de 2 étapes d’analyse. La 1re étape correspond à la levée des ambiguïtés relevant du domaine. Elle permet de déterminer les ensembles Tse représentant une probabilité faible pour décrire le sens du mot ambigu dans le texte où il est apparu, alors que la 2e étape correspond à une analyse plus fine. Cette analyse est basée sur l’étude des affinités sémantiques entre le mot ambigu et les mots qui l’entourent dans l’énoncé. 3. Étape de levée des ambiguïtés relevant du domaine Au cours de cette étape d’analyse, nous considérons l’influence du domaine sur la caractérisation du sens d’un mot. Ainsi, notre modèle considère une fenêtre d’analyse de taille assez grande (égale à la longueur du texte). À partir de l’inventaire des sens possibles du mot ambigu, est calculée la probabilité d’interprétation du mot MA avec chaque Tsei possible. Cette probabilité est calculée comme suit : PARD(Tsei / MA) = P(Dk) × P(Tsei / MA, Dk) (1) L’équation (1) tient compte de l’influence du domaine dans le calcul du sens de MA. Ceci par la considération des 2 probabilités P(Dk) et P(Tsei / MA, Dk). P (Dk) calcule la probabilité que le texte auquel appartient MA appartient au domaine Dk ; P(Tsei / MA, Dk) est la probabilité que le sens Tsei soit affecté au mot MA sachant que le texte appartient au domaine Dk. 3.1. Calcul du domaine décrit par un texte L’identification du domaine auquel appartient le mot ambigu est obtenue à partir de la probabilité P(Dk), en se basant sur un modèle vectoriel. Ce modèle permet de caractériser chaque domaine par un ensemble de mots-clés. À chaque mot-clé est attribué un poids pij en utilisant la méthode Tf-Idf (Term frequency – Inverse document frequency). Ainsi le poids pij d’un mot mi dans un texte décrivant un domaine Dj est obtenu à partir de l’équation suivante : pij = [tf (mi, Dj)×log (n / df (mi))] / [tf (mi, Dj)+0.5+(1.5×n×l(Dj) / ∑ Dk l ( Dk ) ) × log(n+1)] (2) où n et l(Dk) désignent respectivement le nombre des domaines considérés et la longueur de l’ensemble des textes représentant le domaine Dk ; le terme tf (mi, Dj) désigne le nombre d’occurrences de mi dans Dj ; df (mi) correspond au nombre de domaines où apparaît mi. À partir de ces poids, est associé à chaque domaine Dj considéré un vecteur caractéristique présenté comme suit : Dj=(p1j, p2j, p3j,.., pij,…, pnj); avec 1≤n≤l, où l est le nombre total de tous les mots considérés pertinents pour l’identification de chacun des domaines considérés. Nous définissons la probabilité notée P (DjT) qu’un texte T décrit un domaine Dj dont le vecteur caractéristique est Dj = (p1j, p2j, p3j,.., pij,…, pnj), comme la somme des probabilités pij des mots pertinents rencontrés dans le texte T : P (Dj) = P (DjT) = ∑ mi∈T pij (3) 3.2. Calcul du sens en considérant l’influence du domaine Comme signalé ci-dessus, notre modèle calcule le sens d’un mot ambigu MA en tenant compte de l’influence sémantique du domaine sur celui-ci. Ceci est réalisé en utilisant la probabilité conjointe P (Tsei / MA, Dk) dont la formule est donnée par l’équation (4) suivante : P (Tsei / MA, Dk) = N (Tsei(MA), Dk) / N (MA, Dk) RECITAL 2006, Leuven, 10-13 avril 2006 (4) CALCUL DU SENS DES MOTS ARABES AMBIGUS 775 où Tsei(MA) est l’instanciation du sens de MA par l’ensemble Tsei, et le terme N (Tsei(MA), Dk) désigne le nombre d’interprétation de MA par Tsei dans le domaine Dk. N(MA, Dk) est en faite tf (MA, Dk) qui désigne le nombre d’occurrences de MA dans Dk. 4. Étape de levée des ambiguïtés locales Cette étape permet de calculer le sens adéquat du mot ambigu en se basant sur une analyse sémantique locale. Pour cela, nous considérons une fenêtre d’analyse plus réduite que celle considérée dans la première étape lors de la levée des ambiguïtés relevant du domaine. La taille de cette fenêtre est égale à la longueur du contexte droit du mot cible dans la phrase où il est apparu. Pour lever les ambiguïtés locales, nous représentons chaque sens possible d’un mot ambigu MA par un vecteur sémantique noté <MA, Tsej>. Ce vecteur permet de caractériser chaque sens possible Tsej de MA par les mots qui ont une influence sémantique sur MA. À chacun de ces mots est attribué un poids qij déterminé à partir de la formule (5) suivante : qij = N (mi, Tsej(MA) / N (mi) (5) où le terme N (mi, Tsej(MA)) désigne le nombre de cooccurrence du mot mi avec MA dans une même phrase, sachant que ce dernier est instancié par le sens Tsej, et N(mi) désigne le nombre total d’occurrence de mi avec MA dans un même contexte (phrase). Ce poids qij peut être aussi obtenu en utilisant une des méthodes de mesure de la similarité sémantique entre deux mots, telle que l’information mutuelle moyenne (Rosenfeld, 1994). À partir de ces poids qij est associé à chaque sens possible de MA un vecteur sémantique caractéristique présenté comme suit : <MA, Tsej> = (q1j, q2j, .., qkj, …, qnj). Les mots considérés comme ayant une influence sémantique sur MA sont les mots dont le poids qij est supérieur à un seuil donné. Pour identifier le sens Tsej adéquat à attribuer au mot MA dans une phrase P, nous utilisons le modèle PAL décrit comme suit : PAL(Tsej/MA) = ∑mi∈Cd qij (6) Ce modèle définit la probabilité d’affecter le sens Tsej au mot MA, et dont le vecteur sémantique est <MA, Tsej> = (q1j, q2j, .., qkj, …, qnj), comme la somme des probabilités qij des mots mi influant sur le sens de MA, rencontrés dans le contexte droit Cd du mot MA. 5. Analyseur sémantique des mots ambigus Notre modèle calcule le sens d’un mot en tenant compte des ambiguïtés locales et des ambiguïtés relevant du domaine. Nous avons ainsi combiné les 2 modèles PARD et PAL, à partir de l’équation suivante : P(Tsei/MA) = λ×PARD(Tsei/MA) + ρ×PAL(Tsei/MA) (7) avec λ et ρ deux coefficients à déterminer empiriquement à travers des tests et des comparaisons de pertinence. 6. Application du modèle Pour l’évaluation de notre modèle, nous avons utilisé 100 énoncés (859 mots) décrivant des demandes de renseignements ferroviaires en langue arabe. Nous avons testé chacun des modèles définis séparément, afin de pouvoir juger de leur efficacité et étudier leurs limites. En ce qui concerne le modèle PAL, nous l’avons appliqué pour déterminer le rôle sémantique accompli par une ville (ville de départ, ou d’arrivée, ou de stop ou de correspondance). Pour RECITAL 2006, Leuven, 10-13 avril 2006 ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED 776 évaluer le modèle PARD, nous l’avons appliqué pour la détermination du type et de l’acte illocutoire accompli par un énoncé. 6.1. Évaluation du modèle de calcul du domaine Comme mentionné dans le paragraphe 3.1, chaque domaine est caractérisé par un ensemble de mots-clés. Dans notre cas il s’agit d’attribuer à chaque type d’énoncé, un vecteur caractéristique Dj. Pour cela, nous avons utilisé 5 vecteurs pour la représentation des 5 types d’énoncés considérés (voir tableau 1). Pour réduire la dimension de ces vecteurs, les motsclés dérivés d’une même racine sont regroupés en une seule entrée. Par exemple, les motsclés ‫ اﺣﺠﺰ‬,‫ اﻟﺤﺠﺰ‬,‫ ﺣﺠﺰ‬identifiant les énoncés de type réservation sont transformés en ‫ﺣﺠﺰ‬ (réserver). Les ensembles de termes {‫ ﺗﻮﻗﻴﺖ‬,‫ اﻷوﻗﺎت أوﻗﺎت‬,‫}ﺑﺄوﻗﺎت‬, {‫ أﺳﻌﺎر‬,‫}ﺳﻌﺮ‬, {‫ اﻟﻌﺒﻮر‬,‫}یﻌﺒﺮ‬, { ,‫ﻣﺪة‬ ‫}اﻟﻤﺪة‬, et {‫ ﺙﻤﻦ‬,‫ }اﻟﺜﻤﻦ‬sont regroupés en ‫وﻗﺖ‬, ‫ﻋﺒﺮ‬, ‫ ﻣﺪ‬et ‫ﺙﻤﻦ‬. Type de l’énoncé Mots-clés Vecteurs caractéristiques (les valeurs sont obtenues en utilisant l’équat. 2) ‫ اﻷیﺎم‬,‫ أي‬,‫ ﺳﺎﻋﺔ‬,‫ ﻣﺘﻰ‬,‫ ﺗﻮﻗﻴﺖ‬,‫ أوﻗﺎت‬,‫ اﻷوﻗﺎت‬,‫( ﺑﺄوﻗﺎت‬0.274; 0; 0; 0; 0; 0; 0; 0; 0.351; 0.142; 0.351; 1.111; 0) Demande Tarif ‫ ﺗﻌﺮیﻔﺔ‬,‫ ﺙﻤﻦ‬,‫ اﻟﺜﻤﻦ‬,‫ أﺳﻌﺎر‬,‫ ﺳﻌﺮ‬,‫ﺑﻜﻢ‬ (0; 0; 0; 0,669; 0; 0; 0; 1.226; 0; 0; 0; 0; 0.577) Demande de durée ‫ یﻤﻜﺚ‬,‫ یﻤﻀﻲ‬,‫ اﻟﻤﺪة‬,‫ﻣﺪة‬ (0; 0; 0,27; 0; 0; 0,832; 0,832; 0; 0; 0; 0; 0; 0) Demande de trajet ‫ اﻟﻌﺒﻮر‬,‫یﻌﺒﺮ‬ (0; 0,661; 0,075; 0; 0; 0; 0; 0; 0; 0.075; 0; 0; 0) Demande de réservation ‫ اﺣﺠﺰ‬,‫ اﻟﺤﺠﺰ‬,‫ﺣﺠﺰ‬ (0.1; 0; 0; 0; 1.243; 0; 0; 0; 0; 0; 0; 0; 0) Demande d’horaire Tableau 1. Vecteurs caractéristiques Dj associés à chaque type d’énoncé Ainsi chaque vecteur caractéristique est de la forme Dj = (‫وﻗﺖ‬, ‫ﻋﺒﺮ‬, ‫ﻣﺪ‬, ‫ ﺙﻤﻦ‬, ‫ﺣﺠﺰ‬, ‫ یﻤﻜﺚ‬,‫ یﻤﻀﻲ‬,‫ ﺑﻜﻢ‬, ‫ اﻷیﺎم‬,‫ أي‬,‫ ﺳﺎﻋﺔ‬,‫ﻣﺘﻰ‬, ‫)ﺗﻌﺮیﻔﺔ‬. En appliquant par exemple ce modèle au calcul du type de l’énoncé (E) suivant : ‫ ﺗﺬاآﺮ ﻣﻦ اﻟﺼﻨﻒ اﻷول ﻓﻲ اﻟﻘﻄﺎر ﻟﺴﻔﺮة ﺑﻴﻦ ﺳﻮﺳﺔ و ﺑﻨﺰرت‬4 ‫ أریﺪ ﺣﺠﺰ‬Je veux réserver 4 billets de classe première dans le train pour un voyage entre Sousse et Bizerte). On trouve que cet énoncé est de type demande de réservation (P (DRéservationE) = 1,243). Ce modèle est efficace face aux énoncés ne contenant pas des autocorrections. Pour améliorer les performances du modèle face aux autocorrections, nous avons introduit dans les vecteurs Dj des classes de mots Ctij. Une classe Ctij est appelée modificateur du poids du mot i dans les énoncés de type Dj, en utilisant un contexte de taille t. On a remplacé par exemple dans Dréservation ‫ « ﺣﺠﺰ‬réserver » par (C34,réservation + ‫)ﺣﺠﺰ‬, où C34,réservation={‫ « ﺑﻞ‬plutôt »}. Ainsi, si on rencontre dans le contexte gauche (de taille 3) du terme ‫ ﺣﺠﺰ‬la classe C34, réservation, le poids p4,réservation associé à ‫ ﺣﺠﺰ‬dans le vecteur Dréservation sera modifié en utilisant la formule suivante : pij = pij - m (Ctij). Où m (Ctij) est la masse associée à la classe Ctij. Pour la classe C34,réservation, la masse m(C34, réservation) = - p4,réservation. En utilisant ce modèle vectoriel modifié le taux d’erreur est passé de 90 % à 5 %. Soit par exemple l’énoncé (E1) suivant : Je veux réserver non plutôt connaître l’horaire d’allée Å ‫أریﺪ ﺣﺠﺰ ﻻ ﺑﻞ ﻣﻌﺮﻓﺔ وﻗﺖ اﻟﺬهﺎب‬ Comme le montre la figure 1, le modèle vectoriel modifié est plus efficace. L’énoncé (E1) est identifié de type demande d’horaire grâce à la présence du terme ‫ « ﺑﻞ‬plutôt », qui active la classe C34, réservation qui modifie le poids p4, réservation correspondant à ‫ ﺣﺠﺰ‬de Dréservation. La taille « 3 » du contexte à considérer pour l’activation de C34, réservation est déterminée empiriquement. RECITAL 2006, Leuven, 10-13 avril 2006 CALCUL DU SENS DES MOTS ARABES AMBIGUS Identification incorrecte P(DE1j) 777 DR : demande de réservation DH : demande d’horaire Réponse correcte DR 0,274 0,1 DH DH DR Modèle classique (sans utilisation de classes modificatrices) Modèle vectoriel utilisé Modèle modifié Figure 1. Résultats obtenus via des modèles vectoriels classique et modifié 6.2. Évaluation du modèle de levée des ambiguïtés locales Nous avons évalué le modèle PAL en l’appliquant pour l’interprétation d’une ville. Afin de simplifier le modèle, nous avons regroupé toutes les villes dans une même classe VILLE. Nous avons utilisé 4 vecteurs <VILLE,départ>, <VILLE,arrivée>, <VILLE,stop> et <VILLE,correspondance>, pour représenter les sens possibles de chaque ville. Le tableau 2 représente le vecteur caractéristique correspondant à chaque sens. Chaque vecteur est représenté comme suit : (‫ « إﻟﻰ‬à », ‫ « ﻥﺤﻮ‬vers », ‫ « اﺗﺠﺎﻩ‬direction », ‫ « ﻥﺰل‬descendre », ‫وﻗﻒ‬ « arrêter », ‫ « ﻋﺒﺮ‬passer », ‫ « یﻤﺮ‬traverse », ‫ « ﻣﻦ‬de », ‫ « یﻨﻄﻠﻖ‬part », ‫ « ذهﺐ‬aller », ‫ « ﺑﻴﻦ‬entre »). Les mots dérivés d’une même racine sont regroupés, tels que ‫ « ﻋﺒﺮ{ = ﻋﺒﺮ‬à travers », ‫ﻋﺒﺮ‬ « passe »}, ‫ یﻘﻒ{ = وﻗﻒ‬, ‫}یﺘﻮﻗﻒ‬, ‫اﻟﻨﺰول{ = ﻥﺰل‬, ‫ }اﻥﺰل‬et ‫ یﺬهﺐ{ = ذهﺐ‬, ‫}اﻟﺬاهﺐ‬. Rôles sémantiques Vecteurs sémantiques caractéristiques Ville de départ Ville d’arrivée Ville de stop Ville de correspondance (0; 0; 0; 0; 0; 0; 0; 0.8; 0.33; 0; 1) (1; 1; 1; 1; 0; 0; 0; 0; 0.66; 1; 0) (0; 0; 0; 0; 1; 0; 0; 0; 0; 0; 0) (0; 0; 0; 0; 0; 1; 1; 0.2; 0; 0; 0) Tableau 2. Vecteurs caractéristiques correspondant aux interprétations d’une ville. Ci-dessous un exemple d’interprétation de deux villes occurrent dans un même énoncé en utilisant le modèle PAL : ‫ هﻞ یﻤﻜﻨﻚ إﻋﻼﻣﻲ ﺑﻜﻢ ﺳﻌﺮ اﻟﺘﺬآﺮة ﻟﻠﺬهﺎب ﻣﻦ اﻟﻘﻠﻌﺔ إﻟﻰ ﺗﻮﻥﺲ‬Æ Est-ce que tu peux m’informer, combien le prix du billet pour aller de Kalaâ à Tunis. L’interprétation de ‫ « اﻟﻘﻠﻌﺔ‬Kalaâ » comme ville de départ est réalisée grâce à la présence du terme ‫ « ﻣﻦ‬de » (dont le poids est égal à 0.8) dans le contexte droit de celui-ci. Alors que la ville ‫ « ﺗﻮﻥﺲ‬Tunis » est interprétée comme étant une ville d’arrivée, grâce à la présence de ‫إﻟﻰ‬ « à » dans le contexte se trouvant entre les deux villes (poids correspondant est égal à 1). L’avantage de notre modèle est que les contraintes influant sur le sens d’un mot sont déterminées automatiquement, sans avoir besoin d’une grammaire à base de règles comme dans (Bennacef, 1994). Les mauvaises interprétations sont dues à la non-présence dans l’énoncé des termes appartenant aux vecteurs caractéristiques des sens possibles d’une ville. 6.3. Évaluation du modèle de calcul du domaine La figure 2 présente les résultats d’interprétation (Zouaghi et al., 2005), obtenus par l’application de notre modèle et des modèles n-classes classiques (pour n=2 et n=3). Les modèles n-classes permettent d’attribuer un sens Tsei à un mot en fonction d’un historique h, en utilisant la formule suivante : P (Tsei / h) = P (MA / Tsei) × P(Tsei / h ). RECITAL 2006, Leuven, 10-13 avril 2006 ANIS ZOUAGHI, MOUNIR ZRIGUI, MOHAMED BEN AHMED 778 Taux d’erreur Notre modèle 29% Modèle bi-classes 57% Modèle tri-classes 45% Modèle utilisé Figure 2. Résultats obtenus On remarque que le meilleur score d’interprétation (71 %) est obtenu en utilisant notre modèle vectoriel. 7. Conclusion Nous avons présenté un modèle pour le calcul du sens des mots arabe ambigus dans le domaine de la compréhension de la parole. Ce modèle est inspiré des modèles vectoriels utilisés dans le domaine de la recherche documentaire. Il contribue à la sélection du sens adéquat, à la suite de la coopération de deux étapes d’analyse. Une analyse permettant de lever les ambiguïtés relevant du domaine, et une autre pour lever les ambiguïtés locales au niveau de la phrase. Afin d’être robuste face aux autocorrections, nous avons introduit des classes à l’intérieur des vecteurs, afin de corriger les poids du vecteur en cas d’autocorrection. Les tests effectués prouvent la bonne performance de notre modèle. Références BENNACEF S., BONNEAU-MAYNARD H., GAUVAIN J-L., LAMEL L., MINKER W. (1994). « A spoken language for information retrieval ». In Proceedings of ICSLP : 1271-1274. BOUSQUET-VERNHETTES C. (2002). Compréhension robuste de la parole spontanée dans le dialogue oral homme-machine – Décodage conceptuel stochastique. Thèse de doctorat, Université de Toulouse III. IDE N., VÉRONIS J. (1998). « Introduction to the Special Issue on WSD : The State of the Art ». In Computational Linguistics 24 (1) : 1-40. MINKER W. (1999). Compréhension automatique de la parole spontanée. L’Harmattan, Paris. ZOUAGHI A., ZRIGUI M., BEN AHMED M. (2005). « Un étiqueteur sémantique des énoncés en langue arabe ». In Actes de RECITAL 2005 : 727-732. RECITAL 2006, Leuven, 10-13 avril 2006