Academia.eduAcademia.edu

L'alignement des documents médiévaux

2003, Document numérique

Le but de l'alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d'un même écrit. La plupart des méthodes utilisées dans la technique d'alignement reposent sur l'analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d'en améliorer l'efficacité, d'autres approches incluent certaines propriétés linguistiques (morpho-syntaxiques et lexico-sémantiques) et structurelles (marques de chapitres, de sections, etc.) des documents. Cet article expose les résultats d'une adaptation de la technique d'alignement aux états parallèles des anciens textes à partir d'une approche multicritère qui tient compte de la similitude au niveau lexical, morpho-syntaxique et lexicosémantique du français de la période médiévale.

L’alignement des documents médiévaux Hatem Ghorbel* — Giovanni Coray* — Olivier Collet** * Ecole Polytechnique Fédérale de Lausanne, Faculté Informatique et Communications, Laboratoire d’Informatique Théorique CH 1015 Ecublens {hatem.ghorbel, giovanni.coray}@epfl.ch ** Université de Genève, Faculté des lettres Département de langues et de littératures françaises et latines médiévales 3, rue de Candolle, CH 1211 Genève 4 [email protected] RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, d’autres approches incluent certaines propriétés linguistiques (morpho-syntaxiques et lexico-sémantiques) et structurelles (marques de chapitres, de sections, etc.) des documents. Cet article expose les résultats d’une adaptation de la technique d’alignement aux états parallèles des anciens textes à partir d’une approche multicritère qui tient compte de la similitude au niveau lexical, morpho-syntaxique et lexicosémantique du français de la période médiévale. ABSTRACT. The aim of text alignment is to establish correspondence relations between subparts of two or more translations or versions of the same document. The majority of the methods in use in the technique of alignment are based on the statistical analysis of word or character frequencies or of string occurrences. In order to improve the efficiency of the process of alignment, other methods have incorporated some structural properties of the documents (e.g. chapters, sections, paragraphs, etc.) as further criteria. In this article, we adapt the technique of alignment to parallel versions of ancient texts and we propose a multicriteria approach which takes into account the similarities at the lexical, morphosyntaxic and lexico-semantic levels of the medieval texts. alignement multicritère, versions parallèles d’écrits médiévaux, analyse linguistique, similitude linguistique. MOTS-CLÉS : KEYWORDS: multicriteria alignment, parallel versions of medieval manuscripts, linguistic analysis, linguistic similarity. Document numérique. Volume 7 – n° 3-4/2003, pages 27 à 45 28 DN – 7/2003. Numérisation et patrimoine 1. Introduction L’étude des textes anciens, et en particulier des documents de la période médiévale, offre des perspectives nouvelles dans le domaine du traitement automatique de la langue. L’environnement d’édition réalisé dans le cadre du projet MEDIEVAL (modèle d’édition informatisée d’écrits médiévaux, visualisés par alignement)1 permet ainsi aux étudiants, chercheurs et spécialistes d’effectuer à différents niveaux une étude comparative des variations entre quelques copies manuscrites d’un texte allégorique français du XIVe siècle, l’« Ovide Moralisé ». Lorsqu’on applique des techniques d’alignement – soit la mise en correspondance entre segments homologues de textes – aux versions parallèles des retranscriptions effectuées entre le XIIe et XVIe siècle, les approches classiques, qui reposent dans une large mesure sur des modèles statistiques (corrélation entre le nombre de caractères ou de mots d’un segment donné, etc.), montrent leurs limites en raison de la diversité considérable d’aspect et de contenu de tels documents. Les causes en sont premièrement, l’instabilité de la langue, en second lieu, les possibilités de transformation stylistique des textes, enfin, les diverses interprétations auxquelles la réécriture de nouvelles versions peut donner lieu, sans négliger tous les facteurs qui entrent en ligne de compte dans la fabrication matérielle des documents et dans leur transmission – différences d’exécution des manuscrits et accidents liés à leur circulation. En dépit de cette caractéristique, les copies d’écrits médiévaux partagent plusieurs traits communs, soit sur le plan linguistique (morpho-syntaxique, lexical et sémantique), soit au point de vue structurel et organisationnel, i.e. la manière dont les segments sont agencés pour contribuer au sens global du texte. Ces similitudes peuvent donc être exploitées en vue d’une comparaison et, avec la base de données lexicale qui complète l’éditeur, elles procurent l’arrière-fond de la technique d’alignement que nous exposons dans cet article. 2. L’étude comparative des textes médiévaux : un problème nouveau pour l’alignement Au départ, l’alignement a été conçu comme une aide à la traduction automatique. Toutefois, cette technique a rapidement été utilisée pour d’autres tâches d’exploitation et de manipulation des documents multilingues (Catizone et al., 1989 ; Brown et al., 1991 ; Gale et al., 1991 ; Dagan, 1996 ; Véronis, 2000). Elle s’applique alors aux états de textes traduits d’une langue à une autre. Aligner deux textes équivaut à mettre en correspondance les parties homologues de ces 1. Cette entreprise pluridisciplinaire a bénéficié de l’aide du Fonds national suisse de la recherche scientifique. Le rapport final peut être consulté à l’adresse suivante : http://lithwww.epfl.ch/~ghorbel/publications.html L’alignement des documents médiévaux 29 derniers – paragraphes, phrases, expressions, mots – qui représentent des équivalents directs. Ce problème a été traité à partir de méthodes stochastiques qui, pour l’essentiel, considèrent les textes comme des flux de caractères et de mots (Brown et al., 1991 ; Gale et al., 1991). La comparaison, avant tout statistique, d’après la longueur des segments analysés, s’avère en effet suffisante dans certains cas de traduction, en particulier avec les langues européennes. Elle donne par exemple de bons résultats lorsqu’elle est appliquée à des écrits en langage courant tels que les documents législatifs ou techniques (Gale et al., 1991 ; Ballim et al., 1998). Un alignement fondé sur de tels postulats révèle toutefois ses limites dès lors qu’il s’agit d’appréhender des phénomènes linguistiques plus complexes et variés, comme l’adaptation et la réinterprétation des textes, anciens ou modernes. Les insuffisances sont particulièrement flagrantes dans le cas des documents médiévaux. Ecrits à une époque où la langue n’était pas encore fixée et transmis par des moyens artisanaux (les manuscrits), des documents de cette nature offrent en effet une grande diversité d’aspects et de contenu de même qu’une importante quantité de variantes sur le plan formel et linguistique. Un traitement purement statistique de leurs particularités se heurte très vite à des impasses et d’autres approches doivent être choisies, en particulier pour ce qui concerne l’étude de leur langue et de leur structure. Les documents en ancien français posent donc un problème nouveau pour l’alignement et de fait, peu de travaux ont abordé le problème de la réécriture dans un contexte intralinguistique, qu’il s’agisse de refontes, d’interprétations ou de conversions (Owen, 1998). 3. Le traitement des documents en ancien et en moyen français Les écrits en ancien et en moyen français ouvrent des perspectives prometteuses pour le traitement électronique des textes et pour la recherche de nouvelles méthodes de comparaison des documents. En effet, les matériaux de cette période comportent non seulement de l’information, mais ils reflètent aussi un univers de pensée textuaire différent de celui auquel l’imprimerie nous a habitué. L’environnement informatique de comparaison des manuscrits médiévaux élaboré au cours du projet MEDIEVAL se propose ainsi d’offrir des outils de navigation dans les différentes versions des textes transcrits en français entre le XIIe et le XVIe siècle. Cette interface pour l’édition et pour l’exploration des documents vernaculaires du Moyen Âge offre également des instruments de comparaison microscopique du contenu textuel qui recourent aux techniques d’alignement2. 2. De nombreux travaux, qu’il serait fastidieux d’énumérer ici mais que la revue Le médiéviste et l’ordinateur permet dans une certaine mesure de suivre, ont vu le jour ces dernières années dans le champ de l’exploitation des œuvres médiévales grâce à 30 DN – 7/2003. Numérisation et patrimoine 3.1. Le projet MEDIEVAL L’environnement de comparaison des documents manuscrits développé dans le cadre du projet MEDIEVAL3 doit ainsi permettre aux chercheurs des différents domaines intéressés de procéder à des études comparatives sur la nature, les propriétés linguistiques et les caractéristiques de contenu des écrits en ancien et en moyen français. Il vise en outre à pallier les difficultés résultant de la diversité de tels matériaux grâce à une navigation dans les multiples versions des œuvres (comparaison macroscopique) ou entre des éléments textuels et structurels similaires (comparaison microscopique). Avant de procéder à leur traitement informatique, il est nécessaire de convertir les documents médiévaux en format numérique. Cette phase doit non seulement transmettre le matériau verbal de l’écrit, mais aussi conserver ses traits et attributs originaux et l’enrichir par des interprétations philologiques. Cette phase est appelée annotation philologique. Elle doit tenir compte en particulier de l’état de conservation des manuscrits, des particularités de mise en page des textes et de leur iconographie ou de la présence d’ornementations, de la difficulté de segmentation au niveau des lettres et des mots, de la présence d’abréviations – plus ou moins fréquentes, distinctes des caractères ordinaires et qui ne peuvent être résolues qu’en fonction d’un certain nombre de critères contextuels et linguistiques – ; enfin, de l’absence de ressources grammaticales et lexicales susceptibles de guider la reconnaissance. L’annotation philologique a été réalisée manuellement sur les textes bruts par des spécialistes du domaine4, avec l’assistance des outils qui s’appuient sur la technologie XML (Extended Markup Language). A l’échelle macroscopique, la navigation dans les documents anciens se fonde sur l’utilisation des catégories signalées pendant la phase d’annotation philologique, l’informatique – transcriptions numériques, logiciels de comparaison et d’extraction de variantes, etc. –, sans parler de la littérature moderne (voir les références signalées par J. André et M.-A. Chabin dans leur contribution au vol. 3, n° 1-2, 1999 et passim, de Document numérique). Toutefois, à notre connaissance du moins, aucune de ces entreprises dont le degré d’avancement et les performances varient beaucoup, ne répond aux mêmes objectifs que MEDIEVAL en termes d’affichage – avec les possibilités d’enrichissement des transcriptions que nous offre notre interface éditoriale –, d’analyse matérielle et linguistique, et surtout, de navigation dans les documents et d’alignement. 3. Cf. le rapport final du projet : http://lithwww.epfl.ch/~ghorbel/publications.html 4. Lors de ce travail, on génère des documents structurés qui spécifient (selon un modèle de description XML) les traits philologiques des manuscrits. Pour plus de détails sur ce protocole, voir (Ghorbel, 2002). Si le nombre d’annotations – plusieurs dizaines par colonne, en règle générale – de même que les difficultés de détection et d’extraction dans les images originales imposent de recourir aux transcriptions et empêchent d’établir une correspondance détaillée avec celles-ci, l’éditeur permet de recourir à des reproductions pour chaque page grâce au menu d’affichage ou par un lien spécifique. L’alignement des documents médiévaux 31 comme par exemple les rubriques et autres marqueurs de structuration, les abréviations, les divers types de ponctuations, les retouches apportées par le copiste, etc., (figure 1). Au plan microscopique, l’alignement des textes est la principale méthode de comparaison entre ces derniers. La nature des documents anciens impose toutefois une mise en œuvre dans un contexte intralinguistique. L’opération consiste alors à détecter les similitudes linguistiques et structurelles entre les versions comparées. 3.2. Comparaison des textes par alignement L’alignement permet la mise en correspondance des parties textuelles de versions parallèles. Par versions (ou documents) parallèles, nous entendons non seulement des traductions diverses, mais aussi des réécritures et des réinterprétations à un niveau susceptible d’autoriser une comparaison. Appliqué aux textes médiévaux, l’alignement a pour objectif le développement d’un environnement informatique permettant la navigation et le rapprochement entre plusieurs copies ou rédactions d’une œuvre. Figure 1. Editeur MEDIEVAL pour la navigation dans le contenu des anciens textes 32 DN – 7/2003. Numérisation et patrimoine Les premières expériences réalisées au cours du projet MEDIEVAL ont consisté à adapter les méthodes actuelles d’alignement au corpus sélectionné – soit une retranscription du prologue et du début du Livre I de l’» Ovide Moralisé » d’après les manuscrits fr. 176 de la Bibliothèque publique et universitaire de Genève (rédaction versifiée) et f. fr. 137 de la Bibliothèque nationale de France, à Paris (adaptation en prose) – afin d’évaluer la difficulté et la faisabilité de cette tâche. Différentes applications de l’algorithme de Gale et Church ont été tentées à partir des versions parallèles extraites de quatre manuscrits en vers et d’une mise en prose de l’» Ovide moralisé »5. Ces expériences ont montré, entre autres, qu’un algorithme d’alignement monotone basé sur la longueur des chaînes de caractères reste utilisable tant que la comparaison ne porte que sur des échantillons assez homogènes (vers-vers). Ceci est dû en partie au fait que les variations qui se produisent au niveau microscopique n’altèrent pas ou ne modifient que peu la taille des segments considérés. Dans le corpus analysé, les inversions, rajouts ou suppressions de vers sont en outre rares. En revanche, l’alignement des échantillons hétérogènes – notamment des extraits poétiques avec leur équivalent en prose – n’a pas abouti aux mêmes constats. En effet, entre ces deux états de texte, on remarque tout d’abord une différence typographique. Les rédactions versifiées sont organisées comme une suite de segments de la même taille et structure (couplets d’octosyllabes). Aucune contrainte linguistique ne pèse de manière systématique sur le contenu des vers. L’objectif principal d’une telle disposition est d’assurer la mise en forme poétique – d’un point de vue à la fois musical et rythmique – du contenu verbal. Si le découpage des unités de texte est rendu explicite par l’emploi de différents marqueurs (miniatures, rubriques, initiales et lettrines décorées), l’absence presque complète de ponctuation ne rend pas la délimitation des phrases manifeste. Dans l’adaptation en prose, la structure linguistique est plus évidente. La syntaxe est soumise à des contraintes qui excluent certains agencements. La ponctuation, même si elle est peu fiable, tant à cause des difficultés de lecture des manuscrits que de l’inconsistance de ses règles d’application et donc, de son interprétation, permet néanmoins une segmentation approximative du texte. 4. Approche linguistique pour l’alignement La nature des documents étudiés ôte une grande partie de sa pertinence à une approche fondée sur la taille de la phrase. Cette technique n’offre de bons résultats que lorsqu’il s’agit d’aligner des traductions dont la dimension des phrases traduites est corrélée, comme c’est le cas avec les langues européennes. Les variations de proportion résultant par exemple d’une différence de schéma formel et de style – vers et prose en l’occurrence –, ou de genre littéraire, invitent à la recherche 5. Le projet n’a mis à contribution qu’une des deux rédactions qui ont été dérivées au XVe siècle du poème. L’alignement des documents médiévaux 33 d’autres méthodes fondées plutôt sur le contenu des textes, voire sur l’étude de leurs propriétés linguistiques. Dans ce dernier cas, le but poursuivi est d’obtenir une meilleure appréhension des critères de comparaison dont l’alignement se nourrit au niveau des mots ou des expressions. L’analyse linguistique permet d’associer deux ou plusieurs entités et de les rattacher à une même base (morphologique, morpho-syntaxique, etc.) ou à deux syntagmes que l’on suppose unis par une même fonctionnalité ou valence sémantique, deux unités signifiantes, etc. La situation des documents médiévaux est sans doute l’une des plus complexes que l’on puisse imaginer. En effet, la tradition écrite de la période ancienne procède d’un état de langue dont les traits essentiels sont encore loin d’être fixés par la grammaire. Les usages du français médiéval ne sont pas stables et évoluent sur tous les plans avec une beaucoup plus grande rapidité qu’aujourd’hui et avec une grande imprévisibilité. De plus, cette évolution n’est pas géographiquement uniforme. Les variantes observées entre deux représentants de la tradition documentaire du Moyen Âge expriment ainsi un ensemble de faits non seulement linguistiques, mais aussi géolinguistiques, culturels et historiques. Cette diversité impose d’élargir l’enquête à tous les niveaux qui concernent l’étude de l’ancien et du moyen français. Dans l’idéal, l’approche définie au sein du projet MEDIEVAL consisterait donc à décrire toutes les occurrences des constituants lexicaux du corpus en explicitant leurs propriétés – grapho-phonétiques et morpho-syntaxiques, mais aussi lexicosémantiques, compte tenu des critères chronologiques et géolinguistiques qui infléchissent ces propriétés –, de sorte à enrichir les processus de segmentation et d’alignement, à en améliorer les performances et à permettre une navigation comparative entre les différents états de textes. L’extension d’une telle démarche pourrait d’ailleurs aboutir à la création de bases de connaissances du plus haut intérêt dans les domaines grammaticaux et lexico-sémantique et servir de support à de nombreux instruments d’analyse. Les caractéristiques les plus immédiatement saisissables, à savoir morphologiques (ou morpho-syntaxiques), sont celles qui ont été privilégiées. En dépit des obstacles qui s’opposent à une formalisation de l’ensemble des règles nécessaires à décrire la langue médiévale sous ce point de vue, il est aisé de dégager quelques traits pertinents d’une analyse formelle à l’échelle du mot. Quatre critères déterminent ainsi les variantes de surface des mots : – critère orthographique, qui pèse sur les variations dont l’origine ne peut être imputée à aucune autre cause explicite que l’absence des normes fixes de transcription dans les textes médiévaux ; 34 DN – 7/2003. Numérisation et patrimoine – critère grapho-phonétique, dont relèvent les variations issues de l’évolution des sons de la langue (plan diachronique) ou des combinaisons qui se produisent à l’intérieur d’une suite de phonèmes (plan synchronique), combinaisons elles-mêmes liées dans une certaine mesure aux faits syntaxiques ; – critère analogique, qui concerne les variations engendrées par l’action de certaines formes sur d’autres, au sein d’un paradigme ou entre deux paradigmes ; – critère dialectal, soit les variations propres à une aire linguistique donnée. 4.1. MMORPH et l’analyse morphologique A partir de ce classement, l’analyseur morphologique MMORPH (Petitpierre et al., 1995) du programme MULTEXT a été mis à profit pour générer une première base de données lexicales et un ensemble de règles structurelles. MMORPH est un analyseur qui permet d’obtenir de tels résultats à partir d’un formalisme grammatical à deux niveaux, équivalant, sur le plan morphologique, à l’analyse générative transformationnelle classique pour la syntaxe. Le programme établit la correspondance d’une forme de mot avec l’entrée d’une base de données qui contient une description morpho-syntaxique de celui-ci. Cette description unit deux composantes : un type et un ensemble de caractéristiques exprimées en termes d’attributs-valeurs. Le type décrit en général la classe ou la catégorie syntaxique, par exemple le nom, le verbe, l’adjectif, etc. D’autres distinctions plus fines – telles que le temps, le mode ou la personne d’une forme verbale, etc. – sont apportées par la structure d’attributs-valeurs (par exemple temps = présent, mode = indicatif, personne = 1, etc.). La difficulté majeure rencontrée avec MMORPH n’est pas directement liée à ce programme mais plutôt au formalisme adopté : l’analyse à base de règles. En effet, le déterminisme multiple et parfois fluctuant, voire insaisissable, qui règne dans la morphologie de la langue médiévale, le nombre élevé d’ambiguïtés et de cas isolés rendent très ardu, pour ne pas dire impossible, la conception d’un système exhaustif de normes qui décrirait toutes les entités et leurs particularités. Un autre des problèmes constatés lors de cette étape est la surgénération de formes théoriques plausibles en elles-mêmes mais qui n’existent pas dans le corpus et donc sujettes à provoquer des confusions ou des analyses erronées. Pour pallier ce risque, le lexique d’entrée doit parfois être spécifié sous forme d’entrée lexicale directe, ce qui augmente la complexité et le coût de la tâche. 4.2. La base de données MedievLex MMORPH n’a donc été employé que pour la génération des formes simples des verbes, des noms et des adjectifs. Les cas de variations isolées ont été enregistrés L’alignement des documents médiévaux 35 manuellement. L’enrichissement du lexique avec les autres types de mots a été réalisé de la même manière à partir d’une extraction automatique du corpus. Par ailleurs, MMORPH possède une structure de base de type plat. Elle n’opère donc aucune hypothèse de regroupement des formes qui partagent certaines communautés, ce qui restreint considérablement les possibilités d’enrichissement à partir de l’ensemble du lexique, tant à cause des difficultés que l’on rencontre au niveau de la construction qu’au point de vue de la manipulation des informations. A l’évidence, il s’avérerait préférable de regrouper par exemple les formes conjuguées d’un verbe à partir de catégories déterminées – mode, temps, personne, etc. –, ce qui rendrait l’élaboration moins coûteuse en cas d’introduction manuelle. Il en va de même pour l’accès, la recherche et pour tous les types de réutilisations envisageables. Une des structures capables de remédier (en partie) à ces difficultés est la disposition hiérarchique des données qui autorise une classification des formes du général au spécifique et ainsi, une mise en commun de certaines caractéristiques pour des classes d’entités particulières. Le modèle le plus apte à représenter cette classification est celui des documents structurés. Le langage de marquage XML permet de décrire l’agencement hiérarchique de la base lexicale d’une façon optimale et aisée à construire. La figure 2 illustre un extrait en XML de la base de données lexicale MedievLex6 développée au cours de ce travail. L’interface logicielle pour l’acquisition et la mise à jour des entrées lexicales dans MedievLex est montrée dans la figure 3. Figure 2. Entrée lexicale du verbe aorer, « prier » dans la base MedievLex 6. A l’heure actuelle, MedievLex représente 1 236 familles d’entrées lexicales. 36 DN – 7/2003. Numérisation et patrimoine Figure 3. Interface d’accès à la base de données MedievLex : exemple d’un verbe 5. Alignement multicritère des textes anciens Afin de décider si deux éléments extraits de textes hétérogènes sont semblables et dans quelle proportion, il convient de déterminer les méthodes de mesure de similitude adéquates. La taille des segments comparés ne saurait y suffire, nous l’avons vu, et l’opération nécessite donc la création d’un espace de caractéristiques multidimensionnel. A partir d’un ensemble de fonctions heuristiques de comparaison qu’on appelle fonctions de similitude, dont chacune fournit une évaluation de la proximité de deux éléments par rapport à un critère donné, la similitude globale est définie comme une combinaison linéaire pondérée de ces calculs. La définition des valeurs sur lesquelles repose la relation d’alignement entre les éléments de deux textes est donc considérée comme un problème combinatoire où l’on cherche à établir une mise en correspondance qui maximise la similitude globale (Ghorbel, 2002). Cette mesure fait intervenir trois paramètres principaux : lexical, morpho-syntaxique et sémantique. L’alignement des documents médiévaux 37 5.1. Similitude lexicale : la notion des mots apparentés Une paire de mots apparentés est formée d’un vocable dans une langue A et d’un autre vocable dans une langue B analogue au précédent sur le plan formel et sémantique. Ainsi, thèse en français et thesis en anglais peuvent être considérés comme des mots apparentés. Quand deux termes ne présentent qu’une similitude formelle, comme par exemple library (« bibliothèque » en français) et librairie (« bookshop » en anglais), on les appelle des faux amis. Plusieurs heuristiques, toutes établies sur le calcul de distance ou de proximité au niveau graphique, existent pour détecter les mots apparentés. Au nombre des diverses méthodes connues (Simard et al., 1992 ; McEnery et al., 1995), nous avons privilégié le rapport que nous appelons Dice_1 (formule 1), variante du rapport de Dice proposée par (Simard et al., 1992). Tablant sur les monogrammes plutôt que sur les bigrammes pour calculer la similitude des mots, ce rapport peut aussi être appliqué à la détection des mots apparentés : Dice _ 1 = 2*a length ( w1 ) + length ( w 2 ) [1] où a représente le nombre de caractères identiques qui se trouvent à la fois dans le mot w1 et dans w2, et la fonction length exprime la longueur en termes de chaîne de caractères. D’une manière générale, les rapports de Dice permettent d’inclure les variations graphiques et s’adaptent donc bien aux textes médiévaux dans lesquels ces transformations interviennent surtout de manière locale (permutation de certains caractères ou groupes de caractères pour des raisons phonétiques, morphosyntaxiques, dialectales ou arbitraires, comme dans les couples accomplir-acomplir, doinst-doint, enchaint-enceint, repondre-respondre, etc.). Afin d’améliorer le rappel dans la détection des mots apparentés, nous avons choisi le rapport de Dice_1 avec un taux de 0.8. Toutefois, la précision s’est avérée insuffisante. Ce seuil a en effet produit la mise en relation de couples erronés, par exemple ainsi et sains ; aoure et autre ; beste et estre ; bien et rien ; ceste et cesse ; chaille et escaille, etc. Avec le seuil de 0.8, la précision de la détection des mots apparentés entre la version en prose et celle en vers peut être estimée à 80 %. Pour remédier à ce problème, nous avons augmenté le seuil à 0.82. Cette élévation a permis d’atteindre une précision de l’ordre de 87 %. En revanche, le rappel a diminué de 17 % ce qui s’explique par la perte de mots apparentés dont le rapport de Dice_1 se situe entre 0.8 et 0.82. Pour éviter une déperdition de mots apparentés faiblement corrélées – moins de 0.82 –, nous avons affiné la méthode grâce à l’inclusion de quelques règles de transformations relevant des particularismes grapho-phonétiques, morpho-phonétiques et dialectaux de la langue 38 DN – 7/2003. Numérisation et patrimoine médiévale ou encore de caractéristiques aléatoires, et susceptibles de s’appliquer à des contextes simples (figure 4). 1. Le digramme eu alterne en tant que tel avec ou 2. Dans la syllabe finale des substantifs et adjectifs, le digramme eu peut être suivi de s, x, z, ls, lx, lz et cette combinaison peut se transformer en es, ex, ez, els, elx, elz 3. Précédé d’une consonne, le graphème i alterne librement avec y en fin de mot 4. Le t final d’un substantif ou d’un adjectif permute avec s (ou z) en fonction du cas grammatical Figure 4. Exemples de règles grapho-phonétiques et morpho-phonétiques pour affiner la détection des mots apparentés Le tableau 1 offre un échantillon de l’ensemble des mots apparentés détectés à partir de la rédaction en vers et de la version en prose qui alimentent le corpus après application de ces règles. Les colonnes Mot1 et Mot2 correspondent aux mots apparentés dont le rapport de Dice_1 initial figure dans la colonne Dice_1_A. Mot1_T représente la transformation du Mot1 qui fournit le meilleur rapport de Dice_1 (Dice_1_B) avec Mot2. Mot1 Règles Mot1_T Mot2 Dice_1_A Dice_1_B ainsy auctour 3 4 ainsi acteur ainsi aucteur 0.8 0.77 1 0.92 cieulx 1 cielx ciel 0.8 0.88 saint 2 sains sains 0.8 1 Tableau 1. Exemples de mots apparentés après application des règles graphiques La mesure de similitude entre les données textuelles de deux segments est calculée en fonction de la fréquence relative des mots apparentés qu’ils partagent. Le rapport de Dice_1 est utilisé pour l’évaluation de cette fréquence. On dénote cette fonction de similitude par le terme anglais de cognateness. 5.2. Similitude morpho-syntaxique La fonction de similitude lexicale fondée sur des heuristiques statistiques et sur l’application de quelques règles graphiques ne permet pas d’établir les L’alignement des documents médiévaux 39 correspondances susceptibles de se produire entre des segments soumis à une forte variation linguistique. La réélaboration d’un texte, le passage d’une structure à une autre ou d’un genre à un autre comme dans le cas de la mise en prose d’un poème ou de la réécriture en vers à partir de la prose, impliquent toute une série de transformations qui affectent aussi bien la composition des phrases que le choix du vocabulaire, fait qui entraîne de plus ou moins grandes divergences sur le plan lexical et morpho-syntaxique (tableau 2). Rédaction en vers Adaptation en prose Dice_1 0.8 Si com Saincte Eglise vorra / Que je doy croire ce qu’il croirra selon Sainte Eglise en qui je croy Combien que li paien creüssent / Des Diex et que pluseurs en fussent car quoy que les payens croyent pluiseurs dieux 0.62 Car nulle meilleur ne peut estre car meilleur ne povoit estre 0.4 Ovides en sa commençaille Ovide en son commencement 0.66 Ci commence le premier livre d’Ovide Methamorphoses Comment Ovide au commencement de ce livre invocque l’ayde divine 0.8 Mais les mutacions des fables / Qui sont bonnes et profitables / [...] esclairray / Au plus briefment que je pourray / [...] / Et maint profiter […] Mais au plus brief que je pourray je esclarciray la mutacion des fables prouffitables au mieulx que possible me sera 0.66 Et Le tiengne en humilité / Membrer li doit que de vilté / Soit estrais et creé de boe et se tiegne humble et souvenant que estrais est de vilté 0.71 0.72 Tableau 2. Variation morpho-syntaxique et lexico-sémantique dans les textes médiévaux De telles alternances ne peuvent être prises en compte par la fonction de similitude lexicale. Une comparaison efficace requiert l’intervention de modèles de transformation morpho-syntaxiques et lexico-sémantiques. La base de données MedievLex nous a permis d’élaborer d’autres heuristiques de similitude en considérant tout d’abord les traits « lemme » et « famille ». 5.2.1. Le trait « lemme » Le trait « lemme » permet de définir une forme canonique pour les entrées lexicales. Cette forme est représentée par l’infinitif pour les verbes et par le masculin singulier pour les substantifs – sauf pour les noms essentiellement féminins –, les adjectifs, les pronoms et les déterminants. Grâce à cette étape de lemmatisation, il est possible d’établir la correspondance entre les formes conjuguées des verbes (par exemple, creüssent et croyent) et entre des dérivés morphologiquement distinct (par exemple, commençaille et commencement). 40 DN – 7/2003. Numérisation et patrimoine 5.2.2. Le trait « famille » Dans la base MedievLex, le trait « famille » découle de l’origine étymologique des entrées lexicales. Il procure en outre une forme canonique pour les différentes catégories syntaxiques dérivées. Grâce à cette nouvelle étape de lemmatisation, plus abstraite que celle proposée dans le cas précédent, il est possible d’opérer des recoupements entre les verbes, les substantifs, les adjectifs et les adverbes partageant la même origine, comme par exemple le verbe profiter et l’adjectif prouffitables ou encore le substantif humilité et l’adjectif humble. Etant donné l’importance des transformations entre les différents états des écrits médiévaux, cette heuristique s’avère très utile. La similitude morpho-syntaxique des données textuelles de deux segments se mesure d’après la fréquence relative des formes linguistiques canoniques – lemmes et familles – qu’ils partagent. Le rapport de Dice_1 est à nouveau utilisé comme heuristique statistique pour la mesure de cette fréquence. On dénote cette fonction de similitude par le terme d’allomorphism. 5.3. Similitude sémantique Outre les correspondances morpho-syntaxiques et lexicales qu’ils manifestent, les textes médiévaux révèlent d’autres types d’affinités, notamment sur le plan de la signification des mots et des expressions employées. En effet, si la retransmission des œuvres par voie de copie aussi bien que leur réécriture (sous forme de mises en prose par exemple, ou lors de changements de structure poétique, de catégorie littéraire, de modernisations, etc.) peuvent entraîner des modifications considérables à l’échelle macroscopique – déformations, interpolations, remaniements, suppressions, volontaires ou non –, elle garantit en principe une certaine adéquation entre deux retranscriptions ou entre deux rédactions au point de vue du contenu général et du sens global, au moins pour des parties du texte qui couvrent une certaine étendue. Sous l’aspect lexico-sémantique, les mots peuvent être remplacés par des synonymes, par des syntagmes équivalents ou par des termes ou des expressions destinés à « rajeunir » les textes en remplaçant les vocables ressentis comme archaïques par de nouveaux lexèmes ou des formules plus récentes ; les tournures font place à d’autres tournures sémantiquement conformes, etc. Afin de déterminer l’adéquation entre ces éléments, d’autres méthodes de comparaison sont nécessaires. Les ressemblances que l’on constate entre la structure sémantique du lexique médiéval et moderne du français invitent à compléter la base lexicale MedievLex au moyen d’un lien vers la langue contemporaine. Ce lien de redirection (le trait « sens » dans la base) indique la traduction des entrées en français actuel. La mise en regard des mots devient par conséquent une comparaison des synsets de leurs traductions dans WordNet (Fellbaum, 1998). Deux termes ou syntagmes de la langue médiévale, comme les futurs esclairray et esclarciray, ou le verbe impersonnel membrer et la construction estre – ou, dans le cas précis, se tenir – L’alignement des documents médiévaux 41 souvenant, « garder en mémoire » dans les deux cas, ou deux usages particuliers d’un vocable pour les termes polysémiques, sont considérés comme synonymes si leurs équivalents en français moderne appartiennent au même synset. Le résultat est bien sûr déterminé de façon prépondérante par la qualité des traductions. La similitude sémantique de deux segments se mesure en fonction de la fréquence relative des analogies sémantiques qu’ils partagent. Le rapport de Dice_1 est à nouveau employé comme heuristique statistique pour la mesure de cette fréquence. On dénote cette fonction de similitude par le terme synonymy. 5.4. Fonction de similitude linguistique Après avoir calculé trois fonctions de similitude différentes, lexicale, morphosyntaxique et sémantique, il ne reste plus qu’à les combiner pour en déduire une première fonction de similitude (fonction de similitude linguistique d’ordre 1). La combinaison choisie est une combinaison linéaire où les coefficients (c1, c2 et c3) évaluent l’importance ou la confiance attribuée aux fonctions de similitude (cognatness, allmorphism et synonymy). g 1 = c1 * cognatness + c 2 * allomorphism + c 3 * synonymy L’ordre des mots est également un critère important dans le processus de comparaison. Une suite de n (n = 2) mots similaires dans deux segments constitue un indicateur précieux pour leur mise en correspondance. Nous proposons ainsi d’autres fonctions de similitudes (d’ordre n) gn qui reposent sur un modèle n-gram de suites de mots linguistiquement semblables. Un n-gram est une suite de n mots ( m kS ,..., m kS+ n ) dans le segment textuel S qui expriment des relations de similitude linguistique – mots apparentés, mots morphosyntaxiquement proches ou synonymes – avec ( m Dp ,..., m Dp + n ) dans le segment textuel D, c’est-à-dire que m kS est similaire à m Dp , m kS+1 est similaire à m Dp+1 et ainsi de suite jusqu’à m kS+ n et m Dp + n . La suite Quant Dieu ordeneement est par exemple similaire à Quant Dieu eut ordonné si l’on applique à ces segments un modèle de trigramme en ne considérant que les mots d’une taille supérieure à 3 caractères. La méthode fait apparaître les couples suivants, compte tenu du taux de confiance qui peut être accordé à chaque paire : (Quant, Quant, c1) ; (Dieu, Dieu, c1) ; (ordeneement, ordonné, c2). Le poids de ce n-gram Cn (n = 3 mots) est égal au produit des ci qui correspondent à chaque couple de mots similaires, c’est-à-dire Cn = c1*c1*c2. Avec ce modèle, il est possible de calculer la fréquence des n-grams similaires (n ≥ 2) dans les segments en appliquant le rapport de Dice_n comme suit : 42 DN – 7/2003. Numérisation et patrimoine g n (S , D) = 2 * ∑ Cn l1 + l 2 − 2( n − 1) [2] où ∑ C n correspond à la somme des taux de confiance des n-grams trouvés entre les segments textuels S et D. En dernière analyse, la fonction de similitude f fondée sur les traits linguistiques énoncés au début de cette section représente une combinaison linéaire des n fonctions de similitude de n-gram entre les éléments des documents S et D. f s’écrit alors sous la forme : f = ∑in=1 µi gi où µi est le poids des modèles i-gramme et les gi tels que (i ≤ n) sont calculés selon la formule (2). Dans notre modèle de comparaison, nous nous limitons à l’ordre 3, c’est-à-dire n = 3. 6. Résultats et évaluations Les expériences d’alignement que nous décrivons ont été effectuées avec l’aligneur automatique MultAlign (Ghorbel et al., 2002), développé au sein de ce projet. La version en prose comporte respectivement 1 850 et 1 690 mots (prologue et début du Livre I dans les limites de l’extrait choisi), celle en vers, 2 950 et 2 330 mots (idem). Les médiévistes engagés dans la recherche ont élaboré l’alignement de référence du corpus de manière empirique. Un modèle de segmentation adéquat7 a permis de se limiter à un modèle de substitution8 de (4 : 4). Les inversions ne sont pas considérées comme telles. En allongeant la fenêtre du modèle, elles peuvent être traitées comme des substitutions. Les métriques d’évaluation utilisées sont celles proposées par (Isabelle et al., 1996) et révisées dans le cadre du projet ARCADE (Langlais et al., 1999 ; Véronis 2000). L’idée principale est d’utiliser les notions de rappel et de précision employées dans le domaine de la recherche de l’information pour situer un alignement généré automatiquement par rapport à un alignement de référence. 7. Un segmenteur automatique a été développé dans ce projet (Ghorbel, 2002). 8. Un modèle de substitution du type (M : N) permet de mettre en relation d’alignement M parties du texte source avec N parties du texte cible. L’alignement des documents médiévaux Modèle de substitution Rappel ( % ) Précision ( % ) 43 F_mesure ( % ) 2:2 56.7 74 64.2 4:4 71.2 76.2 73.6 Tableau 3. Evaluation de l’alignement prose-vers avec l’utilisation des critères linguistiques Comme on le constate sur le tableau 3, l’intervention dans l’alignement des critères linguistiques – avec une pondération convenable – donne de meilleurs résultats en termes de rappel et de précision avec un modèle de substitution de 4 : 4 qu’avec un modèle de 2 : 2. Ceci est principalement dû à l’hétérogénéité des documents soumis à l’alignement. Dans ces expériences d’alignement9, l’emploi du critère linguistique permet d’obtenir un taux de F-mesure de l’ordre de 70 %. Ces performances pourraient être améliorées grâce à un accroissement des ressources linguistiques (telles que la base de données lexicales MedievLex et la base de données terminologiques ou l’interface de WordNet en français), afin de favoriser la détection de similitudes morpho-syntaxiques et sémantiques. 7. Conclusions L’objectif premier de MEDIEVAL est de créer un environnement de comparaison des œuvres anciennes et de permettre aux spécialistes et aux chercheurs sur le Moyen Age vernaculaire de procéder à des études comparatives sur la nature et sur les propriétés philologiques et linguistiques des écrits du XIIe au XVIe siècle. Cette interface éditoriale vise donc à faciliter la collation des textes tant au niveau macroscopique que microscopique. Au point de vue macroscopique et, en particulier, de la structure exégétique des écrits, MEDIEVAL offre la possibilité d’enrichir les transcriptions par des expertises et par les annotations des philologues. Ceci est rendu possible, d’une part avec l’affichage des textes en versions originales ou reconstituées artificiellement, d’autre part, grâce à la navigation entre ces différentes représentations. 9. D’autres expériences ont été effectuées avec les textes modernes (extraits du Recueil systématique du droit fédéral suisse rédigé dans les trois langues nationales : français, allemand et italien). Ces expériences ont donné d’excellents résultats (Ghorbel, 2002). 44 DN – 7/2003. Numérisation et patrimoine Au point de vue microscopique, l’éditeur permet de visualiser l’alignement automatique des éléments mis en correspondance. Cependant, les techniques classiques d’alignement, en particulier les méthodes statistiques appliquées aux textes multilingues, ne réussissent pas à vaincre la complexité de certaines transformations dont les œuvres médiévales nous offrent le témoignage. Pour obtenir une juxtaposition adéquate lors de conversions, de réécritures comme dans le cas d’un dérimage ou d’une mise en prose par exemple, ou d’interprétations, il y a lieu d’envisager des approches linguistiques, différentes de celles employées pour de simples traductions. Applicable sur d’autres terrains d’analyse, MEDIEVAL concerne très directement aussi le domaine pédagogique et éducatif, cet outil ayant pour but de permettre à des étudiants de découvrir la réalité matérielle et linguistique des textes anciens par leur comparaison et des recherches automatiques, de faciliter la compréhension des mécanismes de variation en offrant des exemples pratiques de phrases et de conversions morpho-syntaxiques, de transformations sur le plan lexico-sémantique, stylistique, argumentatif ou encore, de vérifier les incidences liées à l’époque ou à la provenance du texte, etc. Dans le prolongement de cette entreprise, on peut enfin signaler le travail en cours de réalisation de Y. Foehr-Janssens, de l’Université de Genève, qui devrait bientôt aboutir à la publication grâce à MEDIEVAL de l’ensemble des adaptations françaises de la Disciplina clericalis de Pierre Alphonse, texte didactique latin du XIIe siècle de nombreuses fois traduit au Moyen Âge et dont trois rédactions ont vu le jour dans notre langue aux XIIIe-XIVe siècles. 8. Bibliographie André J., Chabin M.-A., « Les documents anciens », Document numérique, vol. 3 n° Spécial 1-2, 1999. Paris: Hermes Science Publications. Ballim A., Coray G., Linden A., Vanoirbeek C., « The use of automatic alignment on structured multilingual documents », Proceedings of the Seventh International Conference on Electronic Publishing, 1998, Saint-Malo, p. 464-475. Brown P., Lai J., Mercer R., « Aligning sentences in parallel corpora », Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, 1991, Berkeley, California, p. 169-176. Catizone R., Russell G., Warwick S., « Deriving translation data from bilingual texts », Zernik U. (Ed.), Proceedings of the first Lexical Acquisition Workshop, 1989, Detroit, Michigan. Dagan I., « Bilingual word alignment and lexicon construction », Tutorial Notes of the 34th Annual meeting of the Association for Computational Linguistic, 1996, California. Fellbaum C., WordNet, An Electronic Lexical Database, The MIT Press, 1998. L’alignement des documents médiévaux 45 Gale W., Church K., « A program for aligning sentences in bilingual corpora », Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, 1991, Berkley, California, p. 177-184. Ghorbel H., Coray G., Linden A., « SAM : System for Multi-criteria Text Alignment », Proceedings of the International Conference On language Ressources and Evaluation LREC 2002, 2002, Las Palmas, p. 404-410. Ghorbel H., Alignement Multicritère des Textes : Critères linguistiques et structurels appliqués aux documents médiévaux. Thèse de doctorat en Informatique n° 2609, Ecole polytechnique fédérale de Lausanne, 2002. Isabelle P., Simard M., Propositions pour la représentation et l’évaluation des alignements de textes parallèles, Rapport technique, 1996, Centre d’innovation en technologies d’information Industrie et Sciences, Canada. Langlais P., Simard M., Véronis J., ARCADE Methods and Practical Issues in Evaluating Alignment Techniques, rapport de recherche, 1999, Université d’Aix-en-Provence. McEnery A., Oakes P., « Cognate extraction in the Crater project », Proceedings of the EACL-SIGDAT workshop, 1995, Dublin, p. 77-86. Owen C. B., « Parallel Text Alignment », Proceedings of the Second European Conference for Digital Libraries ECDL’98, 1998, Heraklion, p. 235-259. Petitpierre D., Russell G., MMORPH- The Multext Morphological Program Version 2.3, Technical Report, 1995, ISSCO. Simard M., Foster G., Isabelle P., « Using cognates to align sentences in bilingual corpora », Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation, 1992, Montreal, p. 67-81. Véronis J., Parallel Text Processing : Alignment and Use of translation Corpora, Dordrecht, Boston, London, Kluwer Academic Publishers, 2000. Véronis J., « Evaluation of parallel text alignment systems. The ARCADE project », Véronis J. (Ed.), Parallel Text Processing, 2000, Dordrecht, Boston, London, Kluwer Academic Publishers, p. 369-388.