L’alignement des documents médiévaux
Hatem Ghorbel* — Giovanni Coray* — Olivier Collet**
* Ecole Polytechnique Fédérale de Lausanne, Faculté Informatique
et Communications, Laboratoire d’Informatique Théorique
CH 1015 Ecublens
{hatem.ghorbel, giovanni.coray}@epfl.ch
** Université de Genève, Faculté des lettres
Département de langues et de littératures françaises et latines médiévales
3, rue de Candolle, CH 1211 Genève 4
[email protected]
RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties
similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des
méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des
fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci
constituent. Afin d’en améliorer l’efficacité, d’autres approches incluent certaines propriétés
linguistiques (morpho-syntaxiques et lexico-sémantiques) et structurelles (marques de
chapitres, de sections, etc.) des documents. Cet article expose les résultats d’une adaptation
de la technique d’alignement aux états parallèles des anciens textes à partir d’une approche
multicritère qui tient compte de la similitude au niveau lexical, morpho-syntaxique et lexicosémantique du français de la période médiévale.
ABSTRACT.
The aim of text alignment is to establish correspondence relations between
subparts of two or more translations or versions of the same document. The majority of the
methods in use in the technique of alignment are based on the statistical analysis of word or
character frequencies or of string occurrences. In order to improve the efficiency of the
process of alignment, other methods have incorporated some structural properties of the
documents (e.g. chapters, sections, paragraphs, etc.) as further criteria. In this article, we
adapt the technique of alignment to parallel versions of ancient texts and we propose a
multicriteria approach which takes into account the similarities at the lexical, morphosyntaxic and lexico-semantic levels of the medieval texts.
alignement multicritère, versions parallèles d’écrits médiévaux, analyse
linguistique, similitude linguistique.
MOTS-CLÉS :
KEYWORDS:
multicriteria alignment, parallel versions of medieval manuscripts, linguistic
analysis, linguistic similarity.
Document numérique. Volume 7 – n° 3-4/2003, pages 27 à 45
28
DN – 7/2003. Numérisation et patrimoine
1. Introduction
L’étude des textes anciens, et en particulier des documents de la période
médiévale, offre des perspectives nouvelles dans le domaine du traitement
automatique de la langue. L’environnement d’édition réalisé dans le cadre du projet
MEDIEVAL (modèle d’édition informatisée d’écrits médiévaux, visualisés par
alignement)1 permet ainsi aux étudiants, chercheurs et spécialistes d’effectuer à
différents niveaux une étude comparative des variations entre quelques copies
manuscrites d’un texte allégorique français du XIVe siècle, l’« Ovide Moralisé ».
Lorsqu’on applique des techniques d’alignement – soit la mise en
correspondance entre segments homologues de textes – aux versions parallèles des
retranscriptions effectuées entre le XIIe et XVIe siècle, les approches classiques, qui
reposent dans une large mesure sur des modèles statistiques (corrélation entre le
nombre de caractères ou de mots d’un segment donné, etc.), montrent leurs limites
en raison de la diversité considérable d’aspect et de contenu de tels documents. Les
causes en sont premièrement, l’instabilité de la langue, en second lieu, les
possibilités de transformation stylistique des textes, enfin, les diverses
interprétations auxquelles la réécriture de nouvelles versions peut donner lieu, sans
négliger tous les facteurs qui entrent en ligne de compte dans la fabrication
matérielle des documents et dans leur transmission – différences d’exécution des
manuscrits et accidents liés à leur circulation.
En dépit de cette caractéristique, les copies d’écrits médiévaux partagent
plusieurs traits communs, soit sur le plan linguistique (morpho-syntaxique, lexical et
sémantique), soit au point de vue structurel et organisationnel, i.e. la manière dont
les segments sont agencés pour contribuer au sens global du texte. Ces similitudes
peuvent donc être exploitées en vue d’une comparaison et, avec la base de données
lexicale qui complète l’éditeur, elles procurent l’arrière-fond de la technique
d’alignement que nous exposons dans cet article.
2. L’étude comparative des textes médiévaux : un problème nouveau
pour l’alignement
Au départ, l’alignement a été conçu comme une aide à la traduction
automatique. Toutefois, cette technique a rapidement été utilisée pour d’autres
tâches d’exploitation et de manipulation des documents multilingues (Catizone et
al., 1989 ; Brown et al., 1991 ; Gale et al., 1991 ; Dagan, 1996 ; Véronis, 2000).
Elle s’applique alors aux états de textes traduits d’une langue à une autre. Aligner
deux textes équivaut à mettre en correspondance les parties homologues de ces
1. Cette entreprise pluridisciplinaire a bénéficié de l’aide du Fonds national suisse de la
recherche scientifique. Le rapport final peut être consulté à l’adresse suivante :
http://lithwww.epfl.ch/~ghorbel/publications.html
L’alignement des documents médiévaux
29
derniers – paragraphes, phrases, expressions, mots – qui représentent des
équivalents directs. Ce problème a été traité à partir de méthodes stochastiques qui,
pour l’essentiel, considèrent les textes comme des flux de caractères et de mots
(Brown et al., 1991 ; Gale et al., 1991). La comparaison, avant tout statistique,
d’après la longueur des segments analysés, s’avère en effet suffisante dans certains
cas de traduction, en particulier avec les langues européennes. Elle donne par
exemple de bons résultats lorsqu’elle est appliquée à des écrits en langage courant
tels que les documents législatifs ou techniques (Gale et al., 1991 ; Ballim et al.,
1998).
Un alignement fondé sur de tels postulats révèle toutefois ses limites dès lors
qu’il s’agit d’appréhender des phénomènes linguistiques plus complexes et variés,
comme l’adaptation et la réinterprétation des textes, anciens ou modernes. Les
insuffisances sont particulièrement flagrantes dans le cas des documents médiévaux.
Ecrits à une époque où la langue n’était pas encore fixée et transmis par des moyens
artisanaux (les manuscrits), des documents de cette nature offrent en effet une
grande diversité d’aspects et de contenu de même qu’une importante quantité de
variantes sur le plan formel et linguistique. Un traitement purement statistique de
leurs particularités se heurte très vite à des impasses et d’autres approches doivent
être choisies, en particulier pour ce qui concerne l’étude de leur langue et de leur
structure.
Les documents en ancien français posent donc un problème nouveau pour
l’alignement et de fait, peu de travaux ont abordé le problème de la réécriture dans
un contexte intralinguistique, qu’il s’agisse de refontes, d’interprétations ou de
conversions (Owen, 1998).
3. Le traitement des documents en ancien et en moyen français
Les écrits en ancien et en moyen français ouvrent des perspectives prometteuses
pour le traitement électronique des textes et pour la recherche de nouvelles
méthodes de comparaison des documents. En effet, les matériaux de cette période
comportent non seulement de l’information, mais ils reflètent aussi un univers de
pensée textuaire différent de celui auquel l’imprimerie nous a habitué.
L’environnement informatique de comparaison des manuscrits médiévaux élaboré
au cours du projet MEDIEVAL se propose ainsi d’offrir des outils de navigation
dans les différentes versions des textes transcrits en français entre le XIIe et le
XVIe siècle. Cette interface pour l’édition et pour l’exploration des documents
vernaculaires du Moyen Âge offre également des instruments de comparaison
microscopique du contenu textuel qui recourent aux techniques d’alignement2.
2. De nombreux travaux, qu’il serait fastidieux d’énumérer ici mais que la revue Le
médiéviste et l’ordinateur permet dans une certaine mesure de suivre, ont vu le jour ces
dernières années dans le champ de l’exploitation des œuvres médiévales grâce à
30
DN – 7/2003. Numérisation et patrimoine
3.1. Le projet MEDIEVAL
L’environnement de comparaison des documents manuscrits développé dans le
cadre du projet MEDIEVAL3 doit ainsi permettre aux chercheurs des différents
domaines intéressés de procéder à des études comparatives sur la nature, les
propriétés linguistiques et les caractéristiques de contenu des écrits en ancien et en
moyen français. Il vise en outre à pallier les difficultés résultant de la diversité de
tels matériaux grâce à une navigation dans les multiples versions des œuvres
(comparaison macroscopique) ou entre des éléments textuels et structurels similaires
(comparaison microscopique).
Avant de procéder à leur traitement informatique, il est nécessaire de convertir
les documents médiévaux en format numérique. Cette phase doit non seulement
transmettre le matériau verbal de l’écrit, mais aussi conserver ses traits et attributs
originaux et l’enrichir par des interprétations philologiques. Cette phase est appelée
annotation philologique. Elle doit tenir compte en particulier de l’état de
conservation des manuscrits, des particularités de mise en page des textes et de leur
iconographie ou de la présence d’ornementations, de la difficulté de segmentation
au niveau des lettres et des mots, de la présence d’abréviations – plus ou moins
fréquentes, distinctes des caractères ordinaires et qui ne peuvent être résolues qu’en
fonction d’un certain nombre de critères contextuels et linguistiques – ; enfin, de
l’absence de ressources grammaticales et lexicales susceptibles de guider la
reconnaissance.
L’annotation philologique a été réalisée manuellement sur les textes bruts par
des spécialistes du domaine4, avec l’assistance des outils qui s’appuient sur la
technologie XML (Extended Markup Language).
A l’échelle macroscopique, la navigation dans les documents anciens se fonde
sur l’utilisation des catégories signalées pendant la phase d’annotation philologique,
l’informatique – transcriptions numériques, logiciels de comparaison et d’extraction de
variantes, etc. –, sans parler de la littérature moderne (voir les références signalées par
J. André et M.-A. Chabin dans leur contribution au vol. 3, n° 1-2, 1999 et passim, de
Document numérique). Toutefois, à notre connaissance du moins, aucune de ces entreprises
dont le degré d’avancement et les performances varient beaucoup, ne répond aux mêmes
objectifs que MEDIEVAL en termes d’affichage – avec les possibilités d’enrichissement des
transcriptions que nous offre notre interface éditoriale –, d’analyse matérielle et linguistique,
et surtout, de navigation dans les documents et d’alignement.
3. Cf. le rapport final du projet : http://lithwww.epfl.ch/~ghorbel/publications.html
4. Lors de ce travail, on génère des documents structurés qui spécifient (selon un modèle de
description XML) les traits philologiques des manuscrits. Pour plus de détails sur ce
protocole, voir (Ghorbel, 2002). Si le nombre d’annotations – plusieurs dizaines par colonne,
en règle générale – de même que les difficultés de détection et d’extraction dans les images
originales imposent de recourir aux transcriptions et empêchent d’établir une correspondance
détaillée avec celles-ci, l’éditeur permet de recourir à des reproductions pour chaque page
grâce au menu d’affichage ou par un lien spécifique.
L’alignement des documents médiévaux
31
comme par exemple les rubriques et autres marqueurs de structuration, les
abréviations, les divers types de ponctuations, les retouches apportées par le copiste,
etc., (figure 1).
Au plan microscopique, l’alignement des textes est la principale méthode de
comparaison entre ces derniers. La nature des documents anciens impose toutefois
une mise en œuvre dans un contexte intralinguistique. L’opération consiste alors à
détecter les similitudes linguistiques et structurelles entre les versions comparées.
3.2. Comparaison des textes par alignement
L’alignement permet la mise en correspondance des parties textuelles de
versions parallèles. Par versions (ou documents) parallèles, nous entendons non
seulement des traductions diverses, mais aussi des réécritures et des
réinterprétations à un niveau susceptible d’autoriser une comparaison. Appliqué aux
textes médiévaux, l’alignement a pour objectif le développement d’un
environnement informatique permettant la navigation et le rapprochement entre
plusieurs copies ou rédactions d’une œuvre.
Figure 1. Editeur MEDIEVAL pour la navigation dans le contenu des anciens textes
32
DN – 7/2003. Numérisation et patrimoine
Les premières expériences réalisées au cours du projet MEDIEVAL ont consisté
à adapter les méthodes actuelles d’alignement au corpus sélectionné – soit une
retranscription du prologue et du début du Livre I de l’» Ovide Moralisé » d’après
les manuscrits fr. 176 de la Bibliothèque publique et universitaire de Genève
(rédaction versifiée) et f. fr. 137 de la Bibliothèque nationale de France, à Paris
(adaptation en prose) – afin d’évaluer la difficulté et la faisabilité de cette tâche.
Différentes applications de l’algorithme de Gale et Church ont été tentées à partir
des versions parallèles extraites de quatre manuscrits en vers et d’une mise en prose
de l’» Ovide moralisé »5. Ces expériences ont montré, entre autres, qu’un
algorithme d’alignement monotone basé sur la longueur des chaînes de caractères
reste utilisable tant que la comparaison ne porte que sur des échantillons assez
homogènes (vers-vers). Ceci est dû en partie au fait que les variations qui se
produisent au niveau microscopique n’altèrent pas ou ne modifient que peu la taille
des segments considérés. Dans le corpus analysé, les inversions, rajouts ou
suppressions de vers sont en outre rares.
En revanche, l’alignement des échantillons hétérogènes – notamment des
extraits poétiques avec leur équivalent en prose – n’a pas abouti aux mêmes
constats. En effet, entre ces deux états de texte, on remarque tout d’abord une
différence typographique. Les rédactions versifiées sont organisées comme une
suite de segments de la même taille et structure (couplets d’octosyllabes). Aucune
contrainte linguistique ne pèse de manière systématique sur le contenu des vers.
L’objectif principal d’une telle disposition est d’assurer la mise en forme poétique –
d’un point de vue à la fois musical et rythmique – du contenu verbal. Si le
découpage des unités de texte est rendu explicite par l’emploi de différents
marqueurs (miniatures, rubriques, initiales et lettrines décorées), l’absence presque
complète de ponctuation ne rend pas la délimitation des phrases manifeste. Dans
l’adaptation en prose, la structure linguistique est plus évidente. La syntaxe est
soumise à des contraintes qui excluent certains agencements. La ponctuation, même
si elle est peu fiable, tant à cause des difficultés de lecture des manuscrits que de
l’inconsistance de ses règles d’application et donc, de son interprétation, permet
néanmoins une segmentation approximative du texte.
4. Approche linguistique pour l’alignement
La nature des documents étudiés ôte une grande partie de sa pertinence à une
approche fondée sur la taille de la phrase. Cette technique n’offre de bons résultats
que lorsqu’il s’agit d’aligner des traductions dont la dimension des phrases traduites
est corrélée, comme c’est le cas avec les langues européennes. Les variations de
proportion résultant par exemple d’une différence de schéma formel et de style –
vers et prose en l’occurrence –, ou de genre littéraire, invitent à la recherche
5. Le projet n’a mis à contribution qu’une des deux rédactions qui ont été dérivées au
XVe siècle du poème.
L’alignement des documents médiévaux
33
d’autres méthodes fondées plutôt sur le contenu des textes, voire sur l’étude de leurs
propriétés linguistiques.
Dans ce dernier cas, le but poursuivi est d’obtenir une meilleure appréhension
des critères de comparaison dont l’alignement se nourrit au niveau des mots ou des
expressions. L’analyse linguistique permet d’associer deux ou plusieurs entités et de
les rattacher à une même base (morphologique, morpho-syntaxique, etc.) ou à deux
syntagmes que l’on suppose unis par une même fonctionnalité ou valence
sémantique, deux unités signifiantes, etc.
La situation des documents médiévaux est sans doute l’une des plus complexes
que l’on puisse imaginer. En effet, la tradition écrite de la période ancienne procède
d’un état de langue dont les traits essentiels sont encore loin d’être fixés par la
grammaire. Les usages du français médiéval ne sont pas stables et évoluent sur tous
les plans avec une beaucoup plus grande rapidité qu’aujourd’hui et avec une grande
imprévisibilité. De plus, cette évolution n’est pas géographiquement uniforme.
Les variantes observées entre deux représentants de la tradition documentaire du
Moyen Âge expriment ainsi un ensemble de faits non seulement linguistiques, mais
aussi géolinguistiques, culturels et historiques. Cette diversité impose d’élargir
l’enquête à tous les niveaux qui concernent l’étude de l’ancien et du moyen français.
Dans l’idéal, l’approche définie au sein du projet MEDIEVAL consisterait donc à
décrire toutes les occurrences des constituants lexicaux du corpus en explicitant
leurs propriétés – grapho-phonétiques et morpho-syntaxiques, mais aussi lexicosémantiques, compte tenu des critères chronologiques et géolinguistiques qui
infléchissent ces propriétés –, de sorte à enrichir les processus de segmentation et
d’alignement, à en améliorer les performances et à permettre une navigation
comparative entre les différents états de textes. L’extension d’une telle démarche
pourrait d’ailleurs aboutir à la création de bases de connaissances du plus haut
intérêt dans les domaines grammaticaux et lexico-sémantique et servir de support à
de nombreux instruments d’analyse.
Les caractéristiques les plus immédiatement saisissables, à savoir
morphologiques (ou morpho-syntaxiques), sont celles qui ont été privilégiées. En
dépit des obstacles qui s’opposent à une formalisation de l’ensemble des règles
nécessaires à décrire la langue médiévale sous ce point de vue, il est aisé de dégager
quelques traits pertinents d’une analyse formelle à l’échelle du mot. Quatre critères
déterminent ainsi les variantes de surface des mots :
– critère orthographique, qui pèse sur les variations dont l’origine ne peut être
imputée à aucune autre cause explicite que l’absence des normes fixes de
transcription dans les textes médiévaux ;
34
DN – 7/2003. Numérisation et patrimoine
– critère grapho-phonétique, dont relèvent les variations issues de l’évolution
des sons de la langue (plan diachronique) ou des combinaisons qui se produisent à
l’intérieur d’une suite de phonèmes (plan synchronique), combinaisons elles-mêmes
liées dans une certaine mesure aux faits syntaxiques ;
– critère analogique, qui concerne les variations engendrées par l’action de
certaines formes sur d’autres, au sein d’un paradigme ou entre deux paradigmes ;
– critère dialectal, soit les variations propres à une aire linguistique donnée.
4.1. MMORPH et l’analyse morphologique
A partir de ce classement, l’analyseur morphologique MMORPH (Petitpierre et
al., 1995) du programme MULTEXT a été mis à profit pour générer une première
base de données lexicales et un ensemble de règles structurelles. MMORPH est un
analyseur qui permet d’obtenir de tels résultats à partir d’un formalisme
grammatical à deux niveaux, équivalant, sur le plan morphologique, à l’analyse
générative transformationnelle classique pour la syntaxe. Le programme établit la
correspondance d’une forme de mot avec l’entrée d’une base de données qui
contient une description morpho-syntaxique de celui-ci.
Cette description unit deux composantes : un type et un ensemble de
caractéristiques exprimées en termes d’attributs-valeurs. Le type décrit en général la
classe ou la catégorie syntaxique, par exemple le nom, le verbe, l’adjectif, etc.
D’autres distinctions plus fines – telles que le temps, le mode ou la personne d’une
forme verbale, etc. – sont apportées par la structure d’attributs-valeurs (par exemple
temps = présent, mode = indicatif, personne = 1, etc.).
La difficulté majeure rencontrée avec MMORPH n’est pas directement liée à ce
programme mais plutôt au formalisme adopté : l’analyse à base de règles. En effet,
le déterminisme multiple et parfois fluctuant, voire insaisissable, qui règne dans la
morphologie de la langue médiévale, le nombre élevé d’ambiguïtés et de cas isolés
rendent très ardu, pour ne pas dire impossible, la conception d’un système exhaustif
de normes qui décrirait toutes les entités et leurs particularités. Un autre des
problèmes constatés lors de cette étape est la surgénération de formes théoriques
plausibles en elles-mêmes mais qui n’existent pas dans le corpus et donc sujettes à
provoquer des confusions ou des analyses erronées. Pour pallier ce risque, le lexique
d’entrée doit parfois être spécifié sous forme d’entrée lexicale directe, ce qui
augmente la complexité et le coût de la tâche.
4.2. La base de données MedievLex
MMORPH n’a donc été employé que pour la génération des formes simples des
verbes, des noms et des adjectifs. Les cas de variations isolées ont été enregistrés
L’alignement des documents médiévaux
35
manuellement. L’enrichissement du lexique avec les autres types de mots a été
réalisé de la même manière à partir d’une extraction automatique du corpus.
Par ailleurs, MMORPH possède une structure de base de type plat. Elle n’opère
donc aucune hypothèse de regroupement des formes qui partagent certaines
communautés, ce qui restreint considérablement les possibilités d’enrichissement à
partir de l’ensemble du lexique, tant à cause des difficultés que l’on rencontre au
niveau de la construction qu’au point de vue de la manipulation des informations. A
l’évidence, il s’avérerait préférable de regrouper par exemple les formes conjuguées
d’un verbe à partir de catégories déterminées – mode, temps, personne, etc. –, ce qui
rendrait l’élaboration moins coûteuse en cas d’introduction manuelle. Il en va de
même pour l’accès, la recherche et pour tous les types de réutilisations
envisageables.
Une des structures capables de remédier (en partie) à ces difficultés est la
disposition hiérarchique des données qui autorise une classification des formes du
général au spécifique et ainsi, une mise en commun de certaines caractéristiques
pour des classes d’entités particulières. Le modèle le plus apte à représenter cette
classification est celui des documents structurés. Le langage de marquage XML
permet de décrire l’agencement hiérarchique de la base lexicale d’une façon
optimale et aisée à construire.
La figure 2 illustre un extrait en XML de la base de données lexicale
MedievLex6 développée au cours de ce travail. L’interface logicielle pour
l’acquisition et la mise à jour des entrées lexicales dans MedievLex est montrée
dans la figure 3.
Figure 2. Entrée lexicale du verbe aorer, « prier » dans la base MedievLex
6. A l’heure actuelle, MedievLex représente 1 236 familles d’entrées lexicales.
36
DN – 7/2003. Numérisation et patrimoine
Figure 3. Interface d’accès à la base de données MedievLex : exemple d’un verbe
5. Alignement multicritère des textes anciens
Afin de décider si deux éléments extraits de textes hétérogènes sont semblables
et dans quelle proportion, il convient de déterminer les méthodes de mesure de
similitude adéquates. La taille des segments comparés ne saurait y suffire, nous
l’avons vu, et l’opération nécessite donc la création d’un espace de caractéristiques
multidimensionnel. A partir d’un ensemble de fonctions heuristiques de
comparaison qu’on appelle fonctions de similitude, dont chacune fournit une
évaluation de la proximité de deux éléments par rapport à un critère donné, la
similitude globale est définie comme une combinaison linéaire pondérée de ces
calculs.
La définition des valeurs sur lesquelles repose la relation d’alignement entre les
éléments de deux textes est donc considérée comme un problème combinatoire où
l’on cherche à établir une mise en correspondance qui maximise la similitude
globale (Ghorbel, 2002). Cette mesure fait intervenir trois paramètres principaux :
lexical, morpho-syntaxique et sémantique.
L’alignement des documents médiévaux
37
5.1. Similitude lexicale : la notion des mots apparentés
Une paire de mots apparentés est formée d’un vocable dans une langue A et
d’un autre vocable dans une langue B analogue au précédent sur le plan formel et
sémantique. Ainsi, thèse en français et thesis en anglais peuvent être considérés
comme des mots apparentés. Quand deux termes ne présentent qu’une similitude
formelle, comme par exemple library (« bibliothèque » en français) et librairie
(« bookshop » en anglais), on les appelle des faux amis.
Plusieurs heuristiques, toutes établies sur le calcul de distance ou de proximité
au niveau graphique, existent pour détecter les mots apparentés. Au nombre des
diverses méthodes connues (Simard et al., 1992 ; McEnery et al., 1995), nous avons
privilégié le rapport que nous appelons Dice_1 (formule 1), variante du rapport de
Dice proposée par (Simard et al., 1992). Tablant sur les monogrammes plutôt que
sur les bigrammes pour calculer la similitude des mots, ce rapport peut aussi être
appliqué à la détection des mots apparentés :
Dice _ 1 =
2*a
length ( w1 ) + length ( w 2 )
[1]
où a représente le nombre de caractères identiques qui se trouvent à la fois dans le
mot w1 et dans w2, et la fonction length exprime la longueur en termes de chaîne de
caractères.
D’une manière générale, les rapports de Dice permettent d’inclure les variations
graphiques et s’adaptent donc bien aux textes médiévaux dans lesquels ces
transformations interviennent surtout de manière locale (permutation de certains
caractères ou groupes de caractères pour des raisons phonétiques, morphosyntaxiques, dialectales ou arbitraires, comme dans les couples accomplir-acomplir,
doinst-doint, enchaint-enceint, repondre-respondre, etc.).
Afin d’améliorer le rappel dans la détection des mots apparentés, nous avons
choisi le rapport de Dice_1 avec un taux de 0.8. Toutefois, la précision s’est avérée
insuffisante. Ce seuil a en effet produit la mise en relation de couples erronés, par
exemple ainsi et sains ; aoure et autre ; beste et estre ; bien et rien ; ceste et cesse ;
chaille et escaille, etc. Avec le seuil de 0.8, la précision de la détection des mots
apparentés entre la version en prose et celle en vers peut être estimée à 80 %.
Pour remédier à ce problème, nous avons augmenté le seuil à 0.82. Cette
élévation a permis d’atteindre une précision de l’ordre de 87 %. En revanche, le
rappel a diminué de 17 % ce qui s’explique par la perte de mots apparentés dont le
rapport de Dice_1 se situe entre 0.8 et 0.82. Pour éviter une déperdition de mots
apparentés faiblement corrélées – moins de 0.82 –, nous avons affiné la méthode
grâce à l’inclusion de quelques règles de transformations relevant des
particularismes grapho-phonétiques, morpho-phonétiques et dialectaux de la langue
38
DN – 7/2003. Numérisation et patrimoine
médiévale ou encore de caractéristiques aléatoires, et susceptibles de s’appliquer à
des contextes simples (figure 4).
1. Le digramme eu alterne en tant que tel avec ou
2. Dans la syllabe finale des substantifs et adjectifs, le digramme eu peut être
suivi de s, x, z, ls, lx, lz et cette combinaison peut se transformer en es, ex, ez,
els, elx, elz
3. Précédé d’une consonne, le graphème i alterne librement avec y en fin de
mot
4. Le t final d’un substantif ou d’un adjectif permute avec s (ou z) en
fonction du cas grammatical
Figure 4. Exemples de règles grapho-phonétiques et morpho-phonétiques pour
affiner la détection des mots apparentés
Le tableau 1 offre un échantillon de l’ensemble des mots apparentés détectés à
partir de la rédaction en vers et de la version en prose qui alimentent le corpus après
application de ces règles. Les colonnes Mot1 et Mot2 correspondent aux mots
apparentés dont le rapport de Dice_1 initial figure dans la colonne Dice_1_A.
Mot1_T représente la transformation du Mot1 qui fournit le meilleur rapport de
Dice_1 (Dice_1_B) avec Mot2.
Mot1
Règles
Mot1_T
Mot2
Dice_1_A
Dice_1_B
ainsy
auctour
3
4
ainsi
acteur
ainsi
aucteur
0.8
0.77
1
0.92
cieulx
1
cielx
ciel
0.8
0.88
saint
2
sains
sains
0.8
1
Tableau 1. Exemples de mots apparentés après application des règles graphiques
La mesure de similitude entre les données textuelles de deux segments est
calculée en fonction de la fréquence relative des mots apparentés qu’ils partagent.
Le rapport de Dice_1 est utilisé pour l’évaluation de cette fréquence. On dénote
cette fonction de similitude par le terme anglais de cognateness.
5.2. Similitude morpho-syntaxique
La fonction de similitude lexicale fondée sur des heuristiques statistiques et sur
l’application de quelques règles graphiques ne permet pas d’établir les
L’alignement des documents médiévaux
39
correspondances susceptibles de se produire entre des segments soumis à une forte
variation linguistique. La réélaboration d’un texte, le passage d’une structure à une
autre ou d’un genre à un autre comme dans le cas de la mise en prose d’un poème
ou de la réécriture en vers à partir de la prose, impliquent toute une série de
transformations qui affectent aussi bien la composition des phrases que le choix du
vocabulaire, fait qui entraîne de plus ou moins grandes divergences sur le plan
lexical et morpho-syntaxique (tableau 2).
Rédaction en vers
Adaptation en prose
Dice_1
0.8
Si com Saincte Eglise vorra / Que je
doy croire ce qu’il croirra
selon Sainte Eglise en qui je croy
Combien que li paien creüssent / Des
Diex et que pluseurs en fussent
car quoy que les payens croyent
pluiseurs dieux
0.62
Car nulle meilleur ne peut estre
car meilleur ne povoit estre
0.4
Ovides en sa commençaille
Ovide en son commencement
0.66
Ci commence le premier livre d’Ovide
Methamorphoses
Comment Ovide au commencement de
ce livre invocque l’ayde divine
0.8
Mais les mutacions des fables / Qui
sont bonnes et profitables / [...]
esclairray / Au plus briefment que je
pourray / [...] / Et maint profiter […]
Mais au plus brief que je pourray je
esclarciray la mutacion des fables
prouffitables au mieulx que possible
me sera
0.66
Et Le tiengne en humilité / Membrer
li doit que de vilté / Soit estrais et creé
de boe
et se tiegne humble et souvenant que
estrais est de vilté
0.71
0.72
Tableau 2. Variation morpho-syntaxique et lexico-sémantique dans les textes
médiévaux
De telles alternances ne peuvent être prises en compte par la fonction de
similitude lexicale. Une comparaison efficace requiert l’intervention de modèles de
transformation morpho-syntaxiques et lexico-sémantiques. La base de données
MedievLex nous a permis d’élaborer d’autres heuristiques de similitude en
considérant tout d’abord les traits « lemme » et « famille ».
5.2.1. Le trait « lemme »
Le trait « lemme » permet de définir une forme canonique pour les entrées
lexicales. Cette forme est représentée par l’infinitif pour les verbes et par le
masculin singulier pour les substantifs – sauf pour les noms essentiellement
féminins –, les adjectifs, les pronoms et les déterminants. Grâce à cette étape de
lemmatisation, il est possible d’établir la correspondance entre les formes
conjuguées des verbes (par exemple, creüssent et croyent) et entre des dérivés
morphologiquement distinct (par exemple, commençaille et commencement).
40
DN – 7/2003. Numérisation et patrimoine
5.2.2. Le trait « famille »
Dans la base MedievLex, le trait « famille » découle de l’origine étymologique
des entrées lexicales. Il procure en outre une forme canonique pour les différentes
catégories syntaxiques dérivées. Grâce à cette nouvelle étape de lemmatisation, plus
abstraite que celle proposée dans le cas précédent, il est possible d’opérer des
recoupements entre les verbes, les substantifs, les adjectifs et les adverbes
partageant la même origine, comme par exemple le verbe profiter et l’adjectif
prouffitables ou encore le substantif humilité et l’adjectif humble. Etant donné
l’importance des transformations entre les différents états des écrits médiévaux,
cette heuristique s’avère très utile.
La similitude morpho-syntaxique des données textuelles de deux segments se
mesure d’après la fréquence relative des formes linguistiques canoniques – lemmes
et familles – qu’ils partagent. Le rapport de Dice_1 est à nouveau utilisé comme
heuristique statistique pour la mesure de cette fréquence. On dénote cette fonction
de similitude par le terme d’allomorphism.
5.3. Similitude sémantique
Outre les correspondances morpho-syntaxiques et lexicales qu’ils manifestent,
les textes médiévaux révèlent d’autres types d’affinités, notamment sur le plan de la
signification des mots et des expressions employées. En effet, si la retransmission
des œuvres par voie de copie aussi bien que leur réécriture (sous forme de mises en
prose par exemple, ou lors de changements de structure poétique, de catégorie
littéraire, de modernisations, etc.) peuvent entraîner des modifications considérables
à l’échelle macroscopique – déformations, interpolations, remaniements, suppressions,
volontaires ou non –, elle garantit en principe une certaine adéquation entre deux
retranscriptions ou entre deux rédactions au point de vue du contenu général et du
sens global, au moins pour des parties du texte qui couvrent une certaine étendue.
Sous l’aspect lexico-sémantique, les mots peuvent être remplacés par des
synonymes, par des syntagmes équivalents ou par des termes ou des expressions
destinés à « rajeunir » les textes en remplaçant les vocables ressentis comme
archaïques par de nouveaux lexèmes ou des formules plus récentes ; les tournures
font place à d’autres tournures sémantiquement conformes, etc. Afin de déterminer
l’adéquation entre ces éléments, d’autres méthodes de comparaison sont nécessaires.
Les ressemblances que l’on constate entre la structure sémantique du lexique
médiéval et moderne du français invitent à compléter la base lexicale MedievLex au
moyen d’un lien vers la langue contemporaine. Ce lien de redirection (le trait
« sens » dans la base) indique la traduction des entrées en français actuel. La mise
en regard des mots devient par conséquent une comparaison des synsets de leurs
traductions dans WordNet (Fellbaum, 1998). Deux termes ou syntagmes de la
langue médiévale, comme les futurs esclairray et esclarciray, ou le verbe
impersonnel membrer et la construction estre – ou, dans le cas précis, se tenir –
L’alignement des documents médiévaux
41
souvenant, « garder en mémoire » dans les deux cas, ou deux usages particuliers
d’un vocable pour les termes polysémiques, sont considérés comme synonymes si
leurs équivalents en français moderne appartiennent au même synset. Le résultat est
bien sûr déterminé de façon prépondérante par la qualité des traductions.
La similitude sémantique de deux segments se mesure en fonction de la
fréquence relative des analogies sémantiques qu’ils partagent. Le rapport de Dice_1
est à nouveau employé comme heuristique statistique pour la mesure de cette
fréquence. On dénote cette fonction de similitude par le terme synonymy.
5.4. Fonction de similitude linguistique
Après avoir calculé trois fonctions de similitude différentes, lexicale, morphosyntaxique et sémantique, il ne reste plus qu’à les combiner pour en déduire une
première fonction de similitude (fonction de similitude linguistique d’ordre 1). La
combinaison choisie est une combinaison linéaire où les coefficients (c1, c2 et c3)
évaluent l’importance ou la confiance attribuée aux fonctions de similitude
(cognatness, allmorphism et synonymy).
g 1 = c1 * cognatness + c 2 * allomorphism + c 3 * synonymy
L’ordre des mots est également un critère important dans le processus de
comparaison. Une suite de n (n = 2) mots similaires dans deux segments constitue
un indicateur précieux pour leur mise en correspondance.
Nous proposons ainsi d’autres fonctions de similitudes (d’ordre n) gn qui
reposent sur un modèle n-gram de suites de mots linguistiquement semblables. Un
n-gram est une suite de n mots ( m kS ,..., m kS+ n ) dans le segment textuel S qui
expriment des relations de similitude linguistique – mots apparentés, mots morphosyntaxiquement proches ou synonymes – avec ( m Dp ,..., m Dp + n ) dans le segment
textuel D, c’est-à-dire que m kS est similaire à m Dp , m kS+1 est similaire à m Dp+1 et ainsi
de suite jusqu’à m kS+ n et m Dp + n . La suite Quant Dieu ordeneement est par exemple
similaire à Quant Dieu eut ordonné si l’on applique à ces segments un modèle de
trigramme en ne considérant que les mots d’une taille supérieure à 3 caractères. La
méthode fait apparaître les couples suivants, compte tenu du taux de confiance qui
peut être accordé à chaque paire : (Quant, Quant, c1) ; (Dieu, Dieu, c1) ;
(ordeneement, ordonné, c2). Le poids de ce n-gram Cn (n = 3 mots) est égal au
produit des ci qui correspondent à chaque couple de mots similaires, c’est-à-dire
Cn = c1*c1*c2. Avec ce modèle, il est possible de calculer la fréquence des n-grams
similaires (n ≥ 2) dans les segments en appliquant le rapport de Dice_n comme suit :
42
DN – 7/2003. Numérisation et patrimoine
g n (S , D) =
2 * ∑ Cn
l1 + l 2 − 2( n − 1)
[2]
où ∑ C n correspond à la somme des taux de confiance des n-grams trouvés
entre les segments textuels S et D.
En dernière analyse, la fonction de similitude f fondée sur les traits linguistiques
énoncés au début de cette section représente une combinaison linéaire des n
fonctions de similitude de n-gram entre les éléments des documents S et D. f s’écrit
alors sous la forme :
f = ∑in=1 µi gi
où µi est le poids des modèles i-gramme et les gi tels que (i ≤ n) sont calculés
selon la formule (2). Dans notre modèle de comparaison, nous nous limitons à
l’ordre 3, c’est-à-dire n = 3.
6. Résultats et évaluations
Les expériences d’alignement que nous décrivons ont été effectuées avec
l’aligneur automatique MultAlign (Ghorbel et al., 2002), développé au sein de ce
projet. La version en prose comporte respectivement 1 850 et 1 690 mots (prologue
et début du Livre I dans les limites de l’extrait choisi), celle en vers, 2 950 et
2 330 mots (idem).
Les médiévistes engagés dans la recherche ont élaboré l’alignement de référence
du corpus de manière empirique. Un modèle de segmentation adéquat7 a permis de
se limiter à un modèle de substitution8 de (4 : 4). Les inversions ne sont pas
considérées comme telles. En allongeant la fenêtre du modèle, elles peuvent être
traitées comme des substitutions.
Les métriques d’évaluation utilisées sont celles proposées par (Isabelle et al.,
1996) et révisées dans le cadre du projet ARCADE (Langlais et al., 1999 ; Véronis
2000). L’idée principale est d’utiliser les notions de rappel et de précision
employées dans le domaine de la recherche de l’information pour situer un
alignement généré automatiquement par rapport à un alignement de référence.
7. Un segmenteur automatique a été développé dans ce projet (Ghorbel, 2002).
8. Un modèle de substitution du type (M : N) permet de mettre en relation d’alignement
M parties du texte source avec N parties du texte cible.
L’alignement des documents médiévaux
Modèle
de substitution
Rappel ( % )
Précision ( % )
43
F_mesure ( % )
2:2
56.7
74
64.2
4:4
71.2
76.2
73.6
Tableau 3. Evaluation de l’alignement prose-vers avec l’utilisation des critères
linguistiques
Comme on le constate sur le tableau 3, l’intervention dans l’alignement des
critères linguistiques – avec une pondération convenable – donne de meilleurs
résultats en termes de rappel et de précision avec un modèle de substitution de 4 : 4
qu’avec un modèle de 2 : 2. Ceci est principalement dû à l’hétérogénéité des
documents soumis à l’alignement.
Dans ces expériences d’alignement9, l’emploi du critère linguistique permet
d’obtenir un taux de F-mesure de l’ordre de 70 %. Ces performances pourraient être
améliorées grâce à un accroissement des ressources linguistiques (telles que la base
de données lexicales MedievLex et la base de données terminologiques ou
l’interface de WordNet en français), afin de favoriser la détection de similitudes
morpho-syntaxiques et sémantiques.
7. Conclusions
L’objectif premier de MEDIEVAL est de créer un environnement de
comparaison des œuvres anciennes et de permettre aux spécialistes et aux
chercheurs sur le Moyen Age vernaculaire de procéder à des études comparatives
sur la nature et sur les propriétés philologiques et linguistiques des écrits du XIIe au
XVIe siècle.
Cette interface éditoriale vise donc à faciliter la collation des textes tant au
niveau macroscopique que microscopique.
Au point de vue macroscopique et, en particulier, de la structure exégétique des
écrits, MEDIEVAL offre la possibilité d’enrichir les transcriptions par des
expertises et par les annotations des philologues. Ceci est rendu possible, d’une part
avec l’affichage des textes en versions originales ou reconstituées artificiellement,
d’autre part, grâce à la navigation entre ces différentes représentations.
9. D’autres expériences ont été effectuées avec les textes modernes (extraits du Recueil
systématique du droit fédéral suisse rédigé dans les trois langues nationales : français,
allemand et italien). Ces expériences ont donné d’excellents résultats (Ghorbel, 2002).
44
DN – 7/2003. Numérisation et patrimoine
Au point de vue microscopique, l’éditeur permet de visualiser l’alignement
automatique des éléments mis en correspondance. Cependant, les techniques
classiques d’alignement, en particulier les méthodes statistiques appliquées aux
textes multilingues, ne réussissent pas à vaincre la complexité de certaines
transformations dont les œuvres médiévales nous offrent le témoignage. Pour
obtenir une juxtaposition adéquate lors de conversions, de réécritures comme dans
le cas d’un dérimage ou d’une mise en prose par exemple, ou d’interprétations, il y
a lieu d’envisager des approches linguistiques, différentes de celles employées pour
de simples traductions.
Applicable sur d’autres terrains d’analyse, MEDIEVAL concerne très
directement aussi le domaine pédagogique et éducatif, cet outil ayant pour but de
permettre à des étudiants de découvrir la réalité matérielle et linguistique des textes
anciens par leur comparaison et des recherches automatiques, de faciliter la
compréhension des mécanismes de variation en offrant des exemples pratiques de
phrases et de conversions morpho-syntaxiques, de transformations sur le plan
lexico-sémantique, stylistique, argumentatif ou encore, de vérifier les incidences
liées à l’époque ou à la provenance du texte, etc.
Dans le prolongement de cette entreprise, on peut enfin signaler le travail en
cours de réalisation de Y. Foehr-Janssens, de l’Université de Genève, qui devrait
bientôt aboutir à la publication grâce à MEDIEVAL de l’ensemble des adaptations
françaises de la Disciplina clericalis de Pierre Alphonse, texte didactique latin du
XIIe siècle de nombreuses fois traduit au Moyen Âge et dont trois rédactions ont vu
le jour dans notre langue aux XIIIe-XIVe siècles.
8. Bibliographie
André J., Chabin M.-A., « Les documents anciens », Document numérique, vol. 3 n° Spécial
1-2, 1999. Paris: Hermes Science Publications.
Ballim A., Coray G., Linden A., Vanoirbeek C., « The use of automatic alignment on
structured multilingual documents », Proceedings of the Seventh International
Conference on Electronic Publishing, 1998, Saint-Malo, p. 464-475.
Brown P., Lai J., Mercer R., « Aligning sentences in parallel corpora », Proceedings of the
29th Annual Meeting of the Association for Computational Linguistics, 1991, Berkeley,
California, p. 169-176.
Catizone R., Russell G., Warwick S., « Deriving translation data from bilingual texts »,
Zernik U. (Ed.), Proceedings of the first Lexical Acquisition Workshop, 1989, Detroit,
Michigan.
Dagan I., « Bilingual word alignment and lexicon construction », Tutorial Notes of the 34th
Annual meeting of the Association for Computational Linguistic, 1996, California.
Fellbaum C., WordNet, An Electronic Lexical Database, The MIT Press, 1998.
L’alignement des documents médiévaux
45
Gale W., Church K., « A program for aligning sentences in bilingual corpora », Proceedings
of the 29th Annual Meeting of the Association for Computational Linguistics, 1991,
Berkley, California, p. 177-184.
Ghorbel H., Coray G., Linden A., « SAM : System for Multi-criteria Text Alignment »,
Proceedings of the International Conference On language Ressources and Evaluation
LREC 2002, 2002, Las Palmas, p. 404-410.
Ghorbel H., Alignement Multicritère des Textes : Critères linguistiques et structurels
appliqués aux documents médiévaux. Thèse de doctorat en Informatique n° 2609, Ecole
polytechnique fédérale de Lausanne, 2002.
Isabelle P., Simard M., Propositions pour la représentation et l’évaluation des alignements de
textes parallèles, Rapport technique, 1996, Centre d’innovation en technologies
d’information Industrie et Sciences, Canada.
Langlais P., Simard M., Véronis J., ARCADE Methods and Practical Issues in Evaluating
Alignment Techniques, rapport de recherche, 1999, Université d’Aix-en-Provence.
McEnery A., Oakes P., « Cognate extraction in the Crater project », Proceedings of the
EACL-SIGDAT workshop, 1995, Dublin, p. 77-86.
Owen C. B., « Parallel Text Alignment », Proceedings of the Second European Conference
for Digital Libraries ECDL’98, 1998, Heraklion, p. 235-259.
Petitpierre D., Russell G., MMORPH- The Multext Morphological Program Version 2.3,
Technical Report, 1995, ISSCO.
Simard M., Foster G., Isabelle P., « Using cognates to align sentences in bilingual corpora »,
Proceedings of the Fourth International Conference on Theoretical and Methodological
Issues in Machine Translation, 1992, Montreal, p. 67-81.
Véronis J., Parallel Text Processing : Alignment and Use of translation Corpora, Dordrecht,
Boston, London, Kluwer Academic Publishers, 2000.
Véronis J., « Evaluation of parallel text alignment systems. The ARCADE project », Véronis
J. (Ed.), Parallel Text Processing, 2000, Dordrecht, Boston, London, Kluwer Academic
Publishers, p. 369-388.