Academia.eduAcademia.edu

RefLex: la reconstruction sans peine

2016, Faits de Langues

RefLex : la reconstruction sans peine Guillaume Segerer* INTRODUCTION Cet article se propose de décrire le fonctionnement d’un module d’aide à la reconstruction phonologique et lexicale. Ce module est intégré au site web d’exposition et d’exploitation de RefLex (www.reflex.cnrs.fr), projet dont l’auteur de ces lignes est à l’initiative et qui s’articule autour d’une base de données lexicales sur les langues d’Afrique. Par conséquent, les exemples concrets cités ci-dessous sont empruntés aux langues africaines, mais l’ensemble d’outils dont il va être question peut être utilisé pour n’importe quel ensemble de langues. Je présenterai d’abord le projet RefLex dans son ensemble, puis je décrirai avec davantage de détails le module d’aide à la reconstruction (que l’on a tendance à appeler plus brièvement ‘module de reconstruction’ bien que la machine ne prenne pratiquement aucune décision). Ce module est, et sera encore probablement longtemps, en cours de perfectionnement. Certaines des caractéristiques décrites ici sont appelées à évoluer rapidement pour offrir encore plus de confort d’utilisation, et l’utilisateur qui voudrait jouer à reconstruire après la lecture de ce texte trouvera très certainement des fonctionnalités nouvelles. Je tenterai ici d’évoquer les nouveautés en cours de développement. 1. REFLEX : PRÉSENTATION GÉNÉRALE 1.1. Les principes RefLex est un projet combinant une base de données lexicales sur les langues d’Afrique, des outils de traitement et un site internet pour l’accès aux données et aux outils1. Le projet a réellement démarré en 2010, grâce à un financement de * LLACAN-Sorbonne Paris Cité-INALCO – CNRS. Courriel : guillaume.segerer@ cnrs.fr. Ce travail est lié au programme "Investissements d’Avenir" géré par l'Agence Nationale de la Recherche ANR-10-LABX-0083 (Labex EFL). Avertissement : Cet article décrit une application en ligne, et par conséquent contient inévitablement des images ou ‘captures d’écran’ dont les couleurs peuvent être difficiles à discerner dans une version en niveaux de gris. Ces images ne peuvent donc fournir qu’une illustration approximative du contenu de l’écran. Le lecteur est donc encouragé à consulter le site original. 1 Le développement a été assuré par Sébastien Flavier, ingénieur d’études au laboratoire DDL (Lyon), partenaire du projet Downloaded from Brill.com11/05/2021 12:22:31AM via free access 202 Guillaume Segerer l’ANR. Le financement a pris fin en 2015 mais le projet reste un des axes forts du programme de recherche du laboratoire LLACAN. Ce projet est unique car il associe plusieurs principes qui font généralement défaut dans les bases de données lexicales en ligne : - il s’agit véritablement d’un lexique de référence, dans la mesure où les données consultables sont liées à des images numériques des sources originales dont elles proviennent. C’est cette caractéristique unique qui a donné son nom au projet (RefLex : Reference Lexicon). Ainsi par exemple, pour la première fois, les mesures lexicostatistiques (un des exercices favoris de la linguistique comparative des langues africaines) deviennent intégralement reproductibles, et les choix concernant les ressemblances lexicales peuvent être discutés. - Beaucoup des manipulations que l’on peut souhaiter faire sur les données sont réalisables en ligne : recherches sur critères complexes, comptages divers, statistiques combinatoires (voir K. Pozdniakov, ce volume), représentation cartographique des données, et surtout assistance à la reconstruction, module qui fait l’objet de cet article. 1.2. Les données : langues Pour associer des données lexicales à une langue, il est nécessaire de disposer d’un inventaire des langues d’Afrique. Plusieurs inventaires existent actuellement, les deux principaux étant le catalogue correspondant à la norme iso 639-3, disponible sur le site www.ethnologue.com, et celui de l’institut Max Planck de Leipzig, récemment publié (http://glottolog.org/). Ces deux catalogues visent non seulement à inventorier toutes les langues du monde, mais en proposent en outre une classification généalogique. Les deux classifications sont assez différentes, celle de Glottolog étant beaucoup plus prudente (autrement dit, elle comporte davantage de familles). Notre catalogue (disponible à http://reflex.cnrs.fr/Lexiques/webcal/index.html) est différent des deux catalogues cités ci-dessus. Du fait de la présence au LLACAN de spécialistes reconnus de plusieurs familles de langues africaines, il est plus détaillé pour certaines zones géographiques, notamment l’Afrique centrale, la région SénégalGuinées, certaines parties du Nigeria. En septembre 2015, il recense 2441 langues. 1.3. Les données : sources Comme RefLex fournit des données lexicales provenant de documents publiés (pour la grande majorité, mais voir ci-dessous), avec accès aux documents d’origine, chaque lexique, en plus d’être associé à une langue, est associé à un document. Cette combinaison d’une référence linguistique et d’une référence bibliographique est appelée source dans RefLex, ce qui correspond en partie au concept de doculect2 introduit par Jeff Good en 2006. Par exemple, le document dont l’identifiant est 18737 est un document de Keith Snider publié au Ghana en 1989 et contenant des listes lexicales pour 5 langues du groupe Kwa, auxquelles 2 Cf. http://www.glottopedia.org/index.php/Doculect Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine 203 correspondent donc autant de sources dans RefLex. Inversement, la langue joola karon (Atlantique) est représentée dans RefLex par 4 documents : Barry 1987, Carlton & Rand 1994, Sambou 2007 et Wilson 2007, ce qui fait donc 4 sources. Une source de RefLex n’est pas la combinaison unique d’une langue et d’une référence bibliographique. En effet, lorsqu’un document contient des informations à propos de variantes dialectales, il n’est pas toujours facile de décider si ces variantes doivent avoir le statut de langue. Par exemple, Fresco 1970 (réf. 6910) fournit des listes lexicales pour le yoruba commun ainsi que pour 7 variétés dialectales de yoruba. Ces 8 sources sont toutes la combinaison de la référence n° 6910 (Fresco 1970) et de la langue n° 835 (yoruba). Actuellement (juin 2016), le nombre de sources dans RefLex est de 1164 et correspond à 705 langues. 1.4. Les données : lexiques Toutes les données lexicales des langues d’Afrique ont par nature vocation à être intégrées à RefLex. Pour des raisons pratiques cependant, certaines critères peuvent influer sur le choix des données à importer en priorité : - Les données publiées sont préférées aux données brutes, pour des questions de stabilité. Cependant, dans certains cas, notamment lorsqu’il s’agit de données de première main concernant des langues peu ou pas documentées, des données non publiées peuvent être incluses dans RefLex. - Les données déjà numérisées (en partie ou en totalité), ou celles déjà saisies sont évidemment plus faciles à intégrer. - Les données qui font l’objet d’un travail de recherche particulier sont également prioritaires. Le projet ANR RefLex comportait des tâches précises et impliquait une vingtaine de chercheurs. Nous avons donc mis l’accent sur les données concernées par ces tâches. La taille des lexiques est très variable. Les plus petits ont quelques dizaines d’entrées, les 3 plus importants on plus de 20000 entrées chacun (il s’agit du bambara, du peul du Maasina et du sereer). Leur structure est également très variable et va de la simple liste de mots au dictionnaire complexe. Certaines informations, comme les exemples d’illustrations, ne sont pas reprises dans RefLex. En revanche, les formes citées dans les sources servent de base pour extraire de l’information nouvelle : schème tonal, schème syllabique, code phonétique. Ces informations vont permettre d’effectuer des recherches et des tris qui peuvent se révéler très utiles lors de la recherche de cognats. Par ailleurs, les deux champs indispensables que sont la forme et le sens font l’objet de procédures d’harmonisation. Pour la forme, il s’agit surtout d’unifier les transcriptions de façon à pouvoir facilement repérer des formes semblables. En effet, selon les époques, les traditions linguistiques ou orthographiques, la langue de l’auteur ou la langue cible de la traduction, les transcriptions sont extrêmement variables. En ce qui concerne le sens, deux champs sont réservés à des interprétations simplifiées (respectivement en français et en anglais) de la traduction originale. Comme pour les formes, cette simplification sert à ce que lors des recherches et des tris, des sens semblables soient affichés ensemble. Par Downloaded from Brill.com11/05/2021 12:22:31AM via free access 204 Guillaume Segerer exemple, il n’est pas rare que le même mot désigne à la fois ‘le bras’ et ‘la main’. Mais suivant les cas, les traductions proposées peuvent présenter des variations, même mineures, pouvant rendre plus difficile la comparaison : ‘bras, main’ ; ‘main, bras’ ; ‘le bras, la main’, ‘hand, arm’, ‘arm, hand’, etc. Une recherche sur le terme ‘bras’ par exemple ne renverra pas les mots dont la traduction originale est en anglais ; les définitions commençant par ‘main’ seront affichées loin de celles commençant par ‘bras’, etc. On a donc jugé utile d’ajouter, à côté de la traduction d’origine, deux champs (en français et en anglais) contenant une version relativement standardisée de cette traduction Bien sûr, la simplification de la traduction est beaucoup plus complexe que la simplification de la transcription, et il subsiste dans RefLex de nombreuses irrégularités. Mais le principe même, malgré un énorme coût en temps de préparation, s’est montré très efficace. Au mois de juin 2015, le nombre des entrées lexicales dans RefLex a dépassé le million. 1.5. Les outils Outre le module d’aide à la reconstruction présenté ci-dessous, RefLex propose un module statistique et un module cartographique. - Le module statistique permet de réaliser toutes sortes de comptages et d’afficher les résultats sous différentes formes, dont des tables de contingences pour les statistiques dites ‘combinatoires’ et les statistiques dites ‘croisées’. Les statistiques combinatoires comptent des combinaisons à l’intérieur d’un champ unique. Typiquement, on les utilise pour explorer les combinaisons de phonèmes et/ou de tons dans les langues. Les statistiques ‘croisées’ permettent d’évaluer la dépendance entre le contenu de deux champs, par exemple la structure syllabique et les parties du discours. L’obtention de ces statistiques et leur exploitation scientifique sont évoqués dans ce volume (KP, réf ?). - Le module cartographique affiche le résultat d’une recherche sur une carte d’Afrique, chaque langue étant représentée par un point. Il s’agit d’un véritable module, et non d’une simple fonction, car les cartes ainsi obtenues peuvent être modifiées par l’utilisateur, par exemple pour afficher certaines informations (formes, sens, nom de langue) ou pour modifier certains paramètres (forme et couleur des points, ajout de données, etc.). Ces deux modules peuvent être utilisés indépendamment de la base de données, ce qui n’est pas le cas du module de reconstruction. 2. LE MODULE D’AIDE À LA RECONSTRUCTION La puissance de calcul de l’ordinateur peut être d’une aide précieuse dans les tâches fastidieuses de la reconstruction phonologique et lexicale. Cependant, aucune des diverses tentatives pour remplacer complétement l’esprit humain dans cette entreprise n’ont donné de résultats convaincants. Qu’il s’agisse de rechercher automatiquement des cognats potentiels, ou d’aligner correctement les segments au sein des séries lexicales, l’algorithmique n’est pas pour l’instant Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine 205 en mesure de fournir des réponses correctes à tous les pièges que posent les langues naturelles. En revanche, les capacités de l’ordinateur à trier, stocker, retrouver, organiser l’information peuvent être utilisées pour soulager le linguiste et lui apporter un maximum de confort de travail. C’est dans cet esprit qu’a été conçu le module d’aide à la reconstruction de RefLex. D’une manière générale, l’utilisateur de RefLex manipule des objets. Ces objets peuvent avoir une existence préalable (les sources, les fiches lexicales) ou être créés par l’utilisateur. Le premier objet qu’il est nécessaire de créer pour utiliser le module de reconstruction est le dataset. Il s’agit de l’ensemble de sources au sein duquel se fera la recherche de cognats (cet anglicisme désigne une série lexicale dont les éléments sont supposés descendre d’un étymon commun)3. L’intérêt de travailler sur un nombre réduit de sources découle de la nature même de RefLex, qui a pour vocation à accueillir toutes les données disponibles, indépendamment de leur qualité. Dans le cadre d’un travail de reconstruction, il est important de ne sélectionner que les sources les plus dignes de confiance, lorsque le choix existe. A partir du dataset, l’objectif est de créer des cognats, ou cognate-sets (voir cidessus). La méthode la plus simple est de lancer une recherche à l’aide de l’interface appropriée : Par défaut, la recherche porte sur tous les champs dédiés au sens : la traduction d’origine, mais aussi les champs de traduction simplifiée en français et en anglais. Il est bien sûr possible de lancer une recherche sur un autre champ, comme il est possible de sélectionner certaines sources seulement, ou de combiner plusieurs critères de recherche. D’autres fonctionnalités (expressions régulières, exclusion) rendent l’outil de recherche extrêmement puissant. L’affichage des résultats se fait sur la zone centrale de l’espace, sans que ne disparaisse l’interface de recherche. Par défaut, seuls quelques champs sont 3 Il importe dès à présent de signaler que beaucoup des objets de RefLex peuvent être partagés entre plusieurs utilisateurs. Le partage d’un objet implique le partage des objets qui en dépendent, ce qui permet un véritable travail collaboratif. Downloaded from Brill.com11/05/2021 12:22:31AM via free access 206 Guillaume Segerer affichés et l’ordre des fiches suit l’ordre des sources. Ce dernier peut sembler arbitraire puisqu’il dépend directement de l’ordre dans lequel les sources ont été créées dans la base de données. En outre, chaque source est repérée par une couleur spécifique, ce qui s’avère extrêmement pratique lorsque l’on est appelé à travailler un certain temps sur un dataset. Ces deux caractéristiques, l’ordre des sources et leur couleur, sont personnalisables. On peut ainsi afficher par défaut les sources dans un certain ordre et avec certaines couleurs, par exemple en fonction des regroupements généalogiques présumés au sein du dataset. Cette possibilité peut sembler anodine, mais elle fait gagner un temps précieux. C’est même ce type de fonctionnalité ‘de confort’ qui est au centre de la philosophie de RefLex. Une fois les résultats affichés, l’utilisateur va souhaiter en sélectionner certains, qu’il estime constituer un ensemble de réflexes d’un étymon supposé. La sélection se fait de manière très intuitive, et les fiches sélectionnées sont affichées dans la partie supérieure de l’écran. Cet ensemble de fiche peut alors être sauvegardé : il s’agit d’un cognate-set. Voici à quoi ressemble le cognate-set ‘crocodile’ créé par moi-même sur le dataset ‘atlantique_base’: A ce stade, il s’agit d’une simple hypothèse sur le fait que tous ces termes ont une origine étymologique commune. Parmi les arguments susceptibles de renforcer cette hypothèse, il y a le fait que les correspondances phonétiques au sein de cet ensemble appartiennent à des séries relativement régulières. Il convient donc de procéder à l’alignement des formes pour que les segments en correspondance soient affichés les uns sous les autres. Les séries ainsi formées vont alors apparaître en colonnes, et chacune de ces colonnes pourra être nommée. Voici par exemple l’alignement que j’ai créé pour le cognate-set ‘crocodile’ : Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine 207 On voit que je n’ai pas souhaité nommer toutes les colonnes. En effet, les langues du groupe Atlantique, dont il s’agit ici, sont toutes des langues à classes nominales présentant une morphologie souvent complexe. J’ai donc surtout cherché à aligner les segments appartenant à la racine lexicale, et la position des autres éléments dans le tableau est plus ou moins arbitraire. On voit également que certaines cases du tableau contiennent plus d’un segment, d’autres contiennent l’élément Ø, et certaines cases vides sont insérées à l’intérieur d’un mot. Ces propriétés du sous-module d’alignement permettent de gérer facilement les digraphes, les fusions et les délétions. Toutefois, ce type de tableau ne permet pas pour l’instant de gérer efficacement les métathèses. Les boutons situés en bas à droite du tableau permettent de nommer les correspondances automatiquement (selon certains critères, qu’il n’est pas nécessaire de détailler ici). Les deux dernières lignes du tableau permettent de donner respectivement un nom et une étiquette à chaque colonne. Seules les colonnes dans lesquelles figure plus d’un élément peuvent être nommées. Le nom est laissé au libre choix de l’utilisateur. L’étiquette est contrainte, et sert à identifier la position au sein du mot, ou d’autres caractères utiles facilement représentables par des symboles4. Dans l’exemple ci-dessus, les symboles C1, V1 et C2 ont été utilisés pour 4 La liste peut en fait être modifiée par l’utilisateur. Downloaded from Brill.com11/05/2021 12:22:31AM via free access 208 Guillaume Segerer indiquer respectivement la première consonne, la première voyelle et la deuxième consonne de la base lexicale. A gauche de la partie basse du tableau figurent deux cellules : la première contient un bouton ‘search’, qui permet de chercher parmi les correspondances déjà nommées celles qui sont le plus compatibles avec les correspondances du tableau. La seconde contient une pseudo-reconstruction, élaborée en concaténant les noms des correspondances précédés de ‘*’. Les correspondances non nommées sont remplacées par ‘_’, celles non précédées de ‘*’ sont remplacées par ‘@’. Cette information sera reprise lors de l’affichage en tableau de la liste de toutes les correspondances. Le choix d’un symbole ‘neutre’ (le signe @) pour représenter une correspondance dont le nom n’est pas précédé de * découle du principe suivant : le nom qui est donné à une correspondance est considéré comme une simple hypothèse tant qu’il n’est pas précédé de *, et ne peut donc être utilisé pour une reconstruction. Ce parti pris est destiné à favoriser les ‘bonnes pratiques’, parmi lesquelles on trouve aussi le fait qu’il n’est pas souhaitable de faire figurer plus d’un mot par source dans un alignement, ou d’utiliser la même fiche dans plus d’un cognate-set. Ces règles ne sont pas imposées par le programme, mais l’interface est conçue pour faciliter leur respect. Ainsi, lors d’une recherche au sein d’un dataset, les fiches qui appartiennent déjà à un cognate-set vont apparaître sur un fond gris, avec à droite le nom du cognate-set auquel la fiche appartient. Ce nom est surligné en rose si la fiche est présente dans plus d’un cognate-set (y compris si ces cognate-sets appartiennent à des utilisateurs différents) : La recherche de cognats, surtout au début, se fait principalement à partir du sens. On sait que la probabilité de trouver des formes apparentées est plus grande pour les termes du vocabulaire de base. Mais RefLex offre des possibilités pour étendre la recherche dans plusieurs directions. On peut par exemple, une fois qu’un cognate-set est défini, chercher à l’étendre en recherchant des formes proches, à l’aide du champ COD (phonetic code). Il s’agit d’une variante très simplifiée de la forme d’origine5, dans laquelle chaque phonème est remplacé par une lettre majuscule représentant la classe de sons correspondante. Ainsi, la lettre B représente toutes les consonnes labiales sonores, soit b, v, m, w, ɓ, β par exemple. Cette simplification permet non seulement d’effectuer très simplement des recherches qui autrement demanderaient l’écriture de fastidieuses formules 5 Lorsque la morphologie de la langue est connue, on utilise de préférence la base lexicale au lieu de la forme complète. Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine 209 (des expressions régulières, lesquelles sont également permises bien sûr), mais offre aussi et surtout la possibilité de trier les résultats d’une manière qui fasse apparaître ensemble les formes non identiques mais proches. Il est alors beaucoup plus facile de repérer des termes apparentés qui ou bien n’auraient pas été traduits de la même façon dans les différentes sources, ou bien auraient des sens proches mais non similaires. C’est ainsi que le terme kùmbá (‘hippopotame’ dans la langue baga mboteni de Guinée) a pu être rapproché d’une racine signifiant ‘porc’ dans de nombreuses langues de la région (sud Sénégal / Guinées) : Lorsqu’un cognate-set semble raisonnablement valide, on peut procéder à son alignement pour établir les séries de correspondances (voir ci-dessus). Une fois que l’on dispose d’un certain nombre d’alignements, il est possible de rechercher des régularités. Cette recherche n’est pas automatique mais est facilitée par les nombreuses options d’affichage des correspondances. Il est notamment possible de rechercher les occurrences d’un symbole particulier dans un contexte donné, pour une source donnée. Le tableau des résultats permet de visualiser directement les irrégularités, ce qui peut conduire à modifier les cognate-sets en conséquence. Dans l’exemple suivant, extrait d’un dataset contenant 14 sources sur les langues du groupe Joola (Niger-Congo, Atlantique), on a sélectionné les séries de correspondances nommées {*f}, triés sur la source joola banjal. On voit immédiatement que certaines sources ont un f où d’autres ont un h, qu’il existe quelques exceptions, et que le joola Banjal présente assez régulièrement des réalisations géminées lorsque la voyelle reconstruite est longue : Downloaded from Brill.com11/05/2021 12:22:31AM via free access 210 Guillaume Segerer Le tableau peut être trié sur chacune des colonnes, par un clic sur son en-tête. En cliquant sur le nom d’un cognate-set à gauche, on peut éditer celui-ci, et modifier l’alignement ou le nom des correspondances. Il serait évidemment très utile d’obtenir automatiquement l’inventaire des correspondances les plus régulières, et cette option est actuellement à l’étude. Mais cette automatisation n’aura pas que des conséquences positives, dans la mesure où les séries les plus triviales seront favorisées, risquant de masquer des correspondances plus exotiques. Dans certain cas en effet, une correspondance unique peut être extrêmement convaincante et influer sur la recherche des cognats et la découverte d’autres correspondances du même type, comme va le montrer l’exemple suivant, tiré de notre travail sur les langues atlantiques : Dans ces langues, le mot pour ‘œil’ est extrêmement stable, ce qui signifie que presque toutes les langues documentées présentent une racine lexicale semblable. Voici la plupart de ces formes, dont on a isolé la consonne finale pour faire apparaître la correspondance6 : LANGUE Bijogo-kagbaaga Joola fogny Joola kasa Joola banjal Joola kwaatay Karon Bayot Manjaku bok Manjaku de Bassarel Pepel Mancagne Balante ganja Balante fraasɛ Balante kentohe Gubaher Baynunk guñaamolo Cobiana Casanga Basari Tanda Bedik Bapen Konyagi Biafada Badiaranke Palor Saafi Noon Laala Wolof SOURCE Segerer 2002 Sapir 1970 Wintz 1909 Bassène 2006 Payne 1992 Sambou 2007 Diagne 2009 Doneux 1975 Buis 1990 Ndao 2010 Trifkovic 1969 Creissels & Biaye 2015 Wilson 2008 Doneux & al 1984 Cobbinah 2013 Bao Diop 2013 Wilson 2008 Wilson 2008 Ferry 1991 Wilson 2008 Ferry 1991 Ferry 2006 Santos 1996 Wilson (p.c.) Meyer 2001 dʼAlton 1987 Mbodj 1983 Williams & Williams 1993 Pichl 1981 Fal, Santos & Doneux 1990 ‘OEIL’ nɛ / ŋɛ cil jikiɬ ~ jikill / kuji-cil dɩkɩn nikin sio kəs pəkəs kil kəʃ f-gít / g-gít f-kit / k fkit / kkit sijil si-gil / i-gil si-ggih / ɲi si-gir / ga / ɲi ɑ-ngə̀s a-ngəz / ba gí-ngɯ̀s a-ngʌs / ɓaì-nkə́r / vì-nkə́r (w)-gəra / maa-g. maasɛ ʔil has kᵘas kɔʔas bət C# Ø l ɬ l n n o s s l ʃ t t t l l h r s z s s r r s l s s s t 6 La ligne horizontale dans le tableau sépare les langues du groupe Bak (au-dessus) des langues du groupe Nord (au-dessous). Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine Pular Peul Adamawa Peul Massina Sereer Baga Mboteni Nalu Baga fore 211 Bah 2009 Tourneux 1999 Seydou 2014 Crétois 1973/77 Ferry (p.c.) Seidel 2013 Golovko 2015 (p.c.) yiitere yitere / gite yitere / gite ngid a...al / kid a...ak cír / si-kyír cet cét / cí-ncét-él t t t d r t t Comme on le voit, cette correspondance n’est pas triviale, puisqu’on y trouve les éléments suivants : Ø, d, h, l, ɬ, n, r, s, ʃ, t, z. La série ‘œil’ est la plus complète. Cependant, d’autres séries réduites présentent les mêmes correspondances, ou plutôt des correspondances compatibles : LANGUE Bijogo-kagbaaga Joola fogny Joola kasa Joola banjal Joola kwaatay Karon Bayot Manjaku bok Manjaku de Bassarel Pepel Mancagne Balante ganja Balante fraasɛ Balante kentohe Gubaher Baynunk guñaamolo Cobiana Casanga Basari Tanda Bedik Bapen Konyagi Biafada Badiaranke Palor Saafi Noon Laala Wolof Pular Peul Adamawa Peul Massina Sereer Baga Mboteni Nalu Baga fore C# Ø l ɬ l n n o s s l ʃ t t t l l h r s z s s r r s l s s s t t t t d r t t ‘MORDRE’ ‘INTESTIN’ ‘TROIS’ pəs pəs pʊl pəʃ m-mbùté b-mbutɛ kəmbute bʊŋal lall lall ŋah ŋar a-ɣ̃ás tàs u-ŋás ì-ŋæ̀ r ŋarŋas matt ŋat ŋat ŋat ɲérà ŋat bu-bur tás tas tæ̀ r butit fud o...ol nio-búrùk tat tat tat tad paat tɛt Downloaded from Brill.com11/05/2021 12:22:31AM via free access 212 Guillaume Segerer Ce qu’on sait des correspondances possibles grâce à la série ‘œil’ va permettre de rechercher des cognats pour les séries incomplètes, et/ou d’éliminer des faux cognats. Ainsi, pour la série ‘mordre’, j’avais dans un premier temps intégré une racine ŋar pour les langues du groupe Joola, avec le sens ‘prendre’. Le changement sémantique supposé ‘prendre’ <> ‘mordre’ paraissait plausible. Mais la consonne finale ne s’accordait pas avec celle prévue par la série ‘œil’. Celle-ci aurait dû être l. La série ‘œil’ m’a donc incité à rechercher une forme ŋal dans le groupe Joola. Cette forme existe en joola fogny et en banjal-gusilay avec le sens de ‘mâchoire’ et en joola kasa avec le sens de ‘joue’. La variation sémantique ‘mordre’ <> ‘mâchoire (~ joue)’ est assez plausible elle aussi. On a ainsi découvert une racine vraisemblablement proto-atlantique, avec une probable innovation sémantique en joola. Le module de reconstruction intègre un grand nombre de fonctionnalités, parfois expérimentales, dont certaines sont encore en cours de développement à l’heure où ces lignes sont écrites. En voici quelques-unes : - Au moment de nommer une correspondance après avoir procédé à l’alignement des cognats, le bouton ‘search’ (visible sur la figure 3 ci-dessus p. 207) doit permettre de trouver, parmi les alignements déjà enregistrés, ceux qui sont plus ou moins compatibles avec l’alignement en cours. - Plusieurs alignements différents peuvent être proposés sur un même cognateset, ce qui permet de tester différentes hypothèses. - Un cognate-set est par défaut conçu comme une étape vers la reconstruction, via l’alignement. Mais d’autres options sont possibles, qu’il serait trop long de détailler ici. - Un petit module permet de proposer aux autres utilisateurs d’un dataset partagé de modifier un cognate-set, par l’ajout ou la suppression de fiches. Ces propositions de modification peuvent être acceptées ou non par le destinataire, et/ou donner lieu à des discussions. - Pour faciliter le travail d’alignement sur de grandes quantités de cognatesets, leur affichage peut être limité à ceux dont l’alignement n’est pas encore enregistré. CONCLUSION La reconstruction phonologique et lexicale est un domaine ou la linguistique africaine est souvent considérée comme déficiente. Pendant longtemps, il était d’usage d’invoquer le manque de données, ou la difficulté d’accès aux données. Le projet RefLex vise justement à mettre un terme à ces obstacles. Aujourd’hui les données sont très nombreuses : on peut estimer que l’ensemble des dictionnaires et lexiques publiés concernant les langues africaines contient au moins 10 millions de mots, pour au moins 1000 à 1500 langues. RefLex permet d’accéder très facilement à une partie non négligeable de ce corpus, et l’ensemble des données accessibles est appelé à continuer à croître. Même si de nombreux groupes de langues sont encore insuffisamment représentés pour pouvoir envisager une reconstruction sérieuse (notamment dans les groupes Downloaded from Brill.com11/05/2021 12:22:31AM via free access RefLex : la reconstruction sans peine 213 Mande, Gur, Kwa, Kru), les possibilités et le confort d’utilisation proposés par RefLex devraient inciter les linguistes intéressés par la reconstruction à y intégrer davantage de données. Déjà, le travail sur les langues Atlantiques et en bonne voie. Par ailleurs, l’équipe de DDL à Lyon est en train d’élaborer une base de données sur les langues amérindiennes, qui a la même structure que RefLex et dispose donc des mêmes outils. D’autres initiatives similaires, concernant d’autres régions du monde, sont possibles et bienvenues. BIBLIOGRAPHIE Barry A., 1987, The Joola languages: subgrouping and reconstruction, London, School of Oriental and African Studies (SOAS), University of London (PhD thesis). Carlton E. M. & Rand S. R., 1994, Compilation de listes de mots Swadesh modifiées recueillis parmi les langues du groupe Diola, sud du Sénégal, Journal of West African languages 24-2, p. 85-119. Fresco E. M. 1970, Topics in Yoruba dialect phonology, Los Angeles, African Studies Center & Department of Linguistics, University of California (UCLA). Sambou P., 2007, Morphosyntaxe du joola karon, Dakar, Université Cheikh Anta Diop (Thèse de doctorat de 3e cycle). Snider K. L., 1989, North-Guang comparative wordlist: Chumburung, Krachi, Nawuri, Gichode, Gonja, Legon, Institute of African Studies, University of Ghana. Wilson W. A. A., 2007, Guinea Languages of the Atlantic Group, Frankfurt, Peter Lang. Downloaded from Brill.com11/05/2021 12:22:31AM via free access