Flaubert: Des Modèles de Langue Contextualisés Pré-Entraînés Pour Le Français
Flaubert: Des Modèles de Langue Contextualisés Pré-Entraînés Pour Le Français
Flaubert: Des Modèles de Langue Contextualisés Pré-Entraînés Pour Le Français
Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition)
Hang Le1 Loïc Vial1 Jibril Frej1 Vincent Segonne2 Maximin Coavoux1
Benjamin Lecouteux1 Alexandre Allauzen3 Benoît Crabbé2 Laurent Besacier1
Didier Schwab1
(1) Univ. Grenoble Alpes, CNRS, LIG
(2) Université Paris Diderot
(3) E.S.P.C.I, CNRS LAMSADE, PSL Research University
{thi-phuong-hang.le, loic.vial, jibril.frej}@univ-grenoble-alpes.fr
{maximin.coavoux, benjamin.lecouteux, laurent.besacier, didier.schwab}@univ-grenoble-alpes.fr
{vincent.segonne@etu, bcrabbe@linguist}.univ-paris-diderot.fr, [email protected]
R ÉSUMÉ
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à
l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes
bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au
niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été
démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un
ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de
complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous
évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase,
inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils
surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.
A BSTRACT
FlauBERT : Unsupervised Language Model Pre-training for French.
Language models have become a key step to achieve state-of-the art results in many NLP tasks.
Leveraging the huge amount of unlabeled texts available, they provide an efficient way to pre-
train continuous word representations that can be fine-tuned for downstream tasks, along with their
contextualization at the sentence level. This has been widely demonstrated for English. In this paper,
we introduce and share FlauBERT, a model learned on a very large and heterogeneous French corpus.
We train models of different sizes using the new CNRS Jean Zay supercomputer. We apply our
French language models to several NLP tasks (text classification, paraphrasing, natural language
inference, parsing, word sense disambiguation) and show that they often outperform other pre-training
approaches on the FLUE benchmark also presented in this article.
M OTS - CLÉS : FlauBERT, FLUE, BERT, français, modèles de langue, évaluation, classification de
textes, analyse syntaxique, désambiguïsation lexicale, inférence en langue naturelle, paraphrase.
K EYWORDS: FlauBERT, FLUE, BERT, French, language model, NLP benchmark, text classifica-
tion, parsing, word sense disambiguation, natural language inference, paraphrase.
1. Cet article est une version traduite et raccourcie de l’article de Le et al. (2019), accepté à LREC 2020.
2. https://github.com/getalp/Flaubert
3. https://allennlp.org/elmo
4. Une liste de modèles, en constante évolution, est disponible sur https://huggingface.co/models
5. https://github.com/google-research/bert
6. https://github.com/chineseGLUE/chineseGLUE
269
2 Apprentissage du modèle FlauBERT
Données d’apprentissage et pré-traitements Nous agrégeons 24 sous-corpus de types divers
(wikipedia, livres, Common Crawl, . . .). Nos trois sources principales sont (1) les textes monolingues
des campagnes d’évaluation WMT19 (Li et al., 2019, 4 sous-corpus), (2) les textes en français de
la collection OPUS (Tiedemann, 2012, 8 sous-corpus), (3) le projet Wikimedia 7 (8 sous-corpus).
La taille totale (non compressée) des textes ainsi agrégés est de 270GB. Après un prétraitement
consistant en différents filtrages (enlever les phrases très courtes, les séquences de numéros ou
d’adresses électroniques, etc.), une normalisation de l’encodage des caractères, et une tokenisation à
l’aide de Moses (Koehn et al., 2007), nous obtenons un corpus de 71GB. Notre code pour télécharger
et pré-traiter les données est publiquement disponible. 8
Modèles et configuration d’apprentissage Nous utilisons la même architecture que BERT (Devlin
et al., 2019). Un vocabulaire de 50K unités sous-lexicales est construit en utilisant l’algorithme Byte
Pair Encoding (Sennrich et al., 2016, BPE). Nous entraînons deux principaux modèles (transformers
7. https://meta.wikimedia.org/w/index.php?title=Data_dumps&oldid=19312805
8. https://github.com/getalp/Flaubert
9. Liu et al. (2019) ont émis l’hypothèse que l’implantation originale de BERT pourrait avoir supprimé la fonction de coût
associée au NSP tout en conservant le format d’entrée consistant en des paires de phrases.
270
bi-directionnels) : FlauBERTBASE (12 blocs de dimension cachée 768, 12 têtes pour l’attention) et
FlauBERTLARGE (24 blocs de dimension cachée 1024, 12 têtes). Le critère d’apprentissage est de type
masked language model : il consiste à prédire des tokens d’une phrase ayant été préalablement et
aléatoirement masqués. FlauBERTBASE est appris sur 32 GPU Nvidia V100 SXM2 32 GB en 410h et
FlauBERTLARGE est appris sur 128 de ces mêmes GPU en 390h.
3 FLUE
Le référentiel d’évaluation FLUE est composé de 7 tâches correspondant à différents niveaux d’analyse
(syntaxique, sémantique) du traitement automatique du français.
Classification de texte Le corpus d’analyse de sentiments translingue CLS (Prettenhofer & Stein,
2010) est constitué de critiques issues du site Amazon pour trois catégories de produits (livres, DVD
et musique) en quatre langues : anglais, français, allemand et japonais. Chaque échantillon contient
une critique associée à une note allant de 1 à 5. Suivant Blitzer et al. (2006) et Prettenhofer & Stein
(2010), les évaluations avec 3 étoiles sont écartées et la note est binarisée avec un seuil de 3. Pour
chaque catégorie de produit, nous construisons des ensembles d’apprentissage et de test qui sont
équilibrés. Les données de test contiennent ainsi 2000 avis en français.
Identification de paraphrases Cette tâche consiste à identifier si des paires de phrases sont séman-
tiquement équivalentes ou non. PAWS-X est un ensemble de données multilingues pour l’identification
des paraphrases (Yang et al., 2019a). Il s’agit de l’extension de la tâche PAWS (Zhang et al., 2019)
pour l’anglais à six autres langues : français, espagnol, allemand, chinois, japonais et coréen. Yang
et al. (2019a) ont utilisé la traduction automatique pour créer les corpus de ces autres langues mais
les ensembles de développement et de test pour chaque langue sont traduits manuellement. Nous
prenons à nouveau la partie française pour FLUE.
Natural Language Inference (NLI) Cette tâche, également connue sous le nom de reconnaissance
d’implications textuelles (RTE), considère une prémisse (p) et une hypothèse (h) et consiste à
déterminer si p implique, contredit ou n’implique ni ne contredit h. Le corpus Cross-lingual NLI
Corpus (Conneau et al., 2018, XNLI) étend l’ensemble de développement et de test du corpus
Multi-Genre Natural Language Inference corpus (Williams et al., 2018, MultiNLI) à 15 langues. Les
ensembles de développement et de test pour chaque langue consistent en 7 500 exemples annotés
manuellement, soit un total de 112 500 paires de phrases annotées avec les étiquettes entailment,
contradiction ou neutre. FLUE intègre la partie française de ce corpus.
271
Désambiguïsation lexicale des verbes et des noms La désambiguïsation lexicale consiste à assi-
gner un sens, parmi un inventaire donné, à des mots d’une phrase. Pour la désambiguïsation lexicale
de verbes, nous utilisons les données de FrenchSemEval (Segonne et al., 2019). Il s’agit d’un cor-
pus d’évaluation dont les occurrences de verbes ont été annotées manuellement avec les sens de
Wiktionary. 10 Pour la désambiguïsation lexicale des noms, nous utilisons la partie française de
la tâche de désambiguïsation multilingue de SemEval 2013 (Navigli et al., 2013). Nous adaptons
l’inventaire de sens de BabelNet utilisé par Navigli & Ponzetto (2010) pour WordNet 3.0 (Miller,
1995), en convertissant les étiquettes de sens lorsqu’une projection est présente dans BabelNet, et
en les supprimant dans le cas contraire. Ce processus de conversion donne un corpus d’évaluation
composé de 306 phrases et 1 445 mots français annotés en sens WordNet, et vérifiés manuellement.
Les données d’apprentissage sont obtenues par transfert selon la méthode décrite par Hadj Salah
(2018), qui consiste à traduire des corpus annotés en sens puis transférer leurs annotations. Nous
rendrons disponibles à la fois nos données d’entraînement et d’évaluation.
4 Expériences et résultats
Dans cette section, nous présentons les résultats de FlauBERT sur le référentiel d’évaluation FLUE.
Nous comparons les performances de FlauBERT avec BERT multilingue (Devlin et al., 2019, mBERT)
et CamemBERT (Martin et al., 2019) sur toutes les tâches. Nous comparons également avec le meilleur
modèle non contextuel pour chaque tâche. Nous utilisons les bibliothèques open-source XLM (Lample
& Conneau, 2019) et Transformers (Wolf et al., 2019). Nous renvoyons à Le et al. (2019) pour une
description détaillée des expériences.
Classification de texte Nous avons suivi le processus de réglage fin (fine tuning) standard de BERT
(Devlin et al., 2019). Le bloc de classification ajouté au dessus du model BERT est composé des
couches suivantes : dropout, linéaire, activation tanh, dropout et linéaire. Les dimensions de sortie
des couches linéaires sont respectivement égales à la taille cachée du Transformer et au nombre de
classes (2). La valeur de dropout a été fixée à 0.1. Nous entraînons le modèle pendant 30 époques,
par lots de 8 exemples. Nous testons 4 valeurs de learning rate (1e−5, 5e−5, 1e−6 et 5e−6).
Nous utilisons comme ensemble de validation un échantillon aléatoire de 20% des données, pour
sélectionner le meilleur modèle. Le tableau 2 présente l’exactitude finale sur l’ensemble de test pour
chaque modèle. Les résultats mettent en évidence l’importance d’un modèle monolingue en français
pour la classification des textes : CamemBERT et FlauBERTBASE surpassent largement mBERT.
272
Tâche Classification Paraphrase NLI Constituants Dépendances Désambiguïsation
Section Livres DVD Musique Noms Verbes
Mesure Acc. Acc. Acc. Acc. Acc. F1 POS UAS LAS F1 F1
État de l’art ant. 91.25 c
89.55 c
93.40 c
66.2d
80.1/85.2 e
87.4 a
89.19 b
85.86b - 43.0h
Sans pré-entr. - - - 83.9 97.5 88.92 85.11 50.0 -
FastText - - - 83.6 97.7 86.32 82.04 49.4 34.9
mBERT 86.15c 86.9c 86.65c 89.3d 76.9f 87.5 98.1 89.5 85.86 56.5 44.9
CamemBERT 93.40 92.70 94.15 89.8 81.2 88.4 98.2 91.37 88.13 56.1 51.1
FlauBERTBASE 93.40 92.50 94.30 89.9 81.3 89.1 98.1 91.56 88.35 54.9/57.9g 47.4
TABLE 2 – Résultats finaux sur les tâches de FLUE. a Kitaev et al. (2019). b Constant et al. (2013).
c
Eisenschlos et al. (2019, MultiFiT). d Chen et al. (2017, ESIM). e Conneau et al. (2019, XLM-F
BASE / LARGE). f Martin et al. (2019). g Utilise FlauBERTLARGE . h Segonne et al. (2019).
Natural Language Inference (NLI) Comme cette tâche a également été considérée par Martin
et al. (2019, CamemBERT), nous utilisons la même configuration expérimentale pour que nos
résultats soient comparables. L’entrée du modèle pour cette tâche est aussi une paire de phrases.
Nous présentons la performance pour chaque modèle dans le tableau 2. Les résultats confirment la
supériorité des modèles français par rapport aux modèles multilingues (mBERT) pour cette tâche.
FlauBERTBASE fonctionne légèrement mieux que CamemBERT. Les deux dépassent clairement
XLM-RBASE , bien qu’ils ne puissent pas dépasser XLM-RLARGE . Il convient de noter que XLM-RLARGE
employait une architecture beaucoup plus profonde.
Analyse syntaxique en dépendances Pour l’analyse en dépendances, nous utilisons une réimplé-
mentation de l’algorithme de Dozat & Manning (2017) avec décodage par arbre couvrant de poids
maximal. L’analyseur prend en entrée des phrases étiquetées en partie du discours. Nous utilisons les
tags prédits fournis par la campagne SPMRL. Notre représentation lexicale est une concaténation
de plongements lexicaux et de plongements de tags appris avec le reste du modèle d’analyse sur le
French Treebank ainsi que d’un vecteur préentrainé. Les résultats sont donnés en table 2. Tous les
modèles utilisant les vecteurs BERT font au moins aussi bien que l’état de l’art sur cette tâche et les
deux modèles monolingues sont état de l’art avec les vecteurs FlauBERTBASE qui donnent un résultat
marginalement meilleur que les vecteurs CamemBERT. On remarque également que les deux modèles
monolingues apportent des résultats substantiellement meilleurs que le modèle mBERT multilingue.
Désambiguïsation lexicale des noms Nous utilisons le réseau de neurones décrit par Vial et al.
(2019a,b) dont le code est fourni. 12 Il prend, en entrée, les vecteurs issus d’un modèle de langue
11. https://github.com/nikitakit/self-attentive-parser
12. https://github.com/getalp/disambiguate
273
pré-entraîné, qui restent fixes, puis il est composé de plusieurs couches d’encodeur Transformer et
d’une couche linéaire qui sont entraînées. La couche linéaire réalise une projection sur l’ensemble
des synsets vus pendant l’entraînement. Enfin, le synset qui obtient le plus haut score est choisi. Nous
donnons le résultat issu d’un ensemble de 8 modèles entraînés indépendamment, qui moyenne la
sortie du softmax. Dans la Table 2, on observe d’abord des performances largement meilleures avec
les modèles BERT qu’avec des vecteurs statiques. mBERT obtient de meilleures performances que
CamemBERT ainsi que FlauBERTBASE , ce que nous pensons être dû à la nature translingue des corpus
d’entraînement, mais FlauBERTLARGE obtient les meilleurs résultats sur la tâche.
Désambiguïsation lexicale des verbes Nous suivons la méthode décrite par Segonne et al. (2019).
Nous utilisons les plongements contextuels fournis par les modèles FlauBERT/mBERT/CamemBERT
pour les representations vectorielles des occurences (l’inventaire de sens et données d’évaluation).
Nous comparons également nos résultats à une représentation plus simple qui consiste à moyenner
les plongements lexicaux des mots entourant le mot cible. Pour cette expérience nous avons utilisé
les plongements lexicaux issus de FastText avec une fenêtre de mots de taille 5. Les résultats de
nos expériences sont présentés dans la table 2. On observe que l’utilisation des modèles BERT
pour cette tâche apporte un gain conséquent par rapport à l’état de l’art, les meilleurs résultats étant
obtenus par CamemBERT. De plus, nos expériences confirment l’intérêt des modèles spécifiquement
entraînés sur le français puisque les deux modèles CamemBERT et FlauBERTBASE surpassent le
modèle multilingue mBERT.
5 Conclusion
Nous avons présenté et partagé FlauBERT, un ensemble de modèles de langues pre-entraînés pour le
français, accompagné de FLUE, un dispositif d’évaluation. FlauBERT obtient des résultats à l’état de
l’art sur un certain nombre de tâches de TALN. Il est aussi compétitif avec CamemBERT (Martin
et al., 2019) – un autre modèle pour le français développé en parallèle – bien qu’il ait été entraîné sur
presque deux fois moins de données textuelles. Nous espérons que cette contribution stimulera les
recherches sur le TALN en français. 13
6 Remerciements
Ce travail a bénéficié du programme « Grand Challenge Jean Zay » (projet 100967) et a également été
partiellement soutenu par MIAI@Grenoble-Alpes (ANR-19-P3IA-0003). Nous remercions Guillaume
Lample et Alexis Conneau pour leur soutien technique pour l’utilisation du code XLM.
Références
A BEILLÉ A., C LÉMENT L. & T OUSSENEL F. (2003). Building a Treebank for French, In Tree-
banks : Building and Using Parsed Corpora, p. 165–187. Springer Netherlands : Dordrecht. doi :
10.1007/978-94-010-0201-1_10.
13. FlauBERT est notamment disponible sur https://huggingface.co/models.
274
A RTETXE M. & S CHWENK H. (2019). Massively multilingual sentence embeddings for zero-shot
cross-lingual transfer and beyond. Transactions of the Association for Computational Linguistics, 7,
597–610.
B LITZER J., M C D ONALD R. & P EREIRA F. (2006). Domain adaptation with structural correspon-
dence learning. In Proceedings of the 2006 conference on empirical methods in natural language
processing, p. 120–128 : Association for Computational Linguistics.
C HEN Q., Z HU X., L ING Z.-H., W EI S., J IANG H. & I NKPEN D. (2017). Enhanced lstm for
natural language inference. In Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1 : Long Papers), p. 1657–1668.
C ONNEAU A., K HANDELWAL K., G OYAL N., C HAUDHARY V., W ENZEK G., G UZMÁN F.,
G RAVE E., OTT M., Z ETTLEMOYER L. & S TOYANOV V. (2019). Unsupervised cross-lingual
representation learning at scale. arXiv preprint arXiv:1911.02116.
C ONNEAU A., R INOTT R., L AMPLE G., W ILLIAMS A., B OWMAN S., S CHWENK H. & S TOYA -
NOV V. (2018). Xnli : Evaluating cross-lingual sentence representations. In Proceedings of the 2018
Conference on Empirical Methods in Natural Language Processing, p. 2475–2485.
C ONSTANT M., C ANDITO M. & S EDDAH D. (2013). The ligm-alpage architecture for the spmrl
2013 shared task : Multiword expression analysis and dependency parsing. In Proceedings of the
EMNLP Workshop on Statistical Parsing of Morphologically Rich Languages (SPMRL 2013).
DAI A. M. & L E Q. V. (2015). Semi-supervised sequence learning. In Advances in neural
information processing systems, p. 3079–3087.
D EVLIN J., C HANG M.-W., L EE K. & T OUTANOVA K. (2019). Bert : Pre-training of deep
bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of
the North American Chapter of the Association for Computational Linguistics : Human Language
Technologies, Volume 1 (Long and Short Papers), p. 4171–4186.
D OZAT T. & M ANNING C. D. (2017). Deep biaffine attention for neural dependency parsing. In
5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26,
2017, Conference Track Proceedings : OpenReview.net.
E ISENSCHLOS J., RUDER S., C ZAPLA P., K ARDAS M., G UGGER S. & H OWARD J. (2019).
Multifit : Efficient multi-lingual language model fine-tuning. In Proceedings of the 2019 conference
on empirical methods in natural language processing (EMNLP), p. 1532–1543.
H ADJ S ALAH M. (2018). Arabic word sense disambiguation for and by machine translation. Theses,
Université Grenoble Alpes ; Université de Sfax (Tunisie). Faculté des Sciences économiques et de
gestion. HAL : tel-02139438.
H OWARD J. & RUDER S. (2018). Universal language model fine-tuning for text classification. In
Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume
1 : Long Papers), p. 328–339.
K INGMA D. P. & BA J. (2014). Adam : A method for stochastic optimization. arXiv preprint
arXiv:1412.6980.
K ITAEV N., C AO S. & K LEIN D. (2019). Multilingual constituency parsing with self-attention
and pre-training. In Proceedings of the 57th Annual Meeting of the Association for Computational
Linguistics, p. 3499–3505, Florence, Italy : Association for Computational Linguistics. doi :
10.18653/v1/P19-1340.
K ITAEV N. & K LEIN D. (2018). Constituency parsing with a self-attentive encoder. In Proceedings
of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long
275
Papers), p. 2676–2686, Melbourne, Australia : Association for Computational Linguistics. doi :
10.18653/v1/P18-1249.
KOEHN P., H OANG H., B IRCH A., C ALLISON -B URCH C., F EDERICO M., B ERTOLDI N., C OWAN
B., S HEN W., M ORAN C., Z ENS R. et al. (2007). Moses : Open source toolkit for statistical
machine translation. In Proceedings of the 45th annual meeting of the association for computational
linguistics companion volume proceedings of the demo and poster sessions, p. 177–180.
L AMPLE G. & C ONNEAU A. (2019). Cross-lingual language model pretraining. In Advances in
neural information processing systems.
L AN Z., C HEN M., G OODMAN S., G IMPEL K., S HARMA P. & S ORICUT R. (2019). Albert : A
lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.
L E H., V IAL L., F REJ J., S EGONNE V., C OAVOUX M., L ECOUTEUX B., A LLAUZEN A., C RABBÉ
B., B ESACIER L. & S CHWAB D. (2019). Flaubert : Unsupervised language model pre-training for
french. arXiv preprint arXiv:1912.05372.
L I X., M ICHEL P., A NASTASOPOULOS A., B ELINKOV Y., D URRANI N., F IRAT O., KOEHN P.,
N EUBIG G., P INO J. & S AJJAD H. (2019). Findings of the first shared task on machine translation
robustness. Fourth Conference on Machine Translation (WMT19), p. 91–102.
L IU Y., OTT M., G OYAL N., D U J., J OSHI M., C HEN D., L EVY O., L EWIS M., Z ETTLEMOYER
L. & S TOYANOV V. (2019). Roberta : A robustly optimized bert pretraining approach. arXiv
preprint arXiv:1907.11692.
M ARTIN L., M ULLER B., O RTIZ S UÁREZ P. J., D UPONT Y., ROMARY L., V ILLEMONTE DE LA
C LERGERIE É., S EDDAH D. & S AGOT B. (2019). CamemBERT : a Tasty French Language Model.
arXiv preprint arXiv:1911.03894.
M IKOLOV T., S UTSKEVER I., C HEN K., C ORRADO G. & D EAN J. (2013). Distributed represen-
tations of words and phrases and their compositionality. In Proceedings of the 26th International
Conference on Neural Information Processing Systems - Volume 2, NIPS’13, p. 3111–3119, USA :
Curran Associates Inc.
M ILLER G. A. (1995). Wordnet : a lexical database for english. Communications of the ACM,
38(11), 39–41.
NAVIGLI R., J URGENS D. & VANNELLA D. (2013). SemEval-2013 Task 12 : Multilingual Word
Sense Disambiguation. In Second Joint Conference on Lexical and Computational Semantics
(*SEM), Volume 2 : Proceedings of the Seventh International Workshop on Semantic Evaluation
(SemEval 2013), p. 222–231.
NAVIGLI R. & P ONZETTO S. P. (2010). Babelnet : Building a very large multilingual semantic
network. In Proceedings of the 48th annual meeting of the association for computational linguistics,
p. 216–225 : Association for Computational Linguistics.
P ENNINGTON J., S OCHER R. & M ANNING C. D. (2014). Glove : Global vectors for word
representation. In In EMNLP.
P ETERS M. E., N EUMANN M., I YYER M., G ARDNER M., C LARK C., L EE K. & Z ETTLEMOYER
L. (2018). Deep contextualized word representations. In Proceedings of NAACL-HLT, p. 2227–2237.
P RETTENHOFER P. & S TEIN B. (2010). Cross-language text classification using structural corres-
pondence learning. In Proceedings of the 48th annual meeting of the association for computational
linguistics, p. 1118–1127.
R ADFORD A., NARASIMHAN K., S ALIMANS T. & S UTSKEVER I. (2018). Improving language
understanding by generative pre-training. Technical report, OpenAI.
276
R AFFEL C., S HAZEER N., ROBERTS A., L EE K., NARANG S., M ATENA M., Z HOU Y., L I W. &
L IU P. J. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer.
arXiv preprint arXiv:1910.10683.
R AMACHANDRAN P., L IU P. & L E Q. (2017). Unsupervised pretraining for sequence to sequence
learning. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language
Processing, p. 383–391.
S EDDAH D., T SARFATY R., K ÜBLER S., C ANDITO M., C HOI J. D., FARKAS R., F OSTER
J., G OENAGA I., G OJENOLA G ALLETEBEITIA K., G OLDBERG Y., G REEN S., H ABASH N.,
K UHLMANN M., M AIER W., N IVRE J., P RZEPIÓRKOWSKI A., ROTH R., S EEKER W., V ERSLEY
Y., V INCZE V., W OLI ŃSKI M., W RÓBLEWSKA A. & V ILLEMONTE DE LA C LERGERIE E.
(2013). Overview of the SPMRL 2013 shared task : A cross-framework evaluation of parsing
morphologically rich languages. In Proceedings of the Fourth Workshop on Statistical Parsing
of Morphologically-Rich Languages, p. 146–182, Seattle, Washington, USA : Association for
Computational Linguistics.
S EGONNE V., C ANDITO M. & C RABBÉ B. (2019). Using wiktionary as a resource for wsd :
the case of french verbs. In Proceedings of the 13th International Conference on Computational
Semantics-Long Papers, p. 259–270.
S ENNRICH R., H ADDOW B. & B IRCH A. (2016). Neural machine translation of rare words with
subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational
Linguistics (Volume 1 : Long Papers), p. 1715–1725.
T IEDEMANN J. (2012). Parallel data, tools and interfaces in opus. In N. C. C. C HAIR ), K. C HOU -
KRI , T. D ECLERCK , M. U. D OGAN , B. M AEGAARD , J. M ARIANI , J. O DIJK & S. P IPERIDIS ,
Éds., Proceedings of the Eight International Conference on Language Resources and Evaluation
(LREC’12), Istanbul, Turkey : European Language Resources Association (ELRA).
VASWANI A., S HAZEER N., PARMAR N., U SZKOREIT J., J ONES L., G OMEZ A. N., K AISER Ł.
& P OLOSUKHIN I. (2017). Attention is all you need. In Advances in neural information processing
systems, p. 5998–6008.
V IAL L., L ECOUTEUX B. & S CHWAB D. (2019a). Compression de vocabulaire de sens grâce
aux relations sémantiques pour la désambiguïsation lexicale. In Conférence sur le Traitement
Automatique des Langues Naturelles (TALN-RECITAL), Toulouse, France. HAL : hal-02092559.
V IAL L., L ECOUTEUX B. & S CHWAB D. (2019b). Sense Vocabulary Compression through the
Semantic Knowledge of WordNet for Neural Word Sense Disambiguation. In Proceedings of the
10th Global Wordnet Conference, Wroclaw, Poland. HAL : hal-02131872.
WANG A., P RUKSACHATKUN Y., NANGIA N., S INGH A., M ICHAEL J., H ILL F., L EVY O. &
B OWMAN S. R. (2019). Superglue : A stickier benchmark for general-purpose language understan-
ding systems. arXiv preprint arXiv:1905.00537.
WANG A., S INGH A., M ICHAEL J., H ILL F., L EVY O. & B OWMAN S. (2018). GLUE : A multi-
task benchmark and analysis platform for natural language understanding. In Proceedings of the 2018
EMNLP Workshop BlackboxNLP : Analyzing and Interpreting Neural Networks for NLP, p. 353–355,
Brussels, Belgium : Association for Computational Linguistics. doi : 10.18653/v1/W18-5446.
W ILLIAMS A., NANGIA N. & B OWMAN S. (2018). A broad-coverage challenge corpus for sentence
understanding through inference. In Proceedings of the 2018 Conference of the North American
Chapter of the Association for Computational Linguistics : Human Language Technologies, Volume
1 (Long Papers), p. 1112–1122.
277
W OLF T., D EBUT L., S ANH V., C HAUMOND J., D ELANGUE C., M OI A., C ISTAC P., R AULT
T., L OUF R., F UNTOWICZ M. & B REW J. (2019). Huggingface’s transformers : State-of-the-art
natural language processing. arXiv preprint arXiv:1910.03771.
YANG Y., Z HANG Y., TAR C. & BALDRIDGE J. (2019a). Paws-x : A cross-lingual adversarial
dataset for paraphrase identification. arXiv preprint arXiv:1908.11828.
YANG Z., DAI Z., YANG Y., C ARBONELL J., S ALAKHUTDINOV R. & L E Q. V. (2019b). Xl-
net : Generalized autoregressive pretraining for language understanding. In Advances in neural
information processing systems.
Z HANG Y., BALDRIDGE J. & H E L. (2019). Paws : Paraphrase adversaries from word scrambling.
In Proceedings of the 2019 Conference of the North American Chapter of the Association for
Computational Linguistics : Human Language Technologies, Volume 1 (Long and Short Papers), p.
1298–1308.
278