Transformeur génératif préentraîné

Un transformeur génératif préappris (ou préentraîné) (ou GPT, de l’anglais generative pre-trained transformer) est un type de grand modèle de langage basé sur l'architecture transformeur. Le « préapprentissage » consiste à prédire le prochain mot dans une séquence de texte. Répété pour de vastes corpus de données textuelles, cet apprentissage permet ensuite au modèle de générer du texte semblable.

Description

Il est construit en utilisant plusieurs blocs de la partie décodeur de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte. Le terme pre-trained dans son nom fait référence au processus d'apprentissage initial sur un grand corpus de texte où le modèle apprend à prédire le mot suivant dans un passage, ce qui fournit une base solide pour que le modèle fonctionne bien sur des tâches en aval avec des quantités limitées de données spécifiques à la tâche.

Exemples d'utilisation

ChatGPT (Chat Generative Pre-trained Transformer^[1]) est un chatbot lancé par OpenAI en novembre 2022. Il utilise GPT-3.5 et GPT-4 et est affiné (une approche de l'apprentissage par transfert^[2]) avec des techniques d'apprentissage supervisé et par renforcement.
BioGPT est un GPT qui se concentre sur la réponse aux questions biomédicales^[3]. Il est développé par Microsoft^[4].
ProtGPT2 est un GPT qui se concentre sur la conception de protéines^[5].

Historique

Les performances des modèles GPT reposent à la fois sur l'architecture transformeur, et sur une nouvelle méthode d'apprentissage ne nécessitant pas l'annotation des données d'entraînement.

Jusqu'en 2017, les réseaux de neurones les plus performants en traitement automatique des langues (les LSTM) utilisaient principalement l'apprentissage supervisé à partir de données étiquetées manuellement. L'annotation de grands ensembles de données rendait l'entraînement de ces modèles coûteux et chronophage^[6]^,^[7]. De plus, de nombreuses langues (telles que le swahili ou le créole haïtien ) étaient difficiles à traduire et à interpréter à l'aide de tels modèles en raison d'un manque de traductions existantes pour apprendre le modèle^[7].

La publication par des chercheurs de Google d'un article intitulé Attention Is All You Need^[8] conduit à l’émergence de grands modèles de langage tels que BERT en octobre 2018^[9], qui est un transformeur préappris non génératif. A la même période, le 11 juin 2018, OpenAI publie un article intitulé Improving Language Understanding by Generative Pre-Training, dans lequel est introduit le premier Generative Pre-trained Transformer (« GPT-1 »)^[6].

L'apprentissage auto-supervisé utilisé par OpenAI pour entraîner ses grands modèles de langage commence par une étape de préapprentissage, où le modèle est entraîné à prédire le token suivant (un token étant une séquence de caractères, typiquement un mot, une partie d'un mot, ou de la ponctuation). Cet entraînement à prédire ce qui va suivre, répété pour un grand nombre de textes, permet à ces modèles d'accumuler des connaissances sur le monde^[6]^,^[10].

Il y a ensuite parfois une étape d'apprentissage supervisé où le modèle est ajusté pour une tâche donnée^[6], par exemple pour obtenir des réponses selon un format ou un style d'assistant. Il y a également souvent une étape d'apprentissage par renforcement (telle que RLHF ou RLAIF) permettant de rendre le modèle plus véridique, utile et inoffensif^[10]^,^[11].

Versions Google Tag
Version	Architecture	Nombre de paramètres	Données d'entraînement
GPT-1	Transformeur de type decodeur à 12 niveaux et 12 têtes (pas d'encodeur), suivi de linear-softmax.	0,12 × 10⁹	BookCorpus^[12] : 4,5 Go de texte, à partir de 7 000 livres inédits de divers genres.
GPT-2	GPT-1, mais avec une normalisation modifiée	1,5 × 10⁹	WebText : 40 Go de texte, 8 millions de documents, à partir de 45 millions de pages Web votées sur Reddit.
GPT-3	GPT-2, mais avec des modifications pour permettre une plus grande mise à l'échelle.	175 × 10⁹	570 Go de texte en clair, 0,4 billion de jetons. Principalement CommonCrawl, WebText, Wikipedia anglais et deux corpus de livres (Books1 et Books2).

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Generative pre-trained transformer » (voir la liste des auteurs).

↑ (en-US) Kevin Roose, « The Brilliance and Weirdness of ChatGPT » [archive du 18 janvier 2023], The New York Times, 5 décembre 2022 (consulté le 26 décembre 2022) : « Like those tools, ChatGPT — which stands for generative pre-trained transformer — landed with a splash. »
↑ Joanne Quinn, Dive into deep learning: tools for engagement, Thousand Oaks, California, 2020 (ISBN 9781544361376, lire en ligne [archive du 10 janvier 2023]), p. 551
↑ (en) Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H, « BioGPT: generative pre-trained transformer for biomedical text generation and mining. », Brief Bioinform, vol. 23, n^o 6,‎ 2022 (PMID 36156661, DOI 10.1093/bib/bbac409, lire en ligne)
↑ (en) Matthias Bastian, « BioGPT is a Microsoft language model trained for biomedical tasks », The Decoder, 29 janvier 2023
↑ (en) Ferruz, N., Schmidt, S. & Höcker, B., « ProtGPT2 is a deep unsupervised language model for protein design. », Nature Communications volume, vol. 13,‎ 2022 (DOI 10.1038/s41467-022-32007-7, lire en ligne)
↑ ^{a b c et d} (en) Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever, « Improving Language Understanding by Generative Pre-Training » [archive du 26 janvier 2021], OpenAI, 11 juin 2018 (consulté le 23 janvier 2021), p. 12
↑ ^{a et b} (en) Yulia Tsvetkov, « Opportunities and Challenges in Working with Low-Resource Languages » [archive du 31 mars 2020], Carnegie Mellon University, 22 juin 2017 (consulté le 23 janvier 2021)
↑ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser et Illia Polosukhin, « Attention is All you Need », Curran Associates, Inc., vol. 30,‎ 2017 (lire en ligne)
↑ Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova, « BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding », Association for Computational Linguistics,‎ 24 mai 2019 (arXiv 1810.04805v2)
↑ ^{a et b} (en) Craig S. Smith, « ChatGPT-4 Creator Ilya Sutskever on AI Hallucinations and AI Democracy », sur Forbes (consulté le 1^er avril 2024)
↑ (en) Sujatha Sagiraju Appen, « How reinforcement learning with human feedback is unlocking the power of generative AI », sur VentureBeat, 23 avril 2023 (consulté le 1^er avril 2024)
↑ (en) Yukun Zhu, Ryan Kiros, Rich Zemel et Ruslan Salakhutdinov, « Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books », IEEE International Conference on Computer Vision,‎ 2015, p. 19–27 (lire en ligne)

[:4-1] (en-US) Kevin Roose, « The Brilliance and Weirdness of ChatGPT » [archive du 18 janvier 2023], The New York Times, 5 décembre 2022 (consulté le 26 décembre 2022) : « Like those tools, ChatGPT — which stands for generative pre-trained transformer — landed with a splash. »

[2] Joanne Quinn, Dive into deep learning: tools for engagement, Thousand Oaks, California, 2020 (ISBN 9781544361376, lire en ligne [archive du 10 janvier 2023]), p. 551

[pmid36156661-3] (en) Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H, « BioGPT: generative pre-trained transformer for biomedical text generation and mining. », Brief Bioinform, vol. 23, n^o 6,‎ 2022 (PMID 36156661, DOI 10.1093/bib/bbac409, lire en ligne)

[4] (en) Matthias Bastian, « BioGPT is a Microsoft language model trained for biomedical tasks », The Decoder, 29 janvier 2023

[5] (en) Ferruz, N., Schmidt, S. & Höcker, B., « ProtGPT2 is a deep unsupervised language model for protein design. », Nature Communications volume, vol. 13,‎ 2022 (DOI 10.1038/s41467-022-32007-7, lire en ligne)

[gpt1paper-6] {a b c et d} (en) Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever, « Improving Language Understanding by Generative Pre-Training » [archive du 26 janvier 2021], OpenAI, 11 juin 2018 (consulté le 23 janvier 2021), p. 12

[tsvetkov-7] {a et b} (en) Yulia Tsvetkov, « Opportunities and Challenges in Working with Low-Resource Languages » [archive du 31 mars 2020], Carnegie Mellon University, 22 juin 2017 (consulté le 23 janvier 2021)

[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser et Illia Polosukhin, « Attention is All you Need », Curran Associates, Inc., vol. 30,‎ 2017 (lire en ligne)

[9] Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova, « BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding », Association for Computational Linguistics,‎ 24 mai 2019 (arXiv 1810.04805v2)

[:0-10] {a et b} (en) Craig S. Smith, « ChatGPT-4 Creator Ilya Sutskever on AI Hallucinations and AI Democracy », sur Forbes (consulté le 1^er avril 2024)

[11] (en) Sujatha Sagiraju Appen, « How reinforcement learning with human feedback is unlocking the power of generative AI », sur VentureBeat, 23 avril 2023 (consulté le 1^er avril 2024)

[12] (en) Yukun Zhu, Ryan Kiros, Rich Zemel et Ruslan Salakhutdinov, « Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books », IEEE International Conference on Computer Vision,‎ 2015, p. 19–27 (lire en ligne)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]