Aller au contenu

Google Gemini

Un article de Wikipédia, l'encyclopédie libre.
Gemini
Generalized Multimodal Intelligence Network
Description de l'image Google Gemini logo.svg.

Informations
Créateur Google
Développé par Google Brain et DeepMind
Première version 7 décembre 2023[1]
État du projet officiellement lancé le 7 décembre 2023[1], et encore en développement
Type Famille de grands modèles de langage (d)Voir et modifier les données sur Wikidata
Licence Licence propriétaireVoir et modifier les données sur Wikidata
Site web deepmind.google/technologies/geminiVoir et modifier les données sur Wikidata

Google Gemini est une intelligence artificielle (IA), générative et multimodale, de type transformeur, créée par Google, annoncée lors de la conférence I/O destinée aux développeurs en juin 2023, puis présentée au public le 7 décembre 2023. Gemini signifie ici Generalized Multimodal Intelligence Network.

Ce grand modèle de langage (LLM) a été formé sur un ensemble massif de données de texte et d'images, entraîné sur les Tensor Processing Units (TPU) de Google.

Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos...), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels..., avec les limites des IA (erreurs, biais, « hallucinations »...).

Selon Demis Hassabis, Gemini doit peu à peu pouvoir se connecter à des éléments robotiques, être doté d'un sens du toucher et de capacités à agir sur des actionneurs, tout en devenant plus précis et plus conscient du contexte et du monde[1].

Au début des années 2020, dans le domaine de l'IA générative, Google a été distancé par ChatGPT. Tout en poursuivant ses projets d'IA (ex. : Teachable Machine, Quick Draw, AutoDraw, Art Palette, ou Semantris et BARD) Google a mis en avant son nouveau projet majeur : Gemini AI, qui est une collaboration entre Google Brain (connue pour avoir créé l'outil Google Traduction, ainsi que TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner) et DeepMind (filiale de Google, notamment connue pour avoir créé AlphaGo, l'IA qui a battu Lee Sedol au jeu de go en 2016, et AlphaFold capable de prédire la structure des protéines). Ces deux groupes ont fusionné en 2023 pour accélérer la mise au point de Gemini après le succès de ChatGPT.

Peu de données étaient disponibles sur Gemini avant décembre 2023, mais selon Google, ce nouveau système d'IA pourrait remplacer et améliorer PaLM 2 de Google, dont en intégrant des techniques plus efficaces d'apprentissage par renforcement, permettant une amélioration continue des capacités de l'IA à répondre à des questions complexes.

Dès le début d'année 2023, Google avait annoncé une riposte claire à OpenAI au travers du projet Sparrow un chatbot qui avait l'avantage, contrairement à ChatGPT, de citer ses sources[2], gagnant ainsi en crédibilité.

Gemini a été entrainé sur sur les Tensor Processing Units (TPU) de Google[1]. Plus rapide et moins couteux dans ses exécutions que les précédents modèles de Google (comme PaLM)[1], Gemini intègre en particulier des « mécanismes d'attention » (MA) perfectionnés, permettant aux réseaux de neurones artificiels de « concentrer » leurs calculs sur les parties les plus pertinentes des « données d'entrée », pour générer ensuite des « sorties » plus cohérentes, et répondant plus fidèlement aux « invites » des utilisateurs.

Pour rappel, dans le domaine des techniques d'apprentissage en profondeur (Deep Learning), et notamment dans le domaine du traitement du langage naturel (TLN) et de l'analyse sémantique, ainsi que dans le domaine de l'analyse d'image, la notion de « mécanisme d'attention » désigne des techniques, basées sur des mécanismes mathématiques et informatiques applicables aux réseaux de neurones artificiels, visant à rendre les modèles d'IA plus performants. Elles fonctionnent en « pondérant » l'importance des différentes caractéristiques d'« entrée », de manière à ensuite pouvoir concentrer l'analyse sur les caractéristiques les plus pertinentes sur le moment (c'est-à-dire en fonction de la tâche à accomplir et de la demande), pour, in fine, aboutir à un traitement plus rapide, efficace (plus économe en ressource de traitement de l'information) et précis de jeux de données complexes, y compris à grande échelle[3],[4]. Le « mécanisme d'attention », bioinspiré du fonctionnement des cerveaux animaux et humains, joue un rôle majeur dans les progrès récents des modèles d'apprentissage profond (par exemple en termes de traduction automatique fluide ou de description automatique d'image et de développement de nouveaux modèles de pointe, tels que l'architecture « Transformer » (créée par Google Brain en 2017 et qui est un modèle auto-attentif, aussi dit d'apprentissage profond par exemple capable de détecter et analyser certains indicateurs de sentiments et d'émotions avec une fiabilité croissante, donnant à l'utilisateur l'impression que l'IA comprend nos émotions, qu'elle les prend en compte et qu'elle répond avec empathie[3],[5].
Ce mécanisme permet par exemple à l'IA de se concentrer sur des zones spécifiques d'une image pour générer des descriptions de plus en plus pertinentes et cohérentes en se focalisant sur des objets, personnes, détails importants ou sur les actions visibles dans l'image. Ce mécanisme d'attention permet de transcrire avec plus de précision et de rapidité un signal audio en texte, en tenant mieux compte du contexte et de la prononciation ; il améliore la compression, le filtrage ou la restauration de signaux audio ou vidéo, en se basant sur les caractéristiques les plus importantes du signal[5]. Dans l'analyse de données médicales (radiographie, indicateurs physiologiques ou données génétiques, il permet de mieux détecter des anomalies, diagnostiquer des maladies ou prédire des risques[5] et il peut également extraire les informations a priori les plus importantes pour le demandeur, à partir d'un graphique, une piste-son, une vidéo, d'une phrase ou d'un texte[3] ; l'encodeur du « système d'attention » va alors transmettre beaucoup plus d'informations au décodeur (par rapports aux approches informatiques antérieures)[6].
On cherche à rendre ces mécanismes d'attention eux-mêmes plus « intelligents » et adaptatifs, notamment dans le contexte de données à grande échelle et d'espaces d'entrée de grande dimension (big data, en particulier quand les enjeux sont vitaux, par exemple pour le diagnostic ou le soin médical ou du véhicule autonome…), avec par exemple des systèmes dits d'« attention clairsemée » et des systèmes d'« approximations de rang inférieur », permettant de rester performant tout en allégeant la complexité de calcul des mécanismes d'attention, sans sacrifier les performances[5].

La capacité annoncée de Gemini à générer et combiner des objets sonores, visuels (graphiques et cartographie y compris) et du texte devrait également lui permettre de générer plus d'un type de données à la fois. En ce sens, Gemini se rapproche d'une intelligence artificielle générale (IAG) un peu plus que GPT-4. Gemini pourra probablement, par exemple, extraire des caractéristiques d'une vidéo, d'un podcast ou d'un texte complexe pour en générer une analyse ou un résumé en tenant compte plus finement des demandes de l'utilisateur, mais aussi — et éventuellement dans le même temps — créer du contenu nouveau et le mettre en page, l'illustrer d'images, de graphiques et/ou de cartographies, en créer une version vidéo ou podcast, multilingue, etc.

Mi-2023, Gemini est encore en phase d'entraînement, et testé pour sa sécurité.

Comme c'était déjà le cas pour PaLM 2, Google propose plusieurs itérations du modèle, de tailles différentes, qui seront exploitées en fonction des avancées de l'IA, des besoins émis en interne par les services ou filiales de Google, puis par les utilisateurs et clients, et en fonction de contraintes spécifiques[7]. Les versions de Gemini, en différentes tailles et capacités[8], pourraient être disponibles via le « Google Cloud Vertex AI » (anciennement « Google AI Platform »), une « plateforme d'apprentissage automatique, qui regroupe tous les services cloud de Google, permet de faciliter le déploiement et la maintenance des modèles d'IA »[7].

Google continue ses recherches et expérimentations sur la recherche générative assistée par IA.

Gemini est présenté le 6 décembre 2023[1]. C'est une suite qui compte trois modèles :

  • Gemini Nano : version allégée de Gemini est prévue pour tourner nativement et hors-ligne sur des smartphones Android en commençant par le Google Pixel 8 Pro et uniquement à partir de texte
  • Gemini Pro : le modèle intermédiaire, remplacera LaMDA dans Bard pour les pays anglophones
  • Gemini Ultra (qui ne sera finalement lancé qu'en février 2024) : le modèle le plus avancé, et le plus performant.

Si Google DeepMind ne précise pas les tailles des modèles, l'accent est mis sur les performances du plus puissant (Gemini Ultra) par rapport à GPT-4[9] d'OpenAI, qui est alors de loin le modèle le plus puissant du marché.

Il est annoncé aussi que Gemini Pro sera disponible pour les développeurs via le Google Generative AI Studio ou Vertex AI sur Google Cloud le 13 décembre 2023 et que Gemini Ultra sera proposée aux Data Centers et aux entreprises, d'abord en version beta contrôlée et dans un contexte expérimental sécurisée[1].

Le 15 février 2024, Google lance une nouvelle version plus avancée nommée Gemini 1.5 Pro. C'est aussi le premier modèle capable de prendre jusqu'à 1 million de tokens en entrée, même si la limite est fixée à 128 000 tokens dans un premier temps.

Le même mois, Google suspend son outil de création d'images Gemini, « pensé pour promouvoir la diversité », après qu'il a généré des résultats embarrassants, refusant dans certains cas de représenter des personnes blanches ou générant des images historiquement fausses, telles que « des soldats nazis de couleur » ou le « pape imaginé en femme ». Des polémiques en série, dont l'une liée à l'affirmation de Gemini selon laquelle il serait « difficile de dire » qui de Hitler ou d’Elon Musk avait eu l’impact le plus négatif sur la société, poussent Sundar Pichai, le PDG de Google, à recadrer ses équipes. Il leur rappelle le risque de briser la confiance envers les produits Google. Il déplore les réponses embarrassantes de Gemini qui « ont fait preuve de partialité »[10],[11]

En mai, une version allégée est lancée, nommée Gemini 1.5 Flash et capable d'accepter 1 million de tokens. Gemini 1.5 Pro bénéficie d'une amélioration à ce niveau, permettant d'utiliser jusqu'à 2 millions de tokens en entrée.

En août 2024, Google introduit les « Gems », qui permettent de créer des versions personnalisées de Gemini que les utilisateurs définissent en fonction de leurs besoins[12]. C'est une réponse au GPT Store de OpenAI ou au Copilot Studio de Microsoft, et l'un des nombreux efforts que déploie le groupe pour tenter d'attirer du public vers Gemini, alors que l'adoption des professionnels et développeurs restent très faible par rapport aux rivaux[13].

Description

[modifier | modifier le code]

Gemini, en tant qu'intelligence artificielle multimodale, c'est-à-dire capable de combiner plusieurs modes d'expression et de compréhension, s'inscrit dans la dernière génération d'intelligence artificielle[1].

Gemini a été annoncée en 2023 comme devant surpasser les modèles existants comme GPT-4, en pouvant traiter simultanément et de manière polyvalente un grand nombre de types différents de données (texte, images, cartographies, sons, vidéos ou graphiques). Elle peut ainsi répondre à une large variété de demandes, comme la génération de textes écrits, d'images, de sons et de code ; l'analyse de flux vidéo, la création de modèles 3D complexes, l'analyse et l'interprétation de graphiques complexes, de cartes, etc.[14],[15].

Selon Google, Gemini est particulièrement douée pour le codage informatique, grâce à son nouveau système de génération de code AlphaCode 2 qui lui permettrait de surpasser 85% des concurrents[1].

Fonctionnement

[modifier | modifier le code]

Gemini utilise le réseau de neurone du modèle PaLM 2 et l'architecture (framework) « Google Transformer » qui sous-tend déjà d'autres modèles de langage à grande échelle comme l'IA BERT (Bidirectional Encoder Representations from Transformers) et GPT-3 (Generative Pre-trained Transformer 3) d'OpenAI. Il intègre aussi Duet AI, une IA qui peut générer du texte et des images. Par rapport à BARD, ChatGPT et d'autres IA, Gemini offrirait toutefois de nouvelles fonctionnalités et une avancée importante en termes d'IA : il peut aisément traiter des données multimodales grâce à son architecture unifiée capable d'encoder et décoder divers types de données en utilisant le même réseau (l'encodeur de Gemini convertit différents types de données en un langage commun que le décodeur peut comprendre et sur lequel l'IA peut travailler). Ce décodeur peut aussi ensuite générer des « sorties » de divers types[16]. En 2023, dans Wired, Demis Hassabis dit « À un niveau élevé, vous pouvez considérer Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles », et il ajoute que Gemini permettra d'analyser des graphiques ou de contrôler des logiciels par la voix. Il s'y est aussi dit (en juin 2023) favorable à une ouverture anticipée de Gemini pour le milieu académique, afin que ce dernier puisse aider à évaluer cette nouvelle IA[17].

Selon le média The Information (14 septembre 2023), Gemini aurait aussi été testé par un groupe externe (restreint) de développeurs et d'entreprises.

Notes et références

[modifier | modifier le code]
  1. a b c d e f g h et i Bastien L, « Google lance Gemini : une IA conçue pour avoir 5 sens et une conscience », sur lebigdata.fr, (consulté le ).
  2. Alexis Lood, « Choqué par ChatGPT, l’empire Google lance une contre-attaque », sur Android MT, (consulté le )
  3. a b et c Pirmin Lemberger, « Le mécanisme d'attention en IA », sur groupeonepoint.com (consulté le ).
  4. (en) Calvin Wankhede, « What is Google Gemini: The next-gen language model that can do it all », sur Android Authority, (consulté le ).
  5. a b c et d Marcin Frąckiewicz, « IA et mécanismes d'attention », sur TS2 SPACE, (consulté le ).
  6. Tom Keldenich, « Le Mécanisme de l'Attention en Deep Learning - Comprendre Rapidement », sur inside-machinelearning.com, (consulté le ).
  7. a et b Florian Bayard, « Gemini : le « ChatGPT 4 » de Google arrive à grands pas », sur 01net.com, (consulté le ).
  8. (en) Adam Speight, « What is Google Gemini? The next-generation AI model explained », sur Trusted Reviews, (consulté le ).
  9. Victor Lafosse-Barthès, « Google sort Gemini (par surprise) et annonce surpasser GPT-4 d'OpenAI », sur Ariel World, (consulté le )
  10. Carla Plomb, «C’est totalement inacceptable» : après les dérapages de son IA Gemini, le PDG de Google recadre ses équipes, lefigaro.fr, 28 février 2024
  11. IA : le patron de Google reconnaît les erreurs « totalement inacceptables » de Gemini, latribune.fr, 28 février 2024
  12. « Google introduit les Gems pour personnaliser l’IA Gemini et le générateur Imagen 3 », Cnet France,‎ (lire en ligne).
  13. (en) « Why AI Developers Are Skipping Google's Gemini », The Information,‎ (lire en ligne)
  14. Yohann Poiron, « Qu’est-ce que Google Gemini : la nouvelle génération d’IA ? », sur blog-nouvelles-technologies.fr, .
  15. Eray Eliaçık, « Qu’est-ce que l’IA Gemini de Google qui quintuple GPT-4 ? », sur dataconomy.com, .
  16. (en) Sahil Kapoor, « What Is Google's AI Project Gemini and What Is It Working On? », sur makeuseof.com, (consulté le ).
  17. (en-US) Will Knight, « Google DeepMind CEO Demis Hassabis Says Its Next Algorithm Will Eclipse ChatGPT », sur Wired, (ISSN 1059-1028, consulté le ).

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]