Que sait-on de Gemini, le système d’IA de Google ?

Que sait-on de Gemini, le système d’IA de Google ?

Gemini cricket

Avatar de l'auteur

Mathilde Saliou

Publié dansSociété numérique

20/09/2023
12
Que sait-on de Gemini, le système d’IA de Google ?

Google aurait donné accès à une version anticipée de son système Gemini à quelques entreprises. Tour d’horizon de ce qui a filtré au sujet de ce « système multimodal ».

« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. » En ligne, les fans de tech ne tarissent pas d’éloge pour le système d’intelligence artificielle générative de Google, et ce avec forces références de pop culture plus ou moins heureuses.

Mais comment fonctionne le modèle multimodal Gemini ? Quelles sont ses spécificités ? Mérite-t-il tous les superlatifs avant même sa sortie ? 

Le précédent ChatGPT tendrait à nous convaincre que la nuance serait plus adaptée : si le modèle génératif d'OpenAI a dépassé les 100 millions d’utilisateurs dès janvier 2023 (ce qui en a fait l’application à la croissance la plus rapide juste avant que Threads de Meta ne batte ce record), sa fréquentation a stagné dès le mois de mai puis commencé à chuter en juin. Par ailleurs, le modèle d’OpenAI n’est pas exempt de risque et a même donné quelques signes de régression. 

Du côté de Gemini, peu d’informations ont filtré. Le 14 septembre, toutefois, the Information révélait que Google aurait donné un accès anticipé à une version de son logiciel à une poignée d’entreprises. Cela pourrait indiquer que la firme se rapproche d’un lancement du produit dans ses outils à destination des consommateurs et des entreprises (via ses offres cloud).

Réunion de Google Brain et DeepMind

Lorsque ChatGPT a été rendu public, fin novembre 2022, Google a initié un « code rouge ». L’agent conversationnel d’OpenAI représentait la première vraie menace contre le modèle du géant de la recherche en ligne. Pour faire face, l’actuel patron de l’entreprise Sundar Pinchai a notamment invité les fondateurs de l’entreprise, Larry Page et Sergey Brin, à revoir avec lui la stratégie à adopter en matière d’intelligence artificielle.

Quelques mois plus tard, en avril 2023, Google annonçait la fusion de ses deux équipes spécialisées dans l’IA, DeepMind – qui travaillait jusque-là sur Bard, concurrent direct de ChatGPT – et Brain. Cette réunion n’est pas à prendre à la légère : la première équipe a notamment créé AlphaGo, qui a battu Lee Sedol au go en 2016, et AlphaFold, qui prédit la structure des protéines. Brain, de son côté, a participé à la fabrication de Google Traduction et est derrière des produits comme TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner. 

À l’époque, des employés de Google avaient clairement exprimé leurs doutes, en interne comme auprès de Bloomberg, sur la capacité du géant à entrer dans la danse de l’IA générative. D’après ZDNet, certains avaient carrément qualifié Bard de tentative « pathétique ». 

Quoiqu'il en soit, les deux équipes sont désormais réunies sous le nom de Google DeepMind, le cofondateur de Google Brain, Jeffrey Dean, ayant été promu directeur scientifique. Demis Hassabis, lui, est directeur général de DeepMind et son but affiché est « d’arriver plus rapidement au futur » qui verrait la recherche et les produits d’intelligence artificielle « améliorer nettement la vie de milliers de personnes, transformer des industries, faire progresser la science et servir des communautés diverses ». 

En termes moins grandiloquents, il s’agit d’unir les forces internes à l’entreprise pour concurrencer efficacement une entité comme OpenAI. « Stratégiquement, c’est logique » a déclaré le directeur du laboratoire d’intelligence artificielle de Stanford Christopher Mannigs au Wall Street Journal : les deux entités ont longtemps eu des activités qui se recoupaient. « D’un point de vue tactique, les évolutions organisationnelles et culturelles seront difficiles à gérer. » 

Generalized Multimodal Intelligence Network

Quelques mois plus tard, lors de la Google I/O conference de mai 2023, le nom de « Gemini » a fait surface. Outre désigner un signe astrologique ou le deuxième programme de vol spatial lancé par les États-Unis (juste avant Apollo), Gemini signifie ici Generalized Multimodal Intelligence Network. Présenté comme un modèle de fondation de nouvelle génération, il devrait être « multimodal, très efficace en matière d’intégration d’outils et d’API » et pensé pour « permettre de futures innovations, comme la mémoire et la planification », selon le communiqué de la conférence.

Une fois prêt et « soumis à des tests de sécurité rigoureux », Gemini sera rendu disponible en différentes tailles et capacité, « comme PaLM 2 », indiquait Google en mai, sans donner de précisions supplémentaires. 

Selon les sources de The Information, le système est constitué d’un jeu de grands modèles de langues capables de réaliser des tâches diverses (résumé de texte, génération de code ou d’un nouveau texte, chatbot, etc). Le système serait capable de gérer et produire de l’image et de la vidéo en plus du texte.

Auprès de Wired, Demis Hassabis a expliqué qu’y était mêlées des techniques utilisées lors de la construction d’AlphaGo, et qui permettraient de réaliser des actions de planification ou de résolution de problème. Google chercherait par ailleurs à y ajouter des fonctionnalités comme la possibilité d’analyser des graphiques ou de contrôler des logiciels par la voix. Avec le Time Magazine, Demis Hassabis en parle comme d’ « une série de modèles, plutôt qu’un modèle unique ». 

Gemini profite du volume et de la diversité des données accumulées par Alphabet à travers ses filiales – en particulier YouTube, Google Books, Google Search et Google Scholars. Et si le modèle LaMDA a été entraîné par apprentissage supervisé, ce système-ci l’est par apprentissage par renforcement, comme l’ont été les différentes itérations de GPT.

D’après the Information, Gemini devrait bientôt être déployé dans des produits comme Google Docs. Quant aux développeurs, ils devraient payer pour avoir accès au modèle. 

Guerre des producteurs d’IA

Les données à disposition de Google lui auront-elles permis un entraînement de qualité ? Certaines estimations avancent que le jeu d’entraînement du système est au moins deux fois plus gros que celui, déjà énorme, de GPT-4, mais il est difficile de trouver des éléments précis.

Dans quelle mesure les aléas que subissent les fournisseurs – NVIDIA a lui-même prévenu qu’il pourrait avoir du mal à faire face à la demande –, vont impacter le modèle ? Fin août, un article du blog SemiAnalysis, signé par les chercheurs Dylan Patel et Daniel Nishball, a créé d’intenses débats sur la question matérielle.

Titré « Google Gemini dévore le monde » (car, décidément, on a le sens de la mesure, dans le monde de l’IA), l’article explique que comparé à Google, tous les acteurs de l’intelligence artificielle sont « GPU-poors » (pauvres en GPU). Selon ses auteurs, même OpenAI ne serait en mesure de produire un système que cinq fois moins puissant que Google, puisque celui-ci peut s’appuyer sur des centaines de milliers de TPU (Tensor Processing Unit). L’article a évidemment déplu à Sam Altman.

Mais la question matérielle suffit-elle à faire de Gemini un produit plus puissant que ChatGPT ? (Outre cette question, la hype et le mécontentement sur les conditions de travail chez OpenAI sont suffisamment forts pour que des employés clés aient quitté l’entreprise pour rejoindre Google).

Quid des implications environnementales d’un système aussi vaste et complexe que ce que Gemini pourrait être ? Et de celles en matière de sécurité pour les utilisateurs (auprès de Wired, en juin, Demis Hassabis se déclarait en faveur d’une ouverture anticipée de Gemini à destination du milieu académique, pour aider à son évaluation) ?

Sur tous ces points, on manque d’informations précises tant que Google ne sort pas du bois.

12
Avatar de l'auteur

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 22
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

Sommaire de l'article

Introduction

Réunion de Google Brain et DeepMind

Generalized Multimodal Intelligence Network

Guerre des producteurs d’IA

#Flock a sa propre vision de l’inclusion

Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

22
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 14
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 4

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 15

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 11
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 34
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 52
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 10

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 38
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 151

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (12)


Tandhruil
Il y a 2 mois

« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. »




Non, The Leader
https://upload.wikimedia.org/wikipedia/en/e/e1/The_Leader_%28Samuel_Sterns%29.jpg



Edit : Pas doué en Markdown :transpi:


nabnux Abonné
Il y a 2 mois

Une IA entraînée sur des milliards de commentaires YouTube, chouette !


Nozalys Abonné
Il y a 2 mois

Ça me désole d’avance pour les tarifs des GPU … on sort à peine de la difficile période des tarifs explosés par les cryptomineurs, on commence tout juste à retourner à des prix acceptables, et là on va replonger dans la pénurie à cause du machine learning…


tazvld Abonné
Il y a 2 mois

Achète AMD, NVidia a un quasi-monopôle sur les CG dédié à l’IA.


Trit’ Abonné
Il y a 2 mois

« Que sait-on de Gemini, le système d’IA de Google ? »



Ben, déjà, que ce n’est pas le vrai Projet Gemini, à savoir : le protocole Internet qui existe depuis le 20 juin 2019 et qui est carrément l’antithèse totale de ce que les GAFAM/MAGMA/Big Tech/géants du numérique veulent faire d’Internet (et du Web) pour leurs seuls intérêts exclusifs et au détriment des humains.



Si Solderpunk avait songé à déposer le nom de Gemini, je pense qu’il serait dans tous les cas en droit de signaler que celui-ci est déjà pris. J’espère donc que celui du projet de Google n’est que provisoire.


inpactcarglass Abonné
Il y a 2 mois

Merci pour ce très bon article!


127.0.0.1
Il y a 2 mois

nabnux a dit:


Une IA entraînée sur des milliards de commentaires YouTube, chouette !




une IA entrainée sur la transcription de l’audio des milliards de vidéo de science, technologie, philosophie, débats, actualités, …



exemple: https://www.youtube.com/watch?v=tmNXKqeUtJM




Notre Soleil, et la Terre, et toutes les planètes, et lunes, et planètes naines et astéroïdes et comètes ; le Système solaire, pour faire court ; s’est formé il y a environ 4,6 milliards d’années, à partir d’un nuage nébuleux de gaz et de poussière, qui ont fusionnés grâce à l’irrésistible force attractive de la gravité.
Cependant, cette nébuleuse a plus ou moins commencé à l’état de grosse masse informe, alors comment se fait-il que le système solaire ait aujourd’hui ses planètes et lunes orbitant toutes sur un même disque plan ? Je m’explique : nous avons tous déjà vu le modèle planétaire de l’atome - qui d’ailleurs est complétement faux appliqué à l’atome - mais il suggère tout de même par son nom que les planètes tournerent autour du Soleil sur différents plans.
Alors est-ce que notre système solaire est …



spidermoon Abonné
Il y a 2 mois

Gemini est Genesys, Genesys est Gemini :D


wagaf Abonné
Il y a 2 mois

Des trucs potentiellement intéressant qu ne mènent à rien, Google en annoncent depuis longtemps. On savait déjà qu’ils sont experts pour bruler tout le cash gagné avec la pub.



D’ailleurs l’article en question fait référence au fait que les chercheurs de Google se ventaient déjà de faire mieux que OpenAI… à l’époque de GPT-2.



Sauf que bien sûr contrairement à OpenAI ils n’ont rien sorti. Trop risqué.



C’est plus une démonstration de la paralysie interne de Google que de leurs capacités.


TroudhuK Abonné
Il y a 2 mois

Quid des implications environnementales d’un système aussi vaste et complexe que ce que Gemini pourrait être ?




Boaf vous savez, comme d’habitude ce sera la faute de “la demande”, les “consommateurs”, ils sont prêts à donner tellement de ce chiffre virtuel qu’on appelle argent, qu’on ne peut que répondre à ce bel enthousiasme en détruisant un peu plus la vie.


Paille1 Abonné
Il y a 2 mois

Hâte de lire les solutions et le planning des AI pour contrer le réchauffement climatique, rétablir un équilibre entre l’establisment et le populisme, limite les grandes migrations et la cerise garantir à boire et manger à 9 milliards d’être humains.


fofo9012 Abonné
Il y a 2 mois

Dalek