Google Cloud Next 2024 : Gemini déboule partout

Encore de l'IA ? :(

Alina Constantin / Better Images of AI / Handmade A.I / CC-BY 4.0

Pour son édition 2024, la conférence Google Cloud Next' poursuit son virage résolument tourné vers l’intelligence artificielle. L’entreprise a à cœur de montrer qu’elle n’est pas à la traine en dégainant une foule de service, dont de multiples évolutions basées sur Gemini.

Vincent Hermann

Le 11 avril à 08h00

13 min

IA et algorithmes

La conférence Google Cloud 2024 se déroule actuellement à Las Vegas et se terminera demain. Comme on pouvait s’y attendre, les annonces sont en majorité tournées vers l’IA, y compris sur la partie matérielle, comme nous l’avons vu dans notre article dédié :

CPU Axion, TPU v5p, A3 Mega et Confidential, GPU Blackwell : Google tire (encore) tous azimuts

Sur la partie logiciels et services, Gemini a la part belle, avec une série d’annonces centrées sur ses capacités, notamment dans la génération de contenus, avec, par exemple, un renforcement dans Google Workspace.

Google Workspace : toujours plus d’actions automatiques

Gemini se voulant l’assistant de travail par excellence, on n’est pas surpris de voir arriver une ribambelle de possibilités. Les abonnés payants auront par exemple la possibilité de dicter des instructions à la voix dans la fonction « Aidez-moi à écrire ». Une autre fonction va permettre la rédaction d’un email soigné à partir d’un brouillon.

Google va également proposer deux offres payantes. La première est un module complémentaire pour les réunions. Comme ce qu’on peut déjà voir chez Microsoft avec Teams, il s’agira d’une sorte de copilote capable de prendre des notes pendant les réunions, créer des résumés de ces dernières et de les traduire en 70 langues. L’autre sera dévolue à la sécurité et aura pour mission d’aider les administrateurs à mieux protéger les comptes Google Workspace. Chaque service sera proposé à 10 dollars par utilisateur et par mois.

Il y a également des ajouts non liés à l’IA. Ainsi, il est désormais possible de définir des alertes personnalisées quand une case spécifique d’un tableau est modifiée dans Google Sheets. Une série de modèles va également être proposée pour démarrer plus facilement certains projets.

Docs, de son côté, va recevoir des onglets au sein d’un même document, afin de mieux organiser les informations, au lieu de pointer vers d’autres documents ou de parcourir Drive. Exemple classique : pour une équipe travaillant sur un document commun, afin que les membres puissent ajouter des références. Docs supporte en outre désormais les images de couverture à fond perdu (quand la taille de l’image « déborde » du cadre de la page).

Quant à Chat, il peut maintenant supporter 500 000 membres (les entreprises ont de quoi voir venir). Surtout, grâce à un partenariat avec Mio, il devient interopérable avec Slack et Teams.

Gemini Pro 1.5 disponible en préversion publique

La version Pro 1.5 du modèle Gemini a techniquement été lancée en février. À l’époque cependant, presque personne ne pouvait l’utiliser, Google réservant cet accès à quelques entreprises triées sur le volet. Désormais, il est disponible en préversion publique.

Les caractéristiques n’ont pas changé, dont la principale : le support d’un nombre de jetons allant de 128 000 à 1 000 000. Avec ce nombre maximum, Gemini Pro 1.5 peut prendre en charge 700 000 mots ou 30 000 lignes de code environ, ce qui représente une énorme quantité d’informations. Avec une telle fenêtre contextuelle, le modèle est donc capable de « garder en mémoire » un très grand nombre de données lors de l’échange, surtout lorsque celui-ci se prolonge.

Avec la disponibilité en préversion publique, Gemini Pro 1.5 gagne le support des flux audios. Il peut donc chercher des informations dans pratiquement tous les médias, comparer les propos, etc. Les requêtes, cependant, prennent du temps, car on ne traite pas un millions de jetons en un éclair. Il faut ainsi entre 20 et 60 secondes pour obtenir un résultat.

United Wholesale Mortgage, TBS et Replit ont été citées comme entreprises travaillant déjà avec Gemini Pro 1.5. Selon Google, elles ont pu tirer parti du million de jetons pour des tâches comme l’automatisation du balisage des métadonnées dans une banque de médias, l’analyse avant souscription d’un prêt hypothécaire, ou encore la génération, l’explication et la transformation de code.

Gemini Assist : Google a son concurrent de GitHub Copilot

Google possédait déjà un assistant pour l’aide à la programmation : Duet AI, basé sur le modèle Codey. Du passé, l’entreprise fait table rase avec Gemini Assist, qui prend la suite des opérations.

Basé sur Gemini, Assist se veut un concurrent direct de GitHub Copilot Enterprise. Assist est compatible avec Gemini 1.5 Pro et, selon Google, fournit des recommandations plus précises. Surtout, l’assistant peut « raisonner » sur de plus grands pans de code.

« Cette mise à jour apporte une fenêtre contextuelle massive d'un million de tokens, la plus grande de l'industrie. Cela permet aux clients d'effectuer des changements à grande échelle dans l'ensemble de leur base de code, permettant des transformations de code assistées par l'IA qui n'étaient pas possibles auparavant », a ainsi indiqué le responsable Brad Calder pendant la conférence.

Les opérations possibles peuvent être personnalisées en fonction du code déjà produit par l’entreprise. Code Assist peut aussi puiser dans GitHub, GitLab ou encore BitBucket, et même dans les bases de code réparties entre plusieurs services. Plusieurs entreprises sont également partenaires de Google pour fournir à Assist leurs bases de connaissances, dont Datadog, Datastax, Elastic, HashiCorp, Neo4j, Pinecone, Redis, Singlestore, Snyk et Stack Overflow.

Le problème sera bien sûr d’exister face à un Copilot qui a maintenant une bonne longueur d’avance, simplement pour avoir été le premier. Google a réfléchi à la question, puisque Gemini Assist sera notamment disponible sous forme de plug-ins pour des environnements comme Visual Studio Code et JetBrains.

Restons dans la génération de code avec une autre annonce, liée : CodeGemma. Cette variante du modèle Gemma est dédiée au code et à l’assistance. Le nouveau modèle peut être utilisé depuis Vertex AI.

Gemini s’invite dans les bases de données

Pour « simplifier tous les aspects du parcours de la base de données », Google propose également une préversion de Gemini in Databases. Le nouveau service s’adresse aux administrateurs et développeurs travaillant de manière générale avec les bases de données dans Google Cloud.

Il est accompagné de Database Studio, un éditeur de requêtes SQL. Il doit simplifier l’écriture de requête, en se basant sur l’IA, pour détecter et corriger certaines erreurs. Il peut aussi, bien sûr, générer des requêtes en se basant sur les prompts des développeurs. Le Studio accueille aussi l’ensemble des migrations assistées par IA. Le code des bases peut être converti, le service pouvant expliquer ces changements et formuler des recommandations.

Un nouveau centre fait son apparition pour surveiller et interagir avec toutes les bases en langage naturel. Des outils sont fournis pour évaluer la disponibilité et la sécurité de chacune, ainsi que divers paramètres de vie privée. Là encore, des requêtes en langage naturel peuvent être utilisées, notamment pour recevoir des conseils quand des problèmes apparaissent.

L’idée est de pouvoir poser des questions « méta » aussi directes que « Indique-moi les bases de données en production en Europe n’ayant pas eu de sauvegarde au cours des dernières 24 heures ». Il s’agit, là encore, d’une réponse à Microsoft, qui a déjà lancé son Copilot pour Azure SQL Database.

Google Vids, un assistant de production dopé à l'IA

Google Vids a été présenté comme le prochain venu dans la suite Workspace. Il doit prendre place aux côtés de Docs et Sheets notamment et est centré, comme son nom l’indique, sur la vidéo. Pas question ici de générer entièrement des contenus à l’aide de l’IA, mais de se servir de cette dernière pour arriver plus rapidement au contenu visé.

L’idée est similaire dans sa philosophie aux autres fonctionnement déjà observés avec l’IA : fournir à l’application du contenu – texte, images, vidéos et autres – pour qu’elle en fasse un tout cohérent, selon les instructions données. L’outil doit assurer toutes les fonctions d’un assistant de montage d’écriture et de production. Une fois que les instructions et les données ont été fournies, Google Vids fournit un premier story-board, que l’on peut ensuite compléter et retravailler.

Google Workspace oblige, l’application fera la part belle à la collaboration. Non seulement elle simplifiera l’accès aux ressources, mais elle permettra à plusieurs de travailler en même temps sur le même contenu. « Plus besoin d’envoyer des fichiers par email », s’est ainsi enthousiasmée Aparna Pappu, vice-présidente et directrice de Google Workspace, pendant la présentation.

Toutes les opérations classiques attendues seront présentes, comme l’ajout de transitions, la réorganisation des chapitres, l’insertion d’une piste audio, l’ajout d’un script qui sera lu par une voix prédéfinie, etc.

Google Vids n’arrivera cependant pas avant des mois. Il fait l’objet de quelques tests pour l’instant et il faudra attendre juin pour que des essais plus larges soient menés. Il sera ensuite disponible pour les clients ayant un abonnement à Gemini for Workspace.

Vertex AI Agent Builder est dans la place

Ce nouveau service sert à la création d’agents d’IA, qui sont dans les grandes lignes des chatbots survitaminés. Contrairement à ces derniers, les agents ont un champ contextuel nettement plus large, peuvent relever des informations tout au long de la conversation, ou même interagir avec des systèmes transactionnels pendant les échanges.

Vertex AI Agent Builder veut simplifier leur construction, dans l’idée de générer rapidement des agents conversationnels prêts pour la production, personnalisés pour les besoins de l’entreprise et dédié à ses données. De même que pour le service déjà existant Vertex AI Search and Conversation, la création se fait sans code. Il peut se baser sur n’importe quel modèle de la famille Gemini. Il peut également utiliser les API RAG et la recherche vectorielle pour réduire les hallucinations.

Google met également en avant le « grounding », une technique visant à lier les réponses fournies par l’agent à une source considérée comme fiable. Dans Vertex AI Agent Builder, la source en question est Google Search, dont les résultats ne le sont pourtant pas toujours.

En exemple, Google a montré une entreprise fictive souhaitant de nouvelles idées et tendances pour développer son style. Elle a construit un agent capable d’analyser toutes les anciennes campagnes marketing. Ces dernières contenaient 3 000 images, des vidéos, des descriptions et des documents, autant de données stockées dans Google Drive. L’agent a pu alors générer des images, légendes, descriptions et autres contenus en se basant sur ces informations. L’histoire ne dit pas si l’entreprise fictive était satisfaite du résultat.

L’IA débarque aussi dans les outils de sécurité

Il fallait s’en douter, Google travaille elle aussi sur l’inclusion de ses LLM dans ses outils de sécurité. L’entreprise a largement mis en avant les capacités de Gemini, que l’on retrouve désormais dans Threat Intelligence, disponible en préversion. L’agent est spécialisé dans le code malveillant et permet des requêtes en langage naturel sur des menaces en cours ou des indicateurs de compromission.

Gemini in Threat Intelligence peut ainsi récupérer les renseignements de première ligne de Mandiant et fournir des renseignements à jour sur les acteurs malveillants. Il peut aussi automatiser la recherche d’articles de renseignements de source ouverte (OSINT) et en fournir des résumés « concis ».

Gemini in Security Command Center est l’autre produit annoncé. Lui aussi en préversion publique, il a pour mission de résumer les alertes critiques et de haute priorité pour tout ce qui touche aux vulnérabilités et mauvaises configurations. En analysant la structure de l’entreprise, il peut ensuite fournir des recommandations et proposer des attaques simulées pour fermer les exploits potentiels.

Google précise que ces deux produits, réunies sous la bannière Gemini in Security, sont basées sur l’API SecLM, qui personnalise l’utilisation de Gemini pour la sécurité.

Et en dehors de l’intelligence artificielle ?

Les annonces, pratiquement toutes centrés sur l’IA, pourraient presque faire oublier que la conférence s’appelle Google Cloud. D’autres produits ont été annoncés, comme Chrome Enterprise Premium. Chrome Enterprise est un service permettant aux entreprises de gérer finement la manière dont le navigateur est utilisé sur les postes de travail. Un administrateur peut par exemple définir les paramètres, les extensions qui sont automatiquement installées ou encore des listes blanches ou noires d’applications web. Ces capacités sont assorties de contrôles de sécurité.

La version Premium ajoute d’autres outils de sécurité : gestion et applications des politiques, gestion des mises à jour et des extensions, capacités supplémentaires de rapports de sécurité et d’enquête, intégration avec des outils tiers de sécurité ou encore contrôles d’accès contextuels. Complet, le service est également payant : 6 dollars par utilisateur et par mois.

Google a également lancé plusieurs nouveaux outils open source. On y trouve par exemple MaxDiffusion, une implémentation de référence pour les modèles de type diffusion, comme Stable Diffusion. Citons également Jetstream, un nouveau moteur dédié aux IA génératives de texte. Il n’est pour l’instant compatible qu’avec les TPU, les GPU devant arriver plus tard. On trouve aussi des ajouts dans MaxText, qui prend désormais en charge Gemma 7B, GPT-3, Llama 2 et les modèles de Mistral AI. Enfin, Optimum TPU, créé en collaboration avec Hugging Face, qui rassemble des outils permettant de simplifier la transmission de certaines charges de travail aux TPU.

Commentaires (2)

RuMaRoCO Abonné

Le 11/04/2024 à 09h34

(J'ai pas encore lu l'article mais je propose comme titre alternatif : Gemini, après la messe, le grand POP ?
Où trop obscure comme référence ;-) => [Cosmos énérgie ; etc

])

Erwan123 Abonné

Le 11/04/2024 à 15h13

Après lecture, ça fait un peu peur tout ça quand même... Ca avance vite, très très (trop?

) vite.

Que va-t-il rester aux humains? Le pouvoir de rêver ? Et encore...