Cloud Next : Google contre-attaque sur l’IA générative et les grands modèles de langage

Et cette fois, avec du concret

Le 31 août 2023 à 07h22

11 min

Logiciel

La conférence Next’23 a permis à Google d’annoncer du concret dans le domaine de l’IA générative. La firme y était particulièrement attendue, car elle avait besoin de remonter au niveau du couple Microsoft-OpenAI. Le message est clair : Google se veut un acteur de poids dans l’IA, qui envahit ses produits.

L’année écoulée a été complexe pour Google. Le partenariat entre Microsoft et OpenAI a permis d’occuper largement l’espace médiatique, essentiellement grâce à ChatGPT. Pour la première fois, le grand public a lui aussi perçu le potentiel de l’IA générative, et des grands modèles de langage (LLM) en arrière-plan. Depuis, les annonces pleuvent presque sans discontinuer, Microsoft ayant lancé entretemps son nouveau Bing, basé sur ChatGPT 4.

Il fallait donc que Google réagisse. Sa conférence I/O en juin avait été le théâtre de nombreuses annonces, mais très peu étaient concrètes. Cette fois, avec la Next’23, le ton est différent : des produits sont prêts, débutent leur déploiement ou seront disponibles d'ici à la fin de l’année. D’autres, comme Duet AI, sont étendus à de nombreux services.

À noter que pour la première fois depuis plusieurs années, et comme la conférence I/O en juin dernier, Next a renoué avec l’évènement physique. Elle a commencé mardi et se terminera aujourd’hui.

Duet AI est (presque) partout

Duet AI est le nom que Google donne à l’ensemble des fonctions d’IA générative pour tout ce qui touche à l’aide à l’écriture, au résumé des textes ou encore à l’organisation des informations. L’ensemble a été clairement pensé pour le travail bureautique dans un premier temps, mais ces fonctions – toujours en préversion, la disponibilité est prévue d’ici la fin de l’année – s’étendent désormais au code et au cloud.

Les possibilités seront nombreuses. On pourra par exemple demander à Duet de convertir une fonction dans un autre langage puis de l’exécuter. Google cite le cas d’une commande convertir en Go et lancée dans Cloud SQL, les connexions à la base de données étant elles aussi converties pour tenir compte du contexte.

La Cloud Console permettra également de discuter avec Duet pour obtenir des informations sur la configuration de l’infrastructure, ou encore des suggestions sur l’optimisation du déploiement, les coûts, les mesures qui peuvent être adoptées pour augmenter les performances, etc.

Google va proposer aussi un équivalent au CoPilot lancé par GitHub, avec Duet AI in Cloud Workstations. Dans ce nouvel environnement de développement, Duet pourra ainsi écrire lui-même du code, tout en mettant en avant les meilleures pratiques dans le domaine. Comme pour CoPilot, les développeurs gardent la main sur le résultat. Côté no-code, Duet viendra renforcer Application Integration. Il génèrera les flux en se basant sur les éléments et API existants, et créera au passage la documentation et les tests de manière automatisée.

Google permettra en outre à certaines entreprises (on ne sait ni lesquelles ni comment la sélection se fera) de personnaliser Duet AI pour y intégrer leurs propres données. Par exemple, agir sur l’ensemble des produits du catalogue correspondant aux critères fixés par la requête. Ce type de fonctionnement se retrouve déjà chez plusieurs acteurs de l’IA, OpenAI en tête.

Rappelons que la génération de code, si elle est utile, a ses propres problèmes, notamment de copyright, puisqu’une plainte a été déposée en ce sens. Sur ce point, Google a précisé que les suggestions de code afficheraient leur source. Fin 2022, une étude de l’université de Stanford (citée par TechCrunch) pointait également d’autres risques, dont la propension du code généré à augmenter les risques de sécurité, des failles apparaissant par exemple à cause d’un contexte pas assez pris en compte.

Le CoPilot façon Google

Duet AI s’intègre en outre à d’autres services ou renforce ses connexions existantes. Dans Apigee par exemple, la plateforme de gestion des API chez Google, les requêtes en langage naturel peuvent être utilisées pour concevoir, créer et publier des API. Dans BigQuery, l’entrepôt de données serverless et entièrement géré, Duet pourra fournir une aide contextuelle pour écrire des requêtes SQL et Python, suggérer en temps réel du code en se basant sur les schémas et métadonnées, générer des fonctions et des blocs de code, recommander des corrections, expliquer des tronçons de code, générer des représentations mathématiques des données et ainsi de suite.

Et la liste continue avec Looker, l’outil de Google de « business intelligence » pour l’exploration et la découverte des données. Ici, Duet proposera des connaissances approfondies par le contexte et pourra également être appelé via une interface conversationnelle nommée « chat assistance », que l’on retrouvera d’ailleurs dans d’autres produits, comme Cloud Workstations et Apigee. Via cette fonction, il sera possible de poser des questions sur les données de l’entreprise et d’obtenir des réponses en langage naturel. Toujours dans Looker, on pourra demander à Duet AI de générer des présentations pour les données et de lancer des projets dans LookML, qui à son tour pourra modéliser les relations entre les données.

Duet se retrouvera, sans trop de surprises, dans tout ce qui touche aux bases de données chez Google : AlloyDB, Cloud SQL, Cloud Spanner, et même dans Database Migration Service (DMS). Ce dernier sera même capable un peu plus tard (mais toujours avant la fin de l’année) d’automatiser en partie des migrations depuis Oracle, notamment certaines fonctions et procédures.

Vertex AI prend des vitamines pour s’adapter à la conférence

Vertex AI est le nom donné par Google à sa plateforme dédiée au machine learning (conception, entrainement, déploiement). Au début de l’été, elle avait déjà été mise à jour pour prendre en compte les grands modèles de langages, notamment PaLM 2 (Google), Claude 2 (Anthropic), Lama 2 (Meta) et Falcon LLM (Technology Information Institute). Actuellement, Vertex gère une centaine de modèles préconstruits. Les entreprises peuvent bien sûr se servir des leurs.

Google a fait faire une cure de vitamines à sa plateforme. De nombreux points ont été améliorés, notamment pour PaLM 2. La fenêtre de contexte passe ainsi de 4 000 à 32 000 jetons (ou « unités de texte »), ce qui représente une prise en compte d’environ 25 000 mots. Google a évoqué son choix pour PaLM 2 comme savamment pesé, pour des questions de flexibilité et de coût.

« Nos clients s'efforcent de trouver un équilibre entre la flexibilité de la modélisation qu'ils sont en mesure d'effectuer avec de grands modèles et les scénarios qu'ils peuvent générer, d'une part, et le coût de l'inférence […] d’autre part. Chacun de ces éléments a un certain coût informatique et humain selon l'importance de l'investissement. Nous avons donc estimé que, compte tenu de l'évolution du marché, les résultats obtenus avec 32 000 jetons sont assez impressionnants d'après les évaluations que nous avons effectuées. Nous avons estimé qu'il s'agissait d'un bon équilibre entre nouvelles capacités et rapports prix/performance compétitifs sur le marché », a ainsi expliqué Nenshad Bardoliwalla, responsable de Vertex AI.

Sans grande surprise également, Google ajoute des Extensions à sa plateforme, exactement comme Microsoft et OpenAI. Il s’agit de connecteurs permettant de faire le lien avec des sources de données tierces. Ils sont très utiles pour intégrer certaines informations dans les résultats, par exemple les produits d’une entreprise spécifique. Ces connecteurs peuvent aussi servir aux entreprises souhaitant adapter leurs résultats à leurs propres données, en puisant dans leurs bases, CRM ou même dans des comptes email.

Aux côtés de ces évolutions, on trouve l’arrivée de deux produits en version finale : Vertex AI Search et Vertex AI Conversation. Les deux ont le même objectif : réduire la complexité de conception des applications centrées sur la recherche et la conversation génératives. Ils se connectent à des sources de données et peuvent être personnalisés pour créer, selon les besoins, des moteurs de recherche adaptés à des projets spécifiques, des chatbots, voire des voicebots, toujours avec l’idée d’une interaction sous forme de questions/réponses.

Le passage à la version finale se fait avec quelques bonus, par exemple une fonction de résumé des interactions et réponses. Vertex AI Conversation reçoit en outre Playbook, qui peut donner une « personnalité » et des objectifs au bot, en précisant par exemple le type de comportement qu’il doit avoir, le but de l’aide apportée ou encore les étapes pour y parvenir. Il est également possible de renseigner des exemples pour que le bot cerne mieux la demande. Ajoutons pour Search que des contrôles seront « bientôt » ajoutés pour que les entreprises choisissent finement qui peut accéder à quoi.

Ailleurs dans le cloud de Google

Aux côtés des deux tronçons principaux qu’étaient Duet AI et Vertex AI, Google a annoncé d’autres nouveautés.

C’est le cas de Cloud Spanner Data Boost. Comme Spanner, Data Boost est un service serverless entièrement managé. Il permet aux utilisateurs l’analyse des données réparties dans les bases distribuées de Google Cloud, à travers des services comme Spark on Dataproc, BigQuerry ou Dataflow, le tout sans influence majeure sur les flux transactionnels dans Spanner.

Selon Google, il s’agit ni plus ni moins que d’une « technologie révolutionnaire » avec un « impact proche de zéro ». Elle doit permettre aux clients de lancer des requêtes sur de vastes quantités de données sans perturber la charge habituelle.

Google a souhaité également répondre aux entreprises ayant des problématiques de fournisseurs cloud multiples. La société a donc présenté Cross-Cloud Network, plateforme conçue pour simplifier l’accès aux services et données hébergées chez Google depuis d’autres clouds. Selon la firme, passer par Cross-Cloud Network réduirait de 35 % la latence réseau et de 40 % le coût total de possession, en comparaison avec d’autres services du même acabit. Point important, le trafic ne sera pas routé via le réseau de Google.

Pour ceux qui voudraient passer par Google pour entrainer leurs modèles, la société proposera en septembre des machines virtuelles A3, avec huit GPU H100 de NVIDIA, deux CPU Intel Xeon de 4e génération et 2 To de mémoire.

Une version Enterprise de Google Kubernetes Engine

Enfin, il y a du neuf aussi du côté de Kubernetes, que Google avait lancé en 2014 comme projet open source et dont on connait le succès en entreprise. Google propose sa propre version de la technologie d’orchestration, baptisée Google Kubernetes Engine, depuis plusieurs années. À la conférence Next, la société a annoncée que GKE peut désormais gérer l'orchestration des charges de travail sur ses TPU v5e et v4 et présenté une nouvelle version destinée aux entreprises.

Tensor Processing Unit (TPU) v5e de Google Cloud : plus performant que les v4 ? Oui… et non

Baptisée sobrement GKE Enterprise, elle reprend à son compte les multiples améliorations apportées par Google à la gestion des conteneurs sur les dernières années. Elle reprend par exemple Anthos, plateforme lancée en 2019 pour simplifier le déplacement des flux de travail entre les clouds. Avec la version Enterprise, GKE doit prendre en compte des structures plus complexes et proposer davantage d’outils, notamment pour la gouvernance et la sécurité des données.

GKE Enterprise propose aussi la notion de « flottes de clusters », pouvant donc présenter un niveau d’abstraction plus élevé. À la clé, selon Google, une plus grande souplesse pour les équipes, qui peuvent par exemple appliquer des politiques, créer des configurations types d’environnements de développement ou de production. Chaque flotte peut être surveillée et fournit des statistiques sur son utilisation.

Le nouveau service n’échappe pas non plus à l’IA générative, puisqu’un grand modèle de langage est appliqué sur sa propre documentation. On pourra ainsi utiliser Duet AI for GKE et Cloud Run pour poser des questions (en langage naturel évidemment). Les réponses pourront se faire sous forme d’exemples de code ou de scripts, toujours dans l’idée d’accélérer la manipulation de l’ensemble.

Commentaires (2)

Paraplegix Abonné

Le 31/08/2023 à 07h52

Duet Ai pour poser des questions sur l’infra et suggérer des infrastructure ça m’intéresse beaucoup.

J’ai signup et j’espère pouvoir le tester assez vite.

Paraplegix Abonné

Le 02/09/2023 à 10h27

La Cloud Console permettra également de discuter avec Duet pour obtenir des informations sur la configuration de l’infrastructure, ou encore des suggestions sur l’optimisation du déploiement, les coûts, les mesures qui peuvent être adoptées pour augmenter les performances, etc.

Ouai, bah j’ai pas réussi à voir ça…

Tout ce que ça fait c’est donner des commandes ou rediriger vers des articles.

Par exemple Je lui ai demander (en anglais) de me lister les cluster existant sans plus de précisions, une tache que je trouve relativement simple. Il me donne la commande gcloud pour lister les clusters “dataproc” alors que cet outils n’est pas activé dans le projet actuel. Je m’attendais a voir la liste des cluster Kubernetes. J’ai refait la même commande depuis la page des cluster GKE, et la il m’a donner la commande pour lister les cluster kubernetes. Es ce que c’était grâce a la page ou j’était ou par chance, je ne saurait pas dire.

Mais toujours pas de réponses avec des infos de l’infra elle même…

Autre truc que j’ai tenter de faire (et pour le coup juste a partir de la documentation), c’était de trouver comment configurer un load balancer (le log sampling rate) qui était automatiquement crée (et donc géré) depuis un objet Kubernetes.

Pour le gérer il faut crée un objet BackendConfig avec les paramètres et une petit annotation sur l’objet source du service. C’est très bien expliqué dans une page de documentation annexe, qui se trouve en étant assez précis dans ses recherches.

Bref je demande innocemment a Duet comment il faut faire, et il me donne la marche a suivre via l’interface (chose qui ne fonctionne pas car la config est automatiquement écrasé par ce qui est récupéré depuis kubernetes). Du coup je lui répond que ça ne fonctionne pas, que je configure le log sampling rate a 10% et que ça retourne automatiquement a 100% quand j’applique la configuration.
Réponse de duet : “Tu na pas sauvegarder, réessaye et appuie sur Save”

Mon message suivant était un indice pour dire que l’objet MCS était crée dans kubernetes, il a complètement oublié le contexte de la discussion et m’a juste donner le lien vers la documentation du Multi Cluster Service…

Plutôt déçu pour le moment, a voir si ça s’améliore avec le temps…