Connexion
Abonnez-vous

IA : volée d’annonces chez Mistral, Github, OpenAI, Google et Kyutai

Wow, much IA !

IA : volée d’annonces chez Mistral, Github, OpenAI, Google et Kyutai

Durant les deux derniers jours, de nombreuses annonces ont eu lieu dans le monde de l’intelligence artificielle. Alors que s’ouvre en France le sommet sur l’IA, plusieurs entreprises ont lancé de nouveaux produits, dont Mistral, GitHub, OpenAI, Google et Kyutai. Passage en revue.

Le 07 février à 18h40

On commence par Mistral, qui vient de lancer son application mobile pour Le Chat, son assistant maison. L’application est disponible pour iOS/iPadOS (15.1 minimum) et Android (7.0 minimum) et est traduite dans de nombreuses langues, dont le français bien sûr.

Les performances comme argument

Le lancement de ces applications mobiles était attendu. L’entreprise française doit lutter dans un marché à la concurrence féroce. Continuer à proposer une simple version web devenait donc problématique.

« Alimenté par les modèles Mistral les plus performants et à la latence la plus faible, ainsi que par les moteurs d'inférence les plus rapides de la planète, le Chat raisonne, réfléchit et répond plus rapidement que n'importe quel autre assistant de chat, jusqu'à environ 1000 mots par seconde. Nous appelons cette fonctionnalité Flash Answers, et elle est actuellement disponible en avant-première pour tous les utilisateurs », annonce ainsi tout de go Mistral dans son communiqué.

La société met donc en avant ses performances pour faire la différence. Difficile pour l’instant de juger réellement d’un potentiel écart avec des données chiffrées, mais d’après nos propres constatations, Le Chat s’est avéré particulièrement rapide, avec une grande réactivité.

Autre superlatif, Le Chat bénéficierait du « meilleur traitement des téléchargements au monde », renvoyant aux capacités de l’assistant sur tout ce qui touche à la reconnaissance de documents (OCR) et à leur analyse. Le Chat serait également à la pointe dans la génération d’images, la fonction étant alimentée par le modèle Flux Ultra de Black Forest Labs, présenté comme le plus performant. Dans le communiqué, l’entreprise n’hésite pas à se comparer à ChatGPT et Grok.

Mistral n’indique pas directement quels modèles sont utilisés pour son assistant. On sait en revanche que l’entreprise développe les siens propres, comme son modèle génératif Mistral Large, ou son modèle multimodal Pixtral. Quand la version Large de ce dernier est sortie en novembre, le communiqué mentionnait que l’un des moyens de le tester était justement Le Chat. Des améliorations pour ce dernier avaient été annoncées également il y a quelques mois. Dans l’annonce d’hier, c’est à nouveau le cas. À noter que Mistral Large et Pixtral sont tous deux présents dans Amazon Bedrock, Azure AI Studio et Google Vertex AI.

Plusieurs moyens de se différencier

Mais en dehors du délicat terrain des performances, où les percées sont vite oubliées, comment Mistral compte-t-elle se différencier ? L’entreprise dispose de plusieurs arguments. D’abord sur les prix, puisque l’entreprise profite de l’occasion pour introduire un forfait Pro, à 14,99 dollars/euros par mois.

Pour ce prix, la formule donne un accès illimité aux modèles les plus performants proposés, même si l’on ne sait pas lesquels. Mistral évoque également un « accès étendu aux réponses Flash », ce qui signifie une limite plus haute, mais une limite quand même. On note aussi la possibilité de désactiver le partage de ses informations et la présence d’un support dédié.

Mistral pourrait cependant avoir une carte à jouer sur la capacité de son assistant à tourner localement. L’offre Enterprise permet en effet de déployer Le Chat sur site, dans un environnement dédié et avec des outils personnalisés, pour exploiter si besoin les propres données de l’entreprise, sans communication avec les serveurs de Mistral. Le fonctionnement de l’assistant peut également se baser sur des modèles personnalisés. Cette capacité vient d’apparaitre, mais uniquement en accès anticipé pour l’instant.

Enfin, Mistral compte proposer bientôt des agents multi-étapes, nouveau grand axe de développement chez la concurrence également. Objectif, connecter ses contenus et systèmes avec des agents capables d’automatiser « les parties ennuyeuses de votre travail ». L’entreprise n’en dit pas plus pour l’instant, mais elle aura fort à faire. Les agents sont l’une des fonctions les plus mises en avant depuis l’année dernière, notamment chez Microsoft. La conférence Build 2024 revenait ainsi régulièrement sur cette thématique.

GitHub améliore son Copilot

Le Copilot de GitHub est devenu rapidement le produit phare de l’entreprise, rachetée par Microsoft. La filiale vient d’annoncer plusieurs évolutions importantes pour son assistant, dont… un mode agent. La nouvelle fonction doit permettre à Copilot d’itérer sur son propre code et de corriger automatiquement ses erreurs.

Le lancement de ce mode agent est une réponse du berger à la bergère. GitHub a largement popularisé le concept d’assistant dans le développement, mais se retrouve menacé par de jeunes entreprises aux grandes ambitions, dont Bolt, Cursor ou encore Replit. GitHub imagine donc un monde où les développeurs seront bientôt rejoints par des équipes d’agents IA toujours plus intelligents, qui agiront comme autant de « pair-développeurs » pour prendre en charge les tâches quotidiennes.

Ce mode agent, plus autonome, cherche à analyser les exigences de la tâche complète avant de générer du code. Il peut, selon GitHub, « déduire » d’éventuelles tâches supplémentaires qui n’ont pas été spécifiées par les développeurs humains, mais qui lui semblent requises. Il va ensuite itérer sur le code produit et le résultat de ce dernier, jusqu’à ce que toutes les tâches « déduites » soient accomplies.

Et GitHub va encore plus loin. Selon l’entreprise, son mode agent est capable de reconnaitre automatiquement ses propres erreurs, peut corriger les problèmes identifiés sans intervention des développeurs, surveille les erreurs pendant l’exécution et fournit des corrections, et peut suggérer et exécuter les commandes nécessaires dans le terminal. Les nouveautés peuvent être testées en passant par la version Insiders de Visual Studio Code.

GitHub évoque également l’avenir en indiquant qu’à terme, son projet Padawan permettra d’aboutir à un agent totalement autonome, à qui on pourra confier une liste de tâches de développement. Plus précisément, on pourra confier à Padawan un problème, l’agent s’occupant alors d’en définir toutes les étapes intermédiaires et les solutions allant avec. La fonction doit arriver d’ici la fin de l’année, sans plus de précisions.

OpenAI ouvre sa recherche ChatGPT à tout le monde

Parallèlement, OpenAI vient d’ouvrir sa recherche ChatGPT à tout le monde, sans plus nécessiter de compte. Initialement, la fonction était apparue en octobre dernier pour les personnes payant un abonnement. Deux mois plus tard, elle a été étendue à l’ensemble des utilisateurs, mais en exigeant un compte. Désormais, le champ est libre pour partir plus frontalement à l’assaut de Google et des autres moteurs de recherche.

Cette ouverture aura attendu que plusieurs séries d’améliorations viennent enrichir le service. La dernière salve date de décembre, quand la recherche est devenue accessible à tous les détenteurs de comptes. OpenAI a alors ajouté diverses capacités, dont surtout l’affichage des cartes et d’informations liées, comme les points d’intérêt. Ce type de fonction progresse rapidement, Perplexity ayant par exemple fait de même récemment. Après tout, si ChatGPT et ses concurrents veulent concurrencer pleinement les moteurs de recherche, autant en reprendre tous les attributs.

Parallèlement, Microsoft a annoncé hier soir la disponibilité dans Azure OpenAI Service des préversions de GPT-4o-Mini-Realtime-Preview et GPT-4o-Mini-Audio-Preview. Le premier modèle est destiné aux interactions vocales en temps réel. Il se destine clairement aux chatbots, particulièrement ceux tournés vers la clientèle. Ce modèle doit permettre des échanges naturels avec la voix, permettant selon Microsoft une plus grande rapidité dans les questions/réponses. Le second modèle est plus général et se destine aux interactions audios au sens large. Il ne permet pas de faire plus que GPT-4o, mais peut le faire pour « une fraction de prix », selon l’éditeur.

Quand les deux modèles seront disponibles en versions finales, ils seront intégrés aux API Realtime et Chat Completion fournies par Azure OpenAI. Microsoft ne tarit pas d’éloges sur ces capacités, qui pourraient jouer un rôle dans tout ce qui touche à la génération vocale, aussi bien dans les jeux vidéo que les podcasts, en passant par le cinéma.

OpenAI a également annoncé il y a quelques jours la possibilité de stocker les données en Europe. Ce choix n’est pour l’instant disponible que pour les nouveaux projets ChatGPT Enterprise, ChatGPT Edu et pour l’API. Pour cette dernière, les demandes seront également traitées dans la région européenne. Aucune bascule ne semble prévue pour les projets existants. OpenAI ajoute dans son annonce que les données sont chiffrées au repos en AES-256, que ses modèles ne sont pas entrainés « par défaut » sur les données des clients et que ses pratiques sont conformes avec le RGPD.

Google : du raisonnement et à nouveau des agents

Chez Google également la semaine a été chargée. Mercredi, la société a publié une série d’annonces sur ses modèles Gemini 2.0, dont une version expérimentale de son très attendu Gemini 2.0 Pro, qui prendra logiquement la succession de l’actuelle version 1.5 Pro. Cette préversion est disponible dans Vertex AI et Google AI Studio, et arrivera bientôt dans l’application mobile Gemini pour les détenteurs d’un compte Advanced.

Gemini 2.0 Pro prendra la relève en tant que modèle phare, avec une fenêtre de contexte de 2 milliards de jetons, ce qui correspond à peu près à 1,5 milliard de mots. Le modèle peut également « utiliser des outils tels que la recherche Google et l'exécution de code », précise l’éditeur. Dans son annonce, Google fournit un tableau réunissant différents benchmarks de ses modèles, et où Gemini 2.0 Pro arrive bien sûr en tête.

Parallèlement, Google a mis son modèle Gemini 2.0 Flash à la disposition du grand public. Annoncé initialement en décembre, il est désormais disponible depuis l’application Gemini, ainsi que dans Vertex AI et Google AI Studio.

Et puisque l’on parle de Flash, Google donne des nouvelles de deux variantes. D’abord, Gemini 2.0 Flash-Lite, une version qui se veut économique. Disponible, elle aussi, dans Google AI Studio et Vertex AI, elle doit donner le change dans un contexte largement bousculé par le modèle chinois DeepSeek. Flash-Lite garde la même fenêtre contextuelle d’un million de jetons et accepte les entrées multimodales. Selon Google, il préserve les performances de la version 1.5, tout en donnant de meilleurs résultats.

Quant à Gemini 2.0 Flash Thinking Experimental, un modèle de raisonnement disponible uniquement dans AI Studio jusqu’à présent, il arrivera bientôt dans l’application Gemini. Google n'indique cependant aucune date.

Kyutai revient avec une technologie de traduction simultanée

Kyutai, présenté comme un laboratoire en IA open-science à but non lucratif et fondé par Xavier Niel, Rodolphe Saadé et Eric Schmidt fin 2023, revient avec une nouvelle technologie. Dans un communiqué hier, Iliad annonce ainsi Hibiki, une technologie présentée comme capable d’assurer une traduction simultanée préservant la voix du locuteur. Hibiki pourrait « adapter son rythme au contenu sémantique du discours source ». La traduction orale se ferait en temps réel.

Toujours selon Iliad, Hibiki n’a pour l’instant été entrainé que pour traduire du français vers l’anglais. Il pourrait être déployé facilement dans le cloud et se montrerait assez efficace pour une « utilisation en temps réel sur mobile ».

La technologie a fait l’objet d’une publication sur ArXiv. Le modèle est open source et disponible sur Hugging Face. L’arrivée d’Hibiki se fait six mois après celle de Moshi, un prototype d’assistant vocal.

Enfin, toujours chez iliad, un plan d’investissement a été annoncé ce soir : « OpCore [le nouveau nom depuis juin 2023 de Scaleway Datacenter, NDLR], la filiale qui opère les 13 datacenters du Groupe, va investir 2,5 milliards d’euros afin de renforcer sa position de leader européen du datacenter hyperscale dédié notamment aux ressources de calcul IA ». Une annonce dans la continuité de celle de décembre 2024 quand iliad annonçait vouloir devenir « un leader européen du data center hyperscale ».

Dans la même veine, « le Groupe a aussi investi dans la plus grande capacité de calcul commercialisable en Europe pour l’IA. Ce sont ainsi près de 5 000 GPUs dernière génération qui sont mis à la disposition des entreprises pour entraîner et utiliser leurs modèles ». Parmi les partenaires il y a Mistral AI, H et Photoroom. Là encore, c’est la continuité d’une annonce de 2023.

Commentaires (12)

votre avatar
Pour information, des cookies tiers ont été bloqués dès que je suis arrivé sur la page. En regardant, ce sont les cookies youtube.

[edit]
Je précise : sans aucune interaction de ma part, bien évidemment.

Sur ce, je retourne à la lecture de l'article ;)
votre avatar
Étrange car les vidéos sont bien intégrées en « Youtube-nocookies », je vais regarder. Tu peux me dire ce que tu utilises pour voir/bloquer les cookies ?
votre avatar
C'est directement le navigateur, sous Chrome. A droite de la barre d'adresse, j'ai un oeil barré, quand je clique dessus, je peux activer les cookies tiers. Quand je le fais, ça me rajoute des cookies pour youtube.
votre avatar
Perso j'ai plus radical pour bloquer les cookies Youtube : j'ai gardé Privacy Redirect actif dessus malgré qu'Invidious se soit fait tuer par Google. Comme ça, page d'erreur de l'instance en question à la place.

Problem solved, pas d'intégration Youtube, pas de tracking non consenti imposé :yes:
votre avatar
Perso j'ai commencé à faire mumuse avec SearXNG + OpenWebUi pour faire de la recherche améliorée par LLM.

Ça marche plutôt bien de mes premiers tests, les temps de traitement ne sont pas trop longs et ça permet de comprendre comment ça marche derrière. Par contre, quelques soucis de CAPTCHA ou de rate limits, forcément.
votre avatar
Bravo à Mistral pour avoir aussi identifié ce qui bloque ave cl'IA US: l'installation on premise.
Il faut aussi un mode "sans filet": ici impossible d'utiliser sans problème plein d'IA (dont llama) en local, car avec des dossiers qui parlent potentiellement de crimes, ben l'IA dans le domaine judiciaire et social elle est souvent en PLS, tout gênée à nous dire que la conversation s'arrête ici ...
votre avatar
Les versions abliterated des modèles dispo sur ollama sont capables de répondre à ces soucis.
votre avatar
Merci, effectivement il y a des uncensored. Et le principe, j'aime bien, c'est le boulot que je voulais faire il y a 10 ans: "rééducateur d'IA" :)
votre avatar
Pour utiliser ces modèles décensurés comme assistant d'écriture, je te confirme qu'ils ont (pour le moment de mon xp) moins de soucis avec des sujets à risques. Ils ont toujours tendance à vomir de la morale ("tu comprends, c'est pas bien d'égorger des gens avec une petite cuillère"), mais il me décrira le procédé quand même.

Perso j'aime aussi tester les limites des modèles hébergés. Je me dis qu'à force de les faire pleurer, ça doit mécaniquement contribuer à réduire le besoin en eau pour refroidir les data center. Soyez eco-responsable : faites pleurer les IA :p
votre avatar
(pas ecore lu l'article)

- IA, une chevauché d'annonces.

- IA n'a marre...

- IA plus cas.



PS : La blague etait de lire pour que ça donne à l'oral l'quivalent de "Y a (la contraction de "Il y a") mais decidement je suis trop mauvais en jeu de mots.
Désolé :roll::pleure: :-D:-D
votre avatar
AI: définition: Mammifère frugivore et mangeur de feuilles qui vit, du Honduras à l'Argentine, suspendu aux branches des arbres sans guère se déplacer. (Nom usuel paresseux à trois doigts ; ordre des xénarthres.)
votre avatar
En France, on a trop de fric...
Tiens, je vous rajoute encore une petite agence payé avec vos zimpots :D
https://www.economie.gouv.fr/actualites/la-france-se-dote-dun-institut-national-pour-levaluation-et-la-securite-de-lintelligence

IA : volée d’annonces chez Mistral, Github, OpenAI, Google et Kyutai

  • Les performances comme argument

  • Plusieurs moyens de se différencier

  • GitHub améliore son Copilot

  • OpenAI ouvre sa recherche ChatGPT à tout le monde

  • Google : du raisonnement et à nouveau des agents

  • Kyutai revient avec une technologie de traduction simultanée

Fermer