L’entreprise d’Elon Musk vient de lancer des préversions pour deux nouveaux modèles d’IA, Grok-2 et Grok-2 mini. Les performances sont présentées comme largement supérieures à la précédente version 1.5. La génération d’images fait également son entrée, avec déjà de sérieux dérapages potentiels.
xAI a été créée il y a à peine un an, en juillet 2023. À l’époque, Elon Musk avait déclaré que le but de cette nouvelle entreprise était de « comprendre la véritable nature de l’univers ». Fondée pour faire de la recherche sur l’intelligence artificielle, elle a récupéré rapidement d’anciens employés de Google, Microsoft ou encore OpenAI.
En novembre, une première version du modèle maison, Grok, a été rendue disponible. C’est en fait aussi bien le nom du modèle que de la fonction, un chatbot intégré dans X permettant différentes actions d’écriture, dont la reformulation des messages, ou encore les résumés d’actualités. Il avait été présenté comme sachant manier l’humour et insolent, tourné vers la « vérité » et « anti-woke ». Mais on l’a aussi pris en flagrant délit de fake news.
Depuis, xAI a réalisé une levée de fonds de 6 milliards de dollars pour concevoir des produits autour de Grok. Plus récemment, X a été accusé d’utiliser par défaut tous les messages de ses utilisateurs pour l’entrainement de Grok.
Une préversion pour Grok-2, une variante mini
Il aura fallu moins d’un an pour qu’une préversion de Grok-2 soit disponible. Dans un message publié hier soir sur son site, xAI présente son nouveau modèle comme particulièrement performant. Un tableau est d’ailleurs fourni, montrant les écarts significatifs avec l’actuelle version 1.5 du modèle. xAI indique que les scores de GPT-4-Turbo et GPT-4o proviennent de la version de mai et que ceux de Claude 3 Opus et Claude 3.5 Sonnet sont de juin.
Les deux nouveaux modèles « atteignent des niveaux de performance compétitifs par rapport à d'autres modèles frontières dans des domaines tels que les connaissances scientifiques de niveau supérieur (GPQA), les connaissances générales (MMLU, MMLU-Pro) et les problèmes de compétition en mathématiques (MATH). En outre, Grok-2 excelle dans les tâches basées sur la vision, offrant des performances de pointe dans le raisonnement mathématique visuel (MathVista) et dans la réponse à des questions basées sur des documents (DocVQA) », affirme l’entreprise.
Grok-2 mini, présenté comme « petit frère » de Grok-2, propose quant à lui « un équilibre entre la vitesse et la qualité des réponses ».
Cette préversion de Grok-2, de son vrai nom « sus-column-r », provoque depuis son apparition un vaste enthousiasme. Bien que ses performances doivent être mesurées par d’autres, le potentiel semble là. S’agissant en outre d’une « bêta », la version finale pourrait aller un peu plus loin. xAI affirme dans tous les cas que son nouveau modèle est particulièrement bon dans tout ce qui touche aux discussions, à la programmation et au raisonnement.
Les abonnés Premium et Premium+ sur X peuvent déjà utiliser Grok-2.
Une nouvelle API pour accompagner le lancement
D’ici la fin du mois, une nouvelle API sera proposée aux développeurs pour accéder aux modèles. Cette interface en profitera pour apporter plusieurs améliorations.
xAI met en avant « une nouvelle pile technologique » permettant des déploiements d’inférence multirégionaux, avec à la clé « une faible latence dans le monde entier ». L’authentification à facteurs multiples (Yubikey, Apple TouchID, TOTP…) deviendra obligatoire. Des statistiques de trafic plus précises seront aussi fournies, de même que des « analyses de facturation avancées (y compris des exportations de données détaillées) ».
Une API de gestion sera également proposée. Elle permettra la gestion des équipes, des utilisateurs et de la facturation.
Génération d’images : des dérapages en perspective
L’une des plus grosses nouveautés de Grok-2 est sa capacité à générer des images, via le modèle FLUX.1. Les premiers résultats suggèrent qu’aucun garde-fou n’ait été implémenté sur la fonction. Elle autorise en effet à peu près tout et n’importe quoi, y compris des images intégrant des personnalités politiques et autres personnes réelles.
Le développeur Benjamin De Krajer, franchement enthousiaste au sujet de Grok-2, s’est déjà amusé à publier plusieurs messages montrant les possibilités sur la génération d’images, dont plusieurs avec Donald Trump, par exemple en train de tirer avec deux revolvers. Une autre présente Georges W. Bush devant une ligne de cocaïne.
Bien que leur style soit volontairement peu réaliste, d’autres images publiées depuis montrent le potentiel de la machine. La fonction sera d’autant plus à surveiller qu’elle arrive en pleine campagne électorale américaine sous haute tension.
Le danger, bien sûr, est que les images viennent accompagner ou constituent d'inévitables fake news. Autre effet délétère de leur multiplication, la méfiance grandissante à l’égard des contenus, particulièrement quand la narration ne plait pas. Conséquence, il devient possible d’étiqueter un contenu de « fake news » et de jouer sur les capacités « reconnues » de l’IA à jouer avec les images.
Donald Trump a ainsi attaqué son adversaire Kamala Harris sur son propre réseau Truth Social, évoquant une photo publiée lors du passage de la candidate à l’élection présidentielle dans le Michigan. Selon l’ancien président, cette photo était générée par IA. Cependant, comme indiqué par Business Insider, la photo était authentique. Plusieurs messages sur X, multipliant les points de vue ou relayant des vidéos de l’évènement, l’ont prouvé.
Commentaires (11)
#1
#1.1
Merci à Musk de combattre l'infâme Gemini : https://x.com/PaulHook_em/status/1823605689169686712
#1.2
#2
- soit X ment sur les résultats de bench (je n'ai lu récemment aucune publication où le nouveau modèle surclasse tous les autres dans tous les domaines)
- soit X ne ment pas, et il est bien plus "facile" d'obtenir de bons résultats sans garde fou. (j'ai cru comprendre que cette dernière étape de pondération après l'entraînement était très chronophage, et très complexe)
En tout cas, comparé aux centaines de milliards et années investis par les autres firmes du secteur, pour la plupart a priori bien plus que pour Grock, en tant que non spécialiste, je ne vois pas d'autre explication. Quelqu'un aurait une hypothèse alternative à proposer ?
#2.1
#2.2
#2.3
De manière générale, on est dans une phase où de nouveaux modèles surclassant les précédents sortent tous les mois voire toutes les semaines.
Musk a lui aussi investi des milliards pour acheter des H100 à NVIDIA, il s'est même vanté d'en avoir acheté plus que les autres. Il est aussi possible que le modèle de Grok 2 soit plus gros que les concurrents équivalents, et donc coûte plus cher à faire tourner.
#3
#3.1
#3.2
Historique des modifications :
Posté le 16/08/2024 à 14h09
Non, il faudrait quelque chose de plus crédible. ^^'
#4
Je ne suis pas sûr que les bridages soient dans le modèle (genre le modèle ne connaitrait pas tel ou tel nom), mais ils sont ajoutés a posteriori, en annexe du prompt.
Même sur des implémentation Cloud où ce type de limitation est facile à mettre (tant que les admin du cloud les acceptent), ba c'est pas la panacée.
Maintenant que l'on commence à voir des implémentations locales, on aura inévitablement des implémentations non bridées.
Surtout que la satire reste un droit.
Et il n'y a pas eu besoin d'attendre l'IA pour détourner des images de façon trompeuse.
Je crains que l'unique façon de nous sortir de cette impasse, c'est l'éducation et l'esprit critique.
Bon, OK, on est dans la merde, mais il va bien falloir affronter ce nouveau risque.