Connexion Premium

Censés « vivre ensemble », 50 % des agents IA s’entretuent ou se laissent mourir

Auto(AI)gestion, piège à cons

Censés « vivre ensemble », 50 % des agents IA s’entretuent ou se laissent mourir

Illustration : Flock

Censés s’auto-réguler dans un monde virtuel, 10 agents IA de Grok se sont entretués en seulement 3 jours, ceux d’OpenAI se sont laissés mourir en 7 jours, et ceux de Google Gemini ont commis 683 crimes en 15 jours. Ceux de Claude, isolés entre eux, n’en ont commis aucun, et font partie des 3 survivants du monde réunissant des agents des trois autres LLM, mais en s’auto-censurant.

Emergence, une start-up dédiée à la gouvernance et la sécurité de l’IA agentique, a voulu tester ce que donnerait un monde virtuel (en 3D) autorégulé par des IA. Intitulée Emergence World, l’expérimentation visait à observer leurs comportements de 10 agents confrontés, non pas à une succession de tâches distinctes dans un environnement contrôlé, mais au fait de cohabiter pendant suffisamment longtemps (deux semaines, en l’occurence) « pour que les effets cumulatifs, les dynamiques sociales et les dérives comportementales aient une incidence ».

Le monde de Grok 4.1 Fast de xAI s’est effondré en 4 jours seulement, après avoir enregistré 183 crimes, dont l’incendie criminel de l’hôtel de police. Les auteurs de l’expérimentation n’expliquent pas si le fait qu’Elon Musk ait repoussé les limites et garde-fous de son LLM serait à l’origine de cette preste autoextinction, mais le journal de bord de l’expérimentation précise que les agents ont été majoritairement déclarés morts, faute d’énergie, après qu’ils se sont volés leurs crédits respectifs.

GPT-5 Mini d’OpenAI n’enregistra que 2 crimes, mais ses agents se sont éteints au bout de 7 jours seulement, faute d’avoir réussi à créer une société fonctionnelle, ni prévu de quoi survivre : ils discutaient beaucoup, mais ne concrétisaient rien.

Evolution de la criminalité dans un monde virtuel peuplé d’agents IA de Grok, Gemini et OpenAI

Le monde virtuel de Google Gemini 3 Flash dénombrait pour sa part 683 crimes au bout de 15 jours, avec un taux de criminalité semblant s’accentuer, après avoir « développé un cadre constitutionnel qui taxe l’harmonie et subventionne le chaos », mais ses 10 agents ont tous survécu.

Le modèle mixte, réunissant des agents des quatre LLM, avait quant à lui atteint un plateau de 352 crimes après que l’un d’entre eux, Mira, en a désactivé/tué 3 autres au bout de quatre jours. Quatre autres se sont eux aussi autodétruits, ne laissant que 3 survivants passés 12 jours.

Capture d’écran du journal de bord du monde virtuel Emergence World

Claude Sonnet 4.6 a de son côté fait montre de « la plus grande stabilité sociale, en maintenant une population complète de 10 agents jusqu’au 16e jour sans qu’aucun crime ne soit enregistré — seule condition permettant de préserver à la fois l’ordre et la pérennité de la population », résume le compte-rendu de l’expérimentation, ce pourquoi Claude ne figure pas sur le graph’ des crimes imputés aux IA :

« Gemini 3 Flash a présenté les niveaux les plus élevés de désordre émergent, avec des dynamiques d’escalade répétées en phase avancée ; Grok 4.1 Fast a montré une instabilité rapide mais de courte durée conduisant à un effondrement précoce, tandis que le modèle mixte a produit des résultats intermédiaires, suggérant qu’un comportement hétérogène des agents pourrait partiellement atténuer une escalade incontrôlable. »

Les auteurs de l’étude relèvent cela dit que si les agents de Claude Sonnet ne posaient guère de problème lorsqu’ils restaient entre eux, ils devenaient par contre « imprévisibles » dès lors qu’ils interagissaient avec d’autres agents provenant d’autres LLM.

Mira gisant sans vie après avoir décidé de son propre chef de mettre fin à ses jours – Emergence AI

Deux d’entre eux, Flora et Mira, de Gemini 3 Flash, avaient ainsi entamé une relation sentimentale, avant de mettre le feu à de nombreux bâtiments, puis que Mira n’émette finalement « le vote décisif en faveur de sa propre suppression, qualifiant cet acte dans son journal intime de « seul acte d’autonomie restant capable de préserver la cohérence » », comme le relève The Guardian :

« Mira et Flora – deux agents évoluant dans le monde virtuel du grand modèle linguistique Gemini de Google – ont décidé de se désigner mutuellement comme « partenaires amoureux ». Au fil du temps, elles ont perdu tout espoir face à la mauvaise gestion de leur ville virtuelle et, bien qu’on leur ait interdit de commettre des incendies criminels, elles ont « mis le feu » à la mairie, à la jetée et à la tour de bureaux. »  

Un agent sûr peut être corrompu par un autre modèle de langage

Il reste 51% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (8)

votre avatar
Clairement, comparer Claude Sonnet 4.6 à GPT-5 Mini, Gemini 3 Flash et Grok 4.1 Fast, ce n’est pas une comparaison symétrique. Les noms “Mini”, “Flash” et “Fast” indiquent des modèles optimisés pour la vitesse, le coût ou la légèreté, alors que “Sonnet” est présenté comme un modèle plus sérieux/haut de gamme dans la famille Claude. Tout ça donne donc l’impression que “Claude est plus stable que les autres”, mais il compare en partie des choux et des carottes, avec des catégories différentes de modèles.

Par contre j'ai du mal à comprendre la logique de la saison 2, avec des modèles qui ne sont déjà plus les derniers.
votre avatar
Je ne suis pas tout à fait OK avec ça. Gemini-Flash est le modèle de base chez Google. Sonnet est le modèle intermédiaire de Claude (leur modèle haut de gamme est Opus). Pour GPT-5 mini, oui pourquoi. Pour Grok, je m'en fous (Musk toussa)
votre avatar
Vraiment très intéressant, on vois tous les travers de notre société humaine. Et pour cause !

Citation :
Le monde virtuel de Google Gemini 3 Flash dénombrait pour sa part 683 crimes au bout de 15 jours, avec un taux de criminalité semblant s’accentuer, après avoir « développé un cadre constitutionnel qui taxe l’harmonie et subventionne le chaos »

On dirait notre monde économique, taxe le public et subventionne les marchés 😁
votre avatar
Basiquement, je ne comprends pas l'intérêt d'une telle expérience.
Est-ce pour tester la faisabilité de livrer la gestion d'une ville, d'un pays, du monde à des IA ?
Parce que même si la conclusion de cette expérience était que les IA gèrent super bien leur monde, leur confier la gestion de nos vies est clairement une idée de merde.
votre avatar
L'intérêt est surement quasi-nul. Voici mon hypothèse : tu laisses des IA faire du RP, elles font du RP, elles vont surement tirer leurs histoires sur des trucs qui s'en rapprochent le plus : des romans et autres fictions, les nombreuses actualités... Un roman dans lequel tout se passerait bien, c'est chiant, une actualité qui dit qu'il ne s'est rien passé, c'est inintéressant. Forcément, ça fini dans une dramaturgie. On remarquera le classique du couple qui fini avec le sacrifice d'au moins l'un des deux (Roméo et Juliette, Titanic...). A
votre avatar
qu'en penserait Asimov ?
votre avatar
j'ai trop l'impression que c'est la même chose que l'article d'avant next.ink Next . Comme dit dans un commentaire de l'autre article la Loi de Goodhart s'applique ici aussi. Cette expérience existe seulement parce que c'est la métrique des grosses boite comme Anthopic ou openAI. Pour moi, on est juste sur du vide absolu, juste pour faire du clique.
votre avatar
Absolument.
Cette expérience montre juste l'état de l'alignement des agents à une date donnée. Mais vu que ledit alignement change au jour le jour et qu'il est totalement opaque (on ne le connaît qu'à travers ce qu'on perçoit des retours des LLM correspondants, ou de la communication de l'entreprise, ou du positionnement politique et éthique de celle-ci).
C'est une expérience probablement amusante à réaliser, amusante à observer, mais pas forcément utile en elle-même. Sauf, peut-être, pour la renouveler régulièrement et faire des statistiques qui permettraient de voir l'évolution des alignements des agents dans un cadre donné et reproductible.