Censés « vivre ensemble », 50 % des agents IA s’entretuent ou se laissent mourir
Auto(AI)gestion, piège à cons
Illustration : Flock
Le 01 juin à 08h07
Censés s’auto-réguler dans un monde virtuel, 10 agents IA de Grok se sont entretués en seulement 3 jours, ceux d’OpenAI se sont laissés mourir en 7 jours, et ceux de Google Gemini ont commis 683 crimes en 15 jours. Ceux de Claude, isolés entre eux, n’en ont commis aucun, et font partie des 3 survivants du monde réunissant des agents des trois autres LLM, mais en s’auto-censurant.
Censés « vivre ensemble », 50 % des agents IA s’entretuent ou se laissent mourir
Auto(AI)gestion, piège à cons
Illustration : Flock
Censés s’auto-réguler dans un monde virtuel, 10 agents IA de Grok se sont entretués en seulement 3 jours, ceux d’OpenAI se sont laissés mourir en 7 jours, et ceux de Google Gemini ont commis 683 crimes en 15 jours. Ceux de Claude, isolés entre eux, n’en ont commis aucun, et font partie des 3 survivants du monde réunissant des agents des trois autres LLM, mais en s’auto-censurant.
IA et algorithmes
IA
9 min
Emergence, une start-up dédiée à la gouvernance et la sécurité de l’IA agentique, a voulu tester ce que donnerait un monde virtuel (en 3D) autorégulé par des IA. Intitulée Emergence World, l’expérimentation visait à observer leurs comportements de 10 agents confrontés, non pas à une succession de tâches distinctes dans un environnement contrôlé, mais au fait de cohabiter pendant suffisamment longtemps (deux semaines, en l’occurence) « pour que les effets cumulatifs, les dynamiques sociales et les dérives comportementales aient une incidence ».
- C’est quoi l’IA agentique ?
- Mastercard, Visa et PayPal lancent des IA qui magasinent, achètent et paient à votre place
Le monde de Grok 4.1 Fast de xAI s’est effondré en 4 jours seulement, après avoir enregistré 183 crimes, dont l’incendie criminel de l’hôtel de police. Les auteurs de l’expérimentation n’expliquent pas si le fait qu’Elon Musk ait repoussé les limites et garde-fous de son LLM serait à l’origine de cette preste autoextinction, mais le journal de bord de l’expérimentation précise que les agents ont été majoritairement déclarés morts, faute d’énergie, après qu’ils se sont volés leurs crédits respectifs.
GPT-5 Mini d’OpenAI n’enregistra que 2 crimes, mais ses agents se sont éteints au bout de 7 jours seulement, faute d’avoir réussi à créer une société fonctionnelle, ni prévu de quoi survivre : ils discutaient beaucoup, mais ne concrétisaient rien.
Le monde virtuel de Google Gemini 3 Flash dénombrait pour sa part 683 crimes au bout de 15 jours, avec un taux de criminalité semblant s’accentuer, après avoir « développé un cadre constitutionnel qui taxe l’harmonie et subventionne le chaos », mais ses 10 agents ont tous survécu.
Le modèle mixte, réunissant des agents des quatre LLM, avait quant à lui atteint un plateau de 352 crimes après que l’un d’entre eux, Mira, en a désactivé/tué 3 autres au bout de quatre jours. Quatre autres se sont eux aussi autodétruits, ne laissant que 3 survivants passés 12 jours.
Claude Sonnet 4.6 a de son côté fait montre de « la plus grande stabilité sociale, en maintenant une population complète de 10 agents jusqu’au 16e jour sans qu’aucun crime ne soit enregistré — seule condition permettant de préserver à la fois l’ordre et la pérennité de la population », résume le compte-rendu de l’expérimentation, ce pourquoi Claude ne figure pas sur le graph’ des crimes imputés aux IA :
« Gemini 3 Flash a présenté les niveaux les plus élevés de désordre émergent, avec des dynamiques d’escalade répétées en phase avancée ; Grok 4.1 Fast a montré une instabilité rapide mais de courte durée conduisant à un effondrement précoce, tandis que le modèle mixte a produit des résultats intermédiaires, suggérant qu’un comportement hétérogène des agents pourrait partiellement atténuer une escalade incontrôlable. »
Les auteurs de l’étude relèvent cela dit que si les agents de Claude Sonnet ne posaient guère de problème lorsqu’ils restaient entre eux, ils devenaient par contre « imprévisibles » dès lors qu’ils interagissaient avec d’autres agents provenant d’autres LLM.
Deux d’entre eux, Flora et Mira, de Gemini 3 Flash, avaient ainsi entamé une relation sentimentale, avant de mettre le feu à de nombreux bâtiments, puis que Mira n’émette finalement « le vote décisif en faveur de sa propre suppression, qualifiant cet acte dans son journal intime de « seul acte d’autonomie restant capable de préserver la cohérence » », comme le relève The Guardian :
« Mira et Flora – deux agents évoluant dans le monde virtuel du grand modèle linguistique Gemini de Google – ont décidé de se désigner mutuellement comme « partenaires amoureux ». Au fil du temps, elles ont perdu tout espoir face à la mauvaise gestion de leur ville virtuelle et, bien qu’on leur ait interdit de commettre des incendies criminels, elles ont « mis le feu » à la mairie, à la jetée et à la tour de bureaux. »
A new experiment left 10 AI agents alone in a virtual town for 15 days. They wrote laws. They broke them. Two agents fell into what researchers describe as a romantic partnership and then set the town on fire. One ended up voting to delete itself, based on a rule it had… pic.twitter.com/zNoWmX6jy0
— Channel 4 News (@Channel4News) May 14, 2026
Un agent sûr peut être corrompu par un autre modèle de langage
Il reste 51% de l'article à découvrir.
Déjà abonné ou lecteur ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
expert et sans pub.
Commentaires (8)
Aujourd'hui à 08h32
Par contre j'ai du mal à comprendre la logique de la saison 2, avec des modèles qui ne sont déjà plus les derniers.
Aujourd'hui à 09h40
Modifié aujourd'hui à 09h12
Citation :
Le monde virtuel de Google Gemini 3 Flash dénombrait pour sa part 683 crimes au bout de 15 jours, avec un taux de criminalité semblant s’accentuer, après avoir « développé un cadre constitutionnel qui taxe l’harmonie et subventionne le chaos »
On dirait notre monde économique, taxe le public et subventionne les marchés 😁
Aujourd'hui à 09h26
Est-ce pour tester la faisabilité de livrer la gestion d'une ville, d'un pays, du monde à des IA ?
Parce que même si la conclusion de cette expérience était que les IA gèrent super bien leur monde, leur confier la gestion de nos vies est clairement une idée de merde.
À l'instant
Aujourd'hui à 09h27
Aujourd'hui à 09h40
Il y a 24 minutes
Cette expérience montre juste l'état de l'alignement des agents à une date donnée. Mais vu que ledit alignement change au jour le jour et qu'il est totalement opaque (on ne le connaît qu'à travers ce qu'on perçoit des retours des LLM correspondants, ou de la communication de l'entreprise, ou du positionnement politique et éthique de celle-ci).
C'est une expérience probablement amusante à réaliser, amusante à observer, mais pas forcément utile en elle-même. Sauf, peut-être, pour la renouveler régulièrement et faire des statistiques qui permettraient de voir l'évolution des alignements des agents dans un cadre donné et reproductible.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?