Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Automate machiavelique

Avatar de l'auteur

Martin Clavey

Publié dansSciences et espace

24/11/2022
20
Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Une équipe de Meta AI a travaillé pendant plusieurs années sur une intelligence artificielle, Cicero, jouant au jeu de plateau Diplomatie. Résultat, après 40 parties anonymes en ligne, Cicero s'est classée dans les 10 % meilleurs joueurs ayant effectué plus d'une partie, avec une moyenne atteignant plus du double de celle des joueurs humains.

Après Deep Blue, AlphaGo, Nook et AlphaStar, voici Cicero qui rentre dans le game des IA joueuses. Cicero, elle, joue au fameux jeu de plateau Diplomatie. Et plutôt avec succès puisqu'elle arrive à être classée dans les 10% des meilleurs joueurs du site WebDiplomacy. Une équipe de Meta AI vient de publier un article dans la revue Science expliquant son fonctionnement.

Jouer aux échecs, au go, au bridge ou à StarCraft, comme ces autres avaient réussi à le faire à un bon niveau reste impressionnant.

Mais pour réussir à faire une IA qui joue à un bon niveau aux échecs ou au go, deux jeux où aucune information n'est cachée, il « suffit » d'utiliser l'apprentissage profond, et l'apprentissage par renforcement qui apprennent en jouant contre eux-mêmes avec une capacité de calcul et de modélisation suffisante. 

Pour le bridge, les chercheurs de la start-up française Nukkai avaient utilisé des simulations de Monte-Carlo, outils mathématiques qui estiment les résultats possibles d'un événement incertain, optimisées avec de petits réseaux de neurones, ce qui leur avait permis d'être beaucoup moins énergivore qu'AlphaGo.

Pour StarCraft, les chercheurs qui ont bâti AlphaStar, qui a mis une déculottée à deux joueurs pros, ont dû ajouter à l'apprentissage profond et à l'apprentissage par renforcement, la théorie des jeux et des algorithmes évolutionnistes.

Diplomatie, un jeu plus complexe

Mais ces jeux restent des jeux où il n'y a pas de communication, ni de concertation à avoir avec les autres joueurs. L'équipe de Meta AI a voulu s'attaquer à un jeu plus complexe, Diplomatie.

Ce jeu mêle stratégie, discussions avec les autres joueurs, collaboration et... trahisons aux bons moments. Les bases du jeu sont que sept joueurs (représentant l'Angleterre, la France, l'Allemagne, l'Italie, l'Autriche-Hongrie, la Russie et la Turquie) mènent des négociations privées (en chat pour la version en ligne WebDiplomacy sur laquelle a joué Cicero) pour coordonner leurs actions afin de coopérer et de rivaliser les uns avec les autres en donnant des ordres à leurs unités militaires sur un plateau de jeu qui reprend la carte de l'Europe.

Allier raisonnements stratégiques et modèle de langage

Pour créer Cicero, les chercheurs de Meta AI ont allié des modèles d'IA pour le raisonnement stratégique comme ceux de Deep Blue, AlphaGo ou de AlphaStar avec un modèle de langage proche de celui de BART.

Ce modèle de langage, nommé R2C2, de 2,7 milliards de paramètres pré-entraîné sur des textes venant d'internet a ensuite été affiné avec les conversations de 40 408 parties réalisées sur WebDiplomacy.

Dans leur article, les chercheurs expliquent qu'ils ont créé ce qu'ils ont appelé un « Imitation dialogue model » [modèle d'imitation de dialogue]. C'est-à-dire que le modèle a été spécifiquement entraîné à prédire un message du joueur A au joueur B à l'instant t, en prenant en compte l'historique des dialogues avec tous les joueurs, l'état du jeu, l'historique des actions, l'évaluation du niveau des joueurs et les meta-données du jeu et des messages.

CiceroArchitecture de Cicero. Crédits : Meta AI

Mais ensuite, il faut que Cicero puisse appliquer une tactique. Pour ça, elle utilise un module de raisonnement stratégique. Ce module utilise un algorithme de planification qui prédit les stratégies de tous les autres joueurs en fonction de l'état du jeu et des dialogues, en tenant compte à la fois de la force des différentes actions et de la probabilité qu'un humain choisisse cette action. Cicero peut ensuite prendre tout ça en compte pour choisir l'action de jeu qui sera la plus optimale pour elle.

Cicero a un troisième module qui filtre les messages absurdes, incompatibles avec la stratégie, ou stratégiquement pauvres.

Si vous voulez voir jouer Cicero, Markus Zijlstra, joueur qui a collaboré à sa création, a publié une vidéo d'une heure et demi montrant en détail une partie jouée par l'IA :

Des promesses et un manque de réflexion sur l'éthique

Dans le communiqué de presse publié par Meta à propos de Cicero, l'entreprise avance que la combinaison de ce genre de modules « pourrait, par exemple, faciliter la communication entre les humains et les bots conversationnels » et vend la possibilité qu'ils pourraient avoir une longue conversation dans le but de vous enseigner une nouvelle compétence. Le service communication de l'entreprise suggère aussi que cette technologie pourrait être utilisée pour améliorer les « non-player characters » des jeux vidéo.

Mais on peut imaginer qu'elle puisse être utilisée pour manipuler des humains en se faisant passer pour une vraie personne, une version très améliorée du scam, par exemple.

Dans l'annexe fourni par les chercheurs, il y a bien une section éthique, mais celle-ci ne se positionne pas vraiment sur des utilisations potentiellement néfastes de cette technologie. Le communiqué de presse de Meta précise que l'entreprise espère timidement qu'en rendant le code de Cicero libre sur GitHub, « les chercheurs en IA pourront continuer à s'inspirer de nos travaux de manière responsable ».

Cette remarque peut sembler un peu courte quand on sait que Meta AI a dépublié, la semaine dernière, son autre IA Galactica après de nombreuses réactions sur l'utilisation problématique qui pouvait en être fait.

20
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

dessin de Flock

#Flock distribue des mandales tous azimuts

13:40 Flock 10
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

11:47 Next 20
Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Ha… la bonne époque d’un CF de 4870 X2 !

18:10 Hard 18

Sommaire de l'article

Introduction

Diplomatie, un jeu plus complexe

Allier raisonnements stratégiques et modèle de langage

Des promesses et un manque de réflexion sur l'éthique

dessin de Flock

#Flock distribue des mandales tous azimuts

Flock 10
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

Next 20
Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Hard 18

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

IA 6
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

Soft 32
Une petite fille en train d'apprendre à programmer et hacker logiciels et appareils électroniques

Un roman graphique explique les logiciels libres aux enfants

SoftSociété 19
Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 5

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 21
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 9
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 17

En ligne, les promos foireuses restent d’actualité

DroitWeb 19

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 29
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 10
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 6
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 75

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 23
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 102
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 7

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (20)


PushTheRedButton Abonné
Le 24/11/2022 à 07h35

Sujet intéressant mais…




Dans le document de « matériaux supplémentaires » fourni par les chercheurs,




… je ne suis pas sûr qu’il faille traduire littéralement supplementary material, “annexe” serait très bien passé ! 😅


Martin Clavey Abonné
Le 24/11/2022 à 10h58

Effectivement, « annexe » est bien approprié. Je viens de corriger. Merci.


Soriatane Abonné
Le 24/11/2022 à 08h13

Et c’est combien le coût énergétique pour faire fonctionner le boudin??
Car le SCAM avec ce genre d’IA sera limité si son coût hors de la portée de ce que peut rapporter l’arnaque.



Mais peut-on imaginer l’usage de cet IA dans la diplomatie et les relations internationale ?


GérardMansoif Abonné
Le 24/11/2022 à 09h50

En effet, je trouve dommage qu’à chaque annonce il manque la configuration matérielle utilisée. Il y a une différence entre un PC lambda à 500\( et un super-calculateur dont le prix dépasse largement le million de \).


Winderly Abonné
Le 24/11/2022 à 08h37

Je ne connais pas ce jeu, mais ça a l’air de ressembler à Risk.


white_tentacle Abonné
Le 24/11/2022 à 12h01

La grosse différence, qui fait tout l’intérêt de diplomatie par rapport à Risk, c’est qu’un tour de diplomatie se déroule selon deux phases :




  • à la première phase, les joueurs discutent entre eux, et consignent par écrit les ordres qu’ils programment pour leurs troupes

  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).



Cela rend le jeu beaucoup plus intéressant que risk (par exemple, si tu fais confiance à l’autre joueur, et que vous vous êtes mis d’accord, tu peux laisser une ville non protégée même s’il est en mesure de l’attaquer. Mais il peut toujours te trahir et ainsi prendre la ville…).


Winderly Abonné
Le 24/11/2022 à 12h17

white_tentacle

La grosse différence, qui fait tout l’intérêt de diplomatie par rapport à Risk, c’est qu’un tour de diplomatie se déroule selon deux phases :

  • à la première phase, les joueurs discutent entre eux, et consignent par écrit les ordres qu’ils programment pour leurs troupes
  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).

Cela rend le jeu beaucoup plus intéressant que risk (par exemple, si tu fais confiance à l’autre joueur, et que vous vous êtes mis d’accord, tu peux laisser une ville non protégée même s’il est en mesure de l’attaquer. Mais il peut toujours te trahir et ainsi prendre la ville…).

merci


Billye
Le 25/11/2022 à 10h35

Wikipédia explique bien la genèse du jeu.
https://fr.wikipedia.org/wiki/Diplomatie_(jeu)


Winderly Abonné
Le 25/11/2022 à 13h18

Billye

Wikipédia explique bien la genèse du jeu. https://fr.wikipedia.org/wiki/Diplomatie_(jeu)

merci


Winderly Abonné
Le 24/11/2022 à 09h02

Je n’ai pas trouvé mention de “les meta-données du jeu” dans l’article de Science.
Mais chapeau bas pour avoir synthétisé ça dans un article aussi court, l’original étant franchement indigeste.


Martin Clavey Abonné
Le 24/11/2022 à 10h00

Merci. Voilà l’extrait qui en parle : “game and message metadata (additional info about game settings and the current message, e.g., time since the last message, current turn, etc.)”


Ced-le-pingouin Abonné
Le 24/11/2022 à 09h57

Merci pour l’article. J’en profite pour également saluer le travail de synthèse nécessaire à rendre ce genre de texte compréhensible et digeste pour le commun des mortels.


Winderly Abonné
Le 24/11/2022 à 10h22

(reply:2106740:Martin Clavey)




merci


jonjbar Abonné
Le 24/11/2022 à 10h55

Les guerres du future pourront-elles être simulées et évitées ? Vous avez 3 heures ;)
Très intéressant mais aussi très flippant cette progression de l’IA!


tazvld Abonné
Le 24/11/2022 à 13h48

(quote:2106730:GérardMansoif)
En effet, je trouve dommage qu’à chaque annonce il manque la configuration matérielle utilisée. Il y a une différence entre un PC lambda à 500\( et un super-calculateur dont le prix dépasse largement le million de \).




Ce qui est plus consommateur de ressource, ce n’est pas l’exploitation à proprement parler, mais l’apprentissage. Cette partie là nécessite effectivement de gros moyen car ça conssomme beaucoup plus de ressource et on cherche que ce soit très rapide (il faut simuler des milliers et des milliers de partie, on a pas le temps de les faire en temps réel). Cependant, l’exploitation peut souvent tourner sur des PC plus modeste et grand public.



Après, j’avoue qu’ici rien que le modèle de langage qui demande 2.7 millards de paramètre, même dans des formats très optimisé tenant sur 2 octets (16bit), c’est presque 6Go rien que pour les paramètre. Vu que ce genre d’algo est exécuter sur une carte graphique, ce n’est pas avec une carte entrée de gamme que tu fais ça. Le programme complet risque de nécessité plusieurs carte graphique grand public ou une grosse NVidia A100.


essa Abonné
Le 24/11/2022 à 14h06

diplomatie le jeu qui peut te fâcher avec tout tes amis en une aprem ^^



C’est une variante de risk, sauf que ce qui compte c’est pas la quantité de troupe/ressource. Mais les accords entres parties.



par exemple si deux armées veulent conquérir un territoire c’est de base impossible, il faut toujours une tierce partie (à proximité) qui peut proposer son aide en échange de… et un quatrième peut équilibrer etc…



Donc pour avancer il faut réaliser des tractations, sachant qu’elles pourront ou pas être tenu.



bref une phase de tractation ou l’on forme des alliances et des accords et une phase de rédaction des ordres et une phase de résolution (le meilleur moment quand tu attendais une aide qui étrangement n’est pas venu car le joueurs avaient une meilleur opportunité avec un de tes ennemis)



un grand conseille penser bellaysienne, ne jamais accepter des trucs genre le tours d’après promis je t’aide, ou sur un coup dans le dos une proposition style ah ooops j’avais mal compris.


merlinpimpim Abonné
Le 24/11/2022 à 22h48

C’est quoi l’impact écologique d’apprendre à une IA de jouer à un jeu de plateau ?


barlav Abonné
Le 25/11/2022 à 06h44

Faut pas le voir comme ça, ça permet surtout aux humains de retourner travailler au lieu de jouer;
ben ouais, une fois que tout le monde a perdu 4fois, ils veulent plus jouer.



Pis l’IA préfère aussi jouer au jeu de plateau qu’aller travailler.
Et en dernier recours, elle appelle ses potes pour remettre de l’ordre, comme à Zhengzhou


Inodemus Abonné
Le 25/11/2022 à 00h11

white_tentacle a dit:




  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).




Sur la (vieille) version PC de Risk, il y avait un mode comme ça. A priori, rien n’empêche d’appliquer les mêmes règles à un Risk sur plateau. C’est effectivement intéressant et ça accélère le jeu.


Thorgalix_21 Abonné
Le 25/11/2022 à 10h54

Le meilleur mode selon moi pour jouer à Risk.