Google entraine une IA dans l’univers des jeux vidéo
Qu'ils l'envoient dans le metavers
DeepMind, le laboratoire de recherche de Google, a créé une IA capable de suivre des instructions dans un jeu vidéo. L'idée, ici, n'est pas de proposer une IA capable de réussir un jeu le plus rapidement ou le mieux possible, mais de créer un robot capable d'adapter son comportement à l'univers dans lequel il évolue.
Le 15 mars à 13h37
5 min
IA et algorithmes
IA
SIMA, c'est le nom de cette nouvelle IA de Google, pour Scalable Instructable Multiworld Agent. Celle-ci est capable de « suivre des instructions en langage naturel pour effectuer des tâches dans divers contextes de jeux vidéo », explique DeepMind.
Le laboratoire de Google change sa façon d'utiliser les jeux pour améliorer ses IA. L'idée n'est plus d'essayer de battre des humains à des jeux comme les échecs, le Go ou StarCraft II. Ça, c'est possible depuis quelques années déjà.
- StarCraft II : l’intelligence artificielle AlphaStar met une déculottée à deux joueurs pros
- Des échecs au jeu de Go : quand l’intelligence artificielle dépasse l’homme
Exit le but du jeu à atteindre. Maintenant, les chercheurs de DeepMind s'appuient sur les jeux vidéo comme bacs à sable pour travailler sur la mise en place d'intelligences artificielles qui pourraient s'adapter aux mondes dans lesquels elles évoluent tout en suivant les instructions d'un humain.
Derrière, leur envie est de créer une plateforme de recherche qui permette de travailler sur la connexion entre les grands modèles de langage (popularisés par ChatGPT) et le « monde incarné que nous habitons ».
Le jeu vidéo comme terrain d'expérimentation
Avec SIMA, « nous nous concentrons sur les jeux qui ressemblent le plus à une incarnation physique en 3D, en particulier les jeux où le joueur interagit avec un monde en 3D à partir d'une vue à la première personne ou d'une vue au-dessus de l'épaule », expliquent les chercheurs de Google dans leur « rapport technique » [PDF]. Ce n’est pas vraiment un article scientifique, bien qu'il y ressemble dans la forme.
Pour mettre en place SIMA, DeepMind s'est associé avec huit studios de jeux vidéos pour que l'« agent » puisse apprendre à évoluer dans divers univers de jeu. Ils ont pu accéder à neuf univers virtuels de jeux vidéo commerciaux dont, par exemple, celui de No Man's Sky de Hello Games, Teardown de Tuxedo Labs ou Goat Simulator 3 d’Epic. Pour compléter le panel, ils ont aussi utilisé quatre environnements de recherche.
Tous ces jeux permettent aux chercheurs de proposer des mondes différents dans lesquels leur IA pourra évoluer. Mais, surtout, ces environnements sont asynchrones : ils ne s'arrêtent pas pour attendre le calcul d'une action.
Et SIMA n'a aucune API spéciale pour accéder au jeu, elle utilise les mêmes commandes de clavier et de souris que les humains. Elle n'a pas d'information privilégiée sur le monde qu'elle parcourt, les seules informations proviennent de l'image.
« Clonage comportemental »
L'approche des chercheurs de DeepMind pour que SIMA fasse des actions dans ces environnements est de l'entrainer en faisant ce qu'ils appellent du « clonage comportemental », c'est-à-dire de l'apprentissage supervisé, de la correspondance entre ce qu'il se passe dans l'univers du jeu et les actions décidées par des humains lorsqu'ils jouent.
Ils ont donc payé des travailleurs de la donnée (les chercheurs ne fournissent aucun détail sur le prix payé pour les tâches effectuées) pour que ceux-ci évoluent dans les jeux en faisant certaines actions. Ils devaient ensuite annoter les vidéos qui en résultaient avec les instructions qui correspondent à ces actions. Par exemple, dès que leur personnage lâchait un objet, le travailleur devait étiqueter le moment de la vidéo avec « drop object ».
D'autres créations de données ont consisté à un travail en binôme dans lequel l'un donnait des instructions suivant des scénarios pré-établis pendant que l'autre parcourait le monde virtuel d'un jeu. Ceci a permis à DeepMind d'étiqueter 600 « compétences de base » qui prennent moins de 10 secondes comme « tourner à gauche », « ouvrir la carte » ou « monter à l'échelle ». Elles sont décomposées comme sur le schéma ci-dessous :
Espoir d'actions plus complexes
Cet entrainement permet de mettre en place les modèles de vision de SIMA : l'un permet de faire une cartographie linguistique précise des images et l'autre fait des prédictions sur ce qu'il se passera ensuite à l'écran. DeepMind utilise aussi d'autres modèles de vision déjà développés auparavant, ainsi qu'un système permettant de gérer les actions au clavier et à la souris.
Dans son fonctionnement actuel, SIMA arrive à suivre, dans le jeu vidéo dans lequel on l'a propulsé, des instructions simples. Les chercheurs de DeepMind ont observé que, entrainée sur tous les jeux, SIMA est meilleur que si elle a été entrainée sur un seul.
De même, dans un environnement 1, un agent SIMA ayant été entrainé uniquement pour celui-ci sera moins bon qu'un autre entraîné dans les environnements 2, 3, 4, 5, 6 et 7.
DeepMind espère pouvoir ensuite lui faire élaborer des actions plus complexes comme « trouver des ressources et construire un camp ».
Google entraine une IA dans l’univers des jeux vidéo
-
Le jeu vidéo comme terrain d'expérimentation
-
« Clonage comportemental »
-
Espoir d’actions plus complexes
Commentaires (6)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 15/03/2024 à 14h27
Ils vont l’appeler Joshua ?
Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢
Le 15/03/2024 à 14h24
Le 15/03/2024 à 14h28
Le 16/03/2024 à 17h34
Le 18/03/2024 à 11h22
Le 19/03/2024 à 08h21