Connexion Premium

Générateur de mondes interactifs : DeepMind sort son 3e Genie de sa boite à IA

Génie du bien ou du mal ?

Générateur de mondes interactifs : DeepMind sort son 3e Genie de sa boite à IA

Avec Genie 3, DeepMind (Google) propose un modèle d’IA capable de générer des vidéos de mondes virtuels et interactifs, à la volée. Il y a encore des limitations, mais les premiers résultats semblent prometteurs.

Le 06 août 2025 à 17h10

La première version de Genie – acronyme de GENerative Interactive Environments – est sortie en février 2024 chez DeepMind. Elle a été suivie par une seconde mouture en décembre dernier « capable de générer une variété infinie d’environnements 3D jouables et contrôlables ». Chez Google, Veo, un modèle de génération de vidéos, était présenté au même moment.

Des mondes virtuels et dynamiques, à 24 fps

DeepMind (qui appartient à Google), revient avec une troisième version de son GENerative Interactive Environments : Genie 3, qui prend la suite de Genie 2 et Veo. Ce « modèle à usage général est capable de générer une diversité de monde sans précédent d’environnements interactifs », le tout à partir d’un simple prompt. Il est aussi possible d’ajouter de « nouveaux événements à votre monde à la volée », simplement en modifiant le prompt.

Attention aux coups de comm’ de DeepMind, parfois un trop peu forcés. Mais le communiqué et les exemples sont impressionnants, il faut bien le reconnaitre.

Depuis un prompt, DeepMind affirme que vous pouvez ainsi créer « des mondes dynamiques que vous pouvez parcourir en temps réel à 24 fps, en conservant une cohérence de plusieurs minutes, avec une résolution de 720p ». C’est un bond en avant par rapport à Genie 2, limité à 10 ou 20 secondes.

Pour DeepMind, ce ne sont pas de simples mondes interactifs dans lesquels on peut évoluer quelques minutes, c’est aussi « un tremplin » pour arriver à une intelligence artificielle générale (IAG). Une telle IA est le Graal actuellement recherché par les géants de l’intelligence artificielle, OpenAI en tête.

Explications de l’entreprise : « Ces systèmes d’IA sont capables d’utiliser leur compréhension du monde pour en simuler certains aspects, permettant aux agents de prédire à la fois comment un environnement évoluera et comment leurs actions l’affecteront ». Il serait ainsi possible de « former des agents d’IA dans un programme illimité d’environnements ».

Les environnements peuvent s’approcher du monde réel (dans une certaine limite, nous y reviendrons), ou au contraire totalement virtuels. Une vidéo valant mille mots dans le cas présent, voici la présentation de DeepMind (de multiples exemples sont aussi disponibles ici) :

DeepMind affirme « repousser les limites des capacités en temps réel »

Genie 3 est capable de modéliser des éléments physiques (eau, lumière…), des objets, des personnages, des animaux, des végétaux, etc. Pour arriver à ce résultat, DeepMind affirme rien de moins qu’avoir « repoussé les limites des capacités en temps réel », et liste quelques-uns des défis rencontrés.

Pour générer les images (24 chaque seconde. pour rappel), le modèle doit prendre en compte la trajectoire, s’adapter au changement de directions et se « souvenir » des endroits où il est déjà passé. Genie 3 a une « mémoire » d’une minute selon l’entreprise.

Il faut aussi garder de la cohérence dans le rendu des images, ce que le modèle serait capable de faire pendant « plusieurs minutes ». Néanmoins, plusieurs heures seraient certainement nécessaires pour former des agents IA de manière approfondie, ajoute DeepMind.

Et les agents ont encore de la marge de progression, reconnait Jack Parker-Holder (scientifique et chercheur chez DeepMind), comme le rapporte TechCrunch. Nos confrères étaient présents à un point presse organisé par Google.

« Nous n’avons pas encore vraiment eu de coup 37 [en référence au coup de « maitre » d’AlphaGo contre Lee Sedol au jeu de go, ndlr] avec les agents », ajoute le chercheur. C’est pour rappel un coup non conventionnel qui a surpris les spécialistes, mais qui a rapidement été qualifié de brillant. Ce 37ᵉ coup est « devenu symbolique de la capacité de l’IA à découvrir de nouvelles stratégies au-delà de la compréhension humaine », rappelle TechCrunch.

TechCrunch ajoute que, « comme Veo, Genie 3 ne s’appuie pas sur un moteur physique codé en dur. À la place, selon DeepMind, le modèle apprend par lui-même comment le monde fonctionne – comment les objets bougent, tombent et interagissent – en se souvenant de ce qu’il a généré ». « Le modèle est auto-régressif, ce qui signifie qu’il génère une image à la fois » en se basant sur les précédentes images, explique Shlomi Fruchter (directeur de recherche chez DeepMind) dans une interview à nos confrères.

Des limitations et un accès très limité

DeepMind met en avant plusieurs limitations connues. Tout d’abord, le rayon et les possibilités d’action pour les agents d’IA sont limités. Autre point : « la modélisation précise d’interactions complexes entre plusieurs agents indépendants dans des environnements partagés reste un défi », une manière polie de dire que c’est compliqué et pas opérationnel.

Oubliez le photoréalisme : Genie 3 n’est pas en mesure de simuler des lieux réels avec une précision parfaite. Autre point, classique : « Un texte clair et lisible n’est souvent généré que lorsqu’il est fourni dans la description du monde d’entrée ».

Genie 3 n’est pour le moment disponible que sous la forme d’un accès anticipé à une petite sélection d’universitaires et de créateurs.

Commentaires (6)

votre avatar
"nous sommes impatient de voir comment Génie 3 pourra aider la recherche"
Hmmmmmm...
On va y aller et avec un peu de chance ça servira à quelque chose ?
votre avatar
Je suis toujours dubitatif quand on fait référence à
Et les agents ont encore de la marge de progression, reconnait Jack Parker-Holder (scientifique et chercheur chez DeepMind), comme le rapporte TechCrunch. Nos confrères étaient présents à un point presse organisé par Google.
« Nous n’avons pas encore vraiment eu de coup 37 [en référence au coup de « maitre » d’AlphaGo contre Lee Sedol au jeu de go, ndlr] avec les agents », ajoute le chercheur. C’est pour rappel un coup non conventionnel qui a surpris les spécialistes, mais qui a rapidement été qualifié de brillant. Ce 37ᵉ coup est « devenu symbolique de la capacité de l'IA à découvrir de nouvelles stratégies au-delà de la compréhension humaine », rappelle TechCrunch.
Le jeu de go, comme les échecs, sont un système fermés avec des règles très simples. C'est assez trivial en fait de générer des milliards de parties entièrement valides et faire en sorte qu'une IA explore et puisse retenir des coups qui ont été utiles dans le lot. C'est de la puissance brute où forcément dans un jeu aussi complexe ils peuvent découvrir des choses que les humains n'ont pas eu le temps d'explorer.

Mais là on compare à un monde réel même si virtualisé qui est par définition ouvert avec des interactions complexes (et pas toujours bien modélisés par les moteurs graphiques par ailleurs) et bien plus riches que ce soit en possibilité individuelle comme en interactions. Appliquer les mêmes méthodes sera difficile pour espérer obtenir un résultat similaire au cas du jeu du Go.

Cela peut être utile mais je trouve toujours bizarre qu'on ramène toujours au cas du jeu de Go qui a des propriétés assez spécifiques pour expliquer le succès de l'IA qui sera difficile à appliquer dans d'autres domaines avec la même efficacité.
votre avatar
La vidéo de présentation est un cas d'école de slop généré par IA, monotone, impersonnel et mal traduit ...
votre avatar
Le modèle est auto-régressif, ce qui signifie qu’il génère une image à la fois en se basant sur les précédentes images
Le fait que ca soit une suite d'images me laisse dubitatif sur la dénomination "3D".
Pour moi, ca génère une suite d'image qui ont une perspective cohérente par rapport au déplacement.

C'est déjà énorme, hein !
Mais en l'état, je ne sais pas trop a quoi ca peut servir concrètement.

Je pourrais voir l'intérêt pour les jeux-vidéos si ca générait des mesh 3D en temps-réel. Ca permettrait aux développeurs de prototyper rapidement des univers/objets/textures, puis de les raffiner ensuite suivant leur idée/scénario.
votre avatar
Ubisoft annonce avoir déjà acheté Genie 3 pour générer le prochain jeu à monde ouvert. Entrainé à partir de toutes leurs productions précédentes, le directeur créatif est enthousiaste !

:troll:
votre avatar
On a un maillon supplémentaire de la chaine.

Le jour où les humains ne seront plus utiles aux IA et aux machines on pourra toujours les parquer en rang la tête dans le dernier monde virtuel créé par Deepmind: Matrix.

Et la boucle sera bouclée :yes:

Générateur de mondes interactifs : DeepMind sort son 3e Genie de sa boite à IA

  • Des mondes virtuels et dynamiques, à 24 fps

  • DeepMind affirme « repousser les limites des capacités en temps réel »

  • Des limitations et un accès très limité