Après les images fixes, place à la vidéo : Midjourney a lancé mercredi la première version d'un modèle dédié, surnommé V1. Elle le présente comme un outil à la fois puissant, abordable et simple d'accès, pour créer des séquences vidéo à partir d'une image de départ, que cette dernière soit fournie par l'utilisateur (une photo par exemple) ou générée via Midjourney.

« Faites glisser une image vers la barre d’invite et marquez-la comme « image de départ », puis saisissez une invite de mouvement pour décrire la manière dont vous souhaitez qu’elle s'anime », décrit l'éditeur. Le modèle V1 dispose également d'un mode d'animation automatique, capable donc de transformer une image en vidéo sans consigne spécifique de l'utilisateur.

En filigrane de son billet d'annonce, Midjourney revendique une approche plutôt créative et ludique, là où des concurrents tels que Veo3 (Google) ou Firefly (Adobe) essaie d'ores et déjà de se positionner comme des outils très opérationnels, destinés à être intégrés aux circuits de production graphique.

L'entreprise ne perd cependant pas de vue les considérations mercantiles : elle indique qu'une tâche vidéo sera facturée environ 8 fois la somme demandée pour une génération d'images. En sortie, comme avec les images fixes, l'utilisateur se voit livrer non pas une, mais quatre propositions pour une même vidéo. Les clips dans leur version de base sont limités à une durée de cinq secondes, mais il est possible de demander quatre fois de suite à les prolonger de quatre secondes (l'opération étant bien sûr facturée), ce qui permet donc d'obtenir des séquences allant jusqu'à 21 secondes.

Rappelons que les outils de Midjourney sont accessibles sur abonnement, avec différents paliers calculés en fonction du nombre d'heures de calcul GPU consommées par l'utilisateur. L'abonnement de départ à 10 dollars par mois permet de générer des vidéos, à hauteur de 200 minutes de calcul. Pour le lancement, Midjourney restreint au Web l'accès à son modèle vidéo V1, et choisit une nouvelle fois de passer par Discord (où l'on peut visualiser de nombreux exemples de vidéos ou d'images animées).

Si la génération automatisée de vidéos peut apparaître comme une fin en soi pour les métiers de la pub, du cinéma ou de la télévision, Midjourney affirme ne voir ce nouveau modèle que comme une étape dans sa quête d'élaboration d'un outil capable de générer des environnements 3D en temps réel.

« Nous avons besoin d'images (nos premiers modèles). Nous devons faire bouger ces images (modèles vidéo). Nous devons pouvoir nous déplacer dans l'espace (modèles 3D) et tout cela rapidement (modèles temps réel). Nous travaillerons dès l'année prochaine à construire ces éléments individuellement, les publier et petit à petit les assembler en un système unifié. Ce sera peut-être onéreux au départ, mais tout le monde pourra en profiter plus tôt que vous ne le pensez. »