OpenAI lance prudemment Sora, son générateur de vidéos par IA

Rien à voir avec Kingdom Hearts

Flock

OpenAI lance officiellement Sora, son modèle dédié à la génération de vidéos. Les premiers tests soulignent des capacités impressionnantes, bien supérieures à celles du prototype annoncé en début d’année. Le lancement s’accompagne toutefois d’un certain nombre de garde-fous qui, de l’aveu même d’OpenAI, illustrent les problématiques inhérentes à la génération de vidéos par IA…

Alexandre Laurent

Le 10 décembre à 14h04

8 min

IA et algorithmes

Cette fois, Sora fait vraiment des vidéos. OpenAI, qui avait dévoilé son modèle de génération de vidéos en février dernier, l’a officiellement lancé lundi soir. Sora est désormais accessible au sein des forfaits ChatGPT Plus (20 dollars par mois) et ChatGPT Pro (200 dollars par mois).

OpenAI limite cependant la disponibilité géographique. Sora est ainsi accessible dans tous les pays qui peuvent se connecter à ChatGPT… à l’exception de l’Europe, Royaume-Uni et Suisse inclus. « Nous travaillons à élargir davantage l'accès dans les mois à venir », promet l’éditeur. Il suffit toutefois d’un VPN avec une adresse IP située dans un pays extra-européen pour contourner cette restriction.

Un système de crédits pour la génération de vidéos

L’intégration de Sora à l’abonnement ChatGPT Plus, le plus abordable, suppose quelques limitations : l’usager n’accède ainsi qu’à 50 vidéos « prioritaires » par mois, soit l’équivalent de 1 000 jetons (les demandes suivantes pourront théoriquement être traitées, mais sans engagement). Les vidéos produites ne dépassent pas 5 secondes et le 720p. Elles embarquent par ailleurs un watermark (le logo d’OpenAI) visible.

La formule ChatGPT Pro (dix fois plus onéreuse) autorise quant à elle un traitement prioritaire jusqu’à 500 vidéos (10 000 jetons), avec un rendu pouvant aller jusqu’à 20 secondes en 1080p et une possibilité de téléchargement sans watermark. « Nous travaillons sur une tarification personnalisée pour différents types d’utilisateurs, que nous prévoyons de rendre disponible au début de l’année prochaine », indique OpenAI. Un abonnement dédié aux professionnels de la vidéo et de la création semble donc envisagé.

Texte, image, vidéo : un modèle multimodal

À l’instar de Veo, le modèle de Google disponible depuis peu pour les grands comptes sur Vertex AI, Sora n’est pas qu’un simple outil de conversion de texte en vidéo : le modèle accepte également en entrée des images fixes ou des vidéos.

OpenAI a d’ailleurs fait évoluer l’interface de Sora pour faciliter la gestion des créations. Elle adopte désormais la forme d’un « storyboard », grâce auquel l’utilisateur peut spécifier ou préciser ses prompts pour chaque image de la séquence. Le modèle sait par ailleurs générer des vidéos aux formats paysage, vertical et carré.

Du fait de son caractère multimodal, le modèle offre de ce fait des possibilités autres que la simple génération de vidéos. OpenAI illustre par exemple la possibilité d’appliquer des effets à une vidéo existante (pour automatiser la post-production), ou la capacité à créer l’interpolation nécessaire à la liaison entre deux vidéos discontinues, de façon à créer un enchaînement fluide.

De la même façon que certaines IA génératives spécialisées dans l’image savent « compléter » un visuel au-delà de son cadre initial, OpenAI prétend par ailleurs pouvoir « prolonger » une vidéo. Le modèle analyse donc ici le contenu de la vidéo pour générer soit la séquence qui précède, soit celle qui suit l’action. Il peut aussi de cette façon relier la fin et le début d’une vidéo, pour donner l’impression d’une boucle infinie.

OpenAI exploite pour se faire une version revue et corrigée du modèle présenté en début d’année, baptisée Sora Turbo. L’entreprise reste en revanche assez vague quant aux données qui ont servi à l’entraînement de son modèle. Elle évoque ainsi « un mélange de données accessibles au public, de données propriétaires accessibles via des partenariats et d'ensembles de données personnalisés développés en interne ».

Des rendus impressionnants… et des limites identifiées

Bien que l’accès à Sora soit difficile sur les premières heures qui suivent le lancement, les réseaux sociaux regorgent déjà d’exemples de vidéos générées grâce à Sora. Le youtubeur Marques Brownlee, qui a bénéficié d’un accès anticipé, livre par ailleurs un aperçu laudateur d’une quinzaine de minutes des possibilités offertes par le modèle.

Les rendus ne sont pas exempts d’hallucinations, ou d’erreurs d’interprétation, mais Sora prouve sa capacité à générer des vidéos complexes, au sein desquelles l’action peut se combiner de façon cohérente à des mouvements de caméras.

OpenAI multiplie les exemples vidéo illustrant la capacité de Sora à maintenir cette « cohérence » sur plusieurs dizaines de secondes. Dans le même temps, l’entreprise admet de façon implicite que son modèle souffre encore de limites, notamment sur les dépendances, comprises ici comme la gestion des relations entre les différents éléments qui composent une image.

« Nous avons constaté que Sora est souvent, mais pas toujours, capable de modéliser efficacement les dépendances à courte et longue portée. Par exemple, notre modèle peut conserver des personnes, des animaux et des objets même lorsqu'ils sont occultés ou quittent le cadre. De même, il peut générer plusieurs prises de vue du même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo », indique l’entreprise.

Le modèle accuse également quelques lacunes en matière de physique, comme le bris de verre, ou la consommation de nourriture. Des carences qui n’empêchent toutefois pas OpenAI de présenter Sora comme un potentiel « simulateur de monde réel ».

« Ces capacités suggèrent que la mise à l’échelle continue des modèles vidéo est une voie prometteuse vers le développement de simulateurs hautement performants du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent », promet ainsi l’entreprise.

Entre déploiement commercial et gestion du risque

S’il s’agit bien d’un lancement commercial, OpenAI prend de nombreuses précautions oratoires vis-à-vis des attentes relatives à son modèle. Ce faisant, la société montre quelles sont les limites ou les dérives qu’elle a déjà formellement anticipées. Les problématiques de gestion du risque occupent ainsi une place prépondérante dans la « carte système » de Sora, l’article qui ambitionne d’en résumer les grands enjeux.

Depuis le mois de février et l’annonce initiale de Sora, l’entreprise indique avoir constitué une « red team » d’experts de la création vidéo, chargée d’évaluer les risques associés à l’utilisation du modèle, de la fourniture des données en entrée à l’analyse des rendus finaux. OpenAI affirme avoir tenu compte de leurs retours pour la construction de son modèle. Il en résulte un certain nombre de garde-fous techniques, dont l’entreprise admet toutefois que l’efficacité ne peut pas être garantie à 100%.

Le premier de ces garde-fous concerne la protection de l’enfance. Sora intègre ainsi les filtres développés par Thorn en réponse aux préconisations du règlement visant à prévenir et à combattre les contenus relatifs à des abus sexuels sur mineurs (CSAM). Comme sur Dall-E, son outil de génération d’images fixes, OpenAI prévoit par ailleurs des filtres visant à restreindre les générations ou les transformations qui concernent des demandes liées à la nudité ou à la pornographie.

Le modèle se veut enfin protégé des requêtes qui chercheraient à mettre en scène des « contenus trompeurs » susceptibles d’entraîner des utilisations abusives « dans le monde réel », notamment dans un contexte d’élections.

Pour tous ces aspects, OpenAI admet dépendre des contenus utilisés comme source par les utilisateurs, et c’est donc sur cette question de la « provenance » que l’éditeur indique avoir intensifié ses efforts. Comme les productions de Dall-E, les contenus générés par Sora intègrent par ailleurs le watermark invisible de la norme C2PA, imaginée pour lutter contre la désinformation. OpenAI reconnait toutefois que ses outils de détection ne sont pas encore totalement au niveau, et prévient que les utilisateurs seront limités dans leurs possibilités d’envoi de contenus vers l’outil de génération.

Commentaires (0)