Sora : OpenAI fait des vidéos

Et du bruit médiatique

Capture d’une vidéo générée par Sora

Avec Sora, OpenAI se lance sérieusement dans la course aux IA génératives de vidéos. La communication est bien huilée et les images publiées bluffantes. Les questions maintenant classiques sur l'énergie dépensée par ces outils, les sources sur lesquels les modèles sont entrainés et les garde-fous restent toujours sans réponse.

Martin Clavey

Le 16 février 2024 à 16h41

9 min

IA et algorithmes

OpenAI a communiqué jeudi 15 février sur son nouveau projet, Sora, une IA générative capable de créer des vidéos très réalistes. La startup, qui a lancé la course à l'IA générative avec la publication de ChatGPT il y a maintenant un an et demi, se lance dans la génération de vidéo à la demande.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Comme pour ChatGPT, Sora répond à un prompt tapé par l'utilisateur. Elle n'est pas la première à le faire. La Startup Runway, financée entre autres par Google, NVIDIA et Salesforce, le propose depuis plus d'un an avec ses modèles Gen-1, puis Gen-2 et son slogan « No lights. No camera. All action. ».

Mais les exemples publiés par OpenAI dans la présentation de Sora sont assez bluffants du point de vue de leur résolution, comme, au premier abord, de leur « réalisme » (on y reviendra).

Avec Sora et un prompt comme « several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field », la startup (on a failli écrire « le studio ») arrive à générer une vidéo de 10 secondes en 1080p de très bonne qualité qui semble fidèle à la demande pour les non-spécialistes de mammouths laineux que nous sommes.

Les exemples proposés par OpenAI semblent encore plus aboutis que ceux que présentait Runway en novembre dernier dans sa propre vidéo de promotion :

We have released an update for both text to video and image to video generation with Gen-2, bringing major improvements to both the fidelity and consistency of video results.

Try it now at https://t.co/ekldoIshdw pic.twitter.com/RyLiar7MFj
— Runway (@runwayml) November 2, 2023

Si on en croit les vidéos partagées par OpenAI, Sora est clairement une évolution impressionnante dans le champ de la génération d'images « text-to-video ». Comme Runway, Sora a aussi un mode « video-to-video » qui permet de partir d'une vidéo existante et de la modifier :

OpenAI just dropped their Sora research paper.

As expected, the video-to-video results are flipping spectacular 🪄

A few other gems: pic.twitter.com/MiRe2IYkcI
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024

Sa présentation par OpenAI contient beaucoup de passages « grandiloquents », comme le souligne TechCrunch. Par exemple, lorsque l'entreprise soutient que « le modèle a une compréhension approfondie de la langue, ce qui lui permet d'interpréter avec précision les messages et de générer des personnages convaincants qui expriment des émotions vibrantes » ou qu'il « comprend non seulement ce que l'utilisateur a demandé dans l'invite, mais aussi comment ces choses existent dans le monde physique ». Le fameux anthropomorphisme abondamment utilisé par le monde de l'IA et pointé par la linguiste Emily Bender est de sortie.

Des « hallucinations »

En regardant de plus près, on peut trouver beaucoup de choses à redire sur ces vidéos proposées par la communication d'OpenAI. Des mini-lampadaires se retrouvent sur le trottoir d'une rue de Tokyo (dont on ne sait si elle existe réellement), où les cerisiers fleuris sont sous la neige. On peut aussi voir des louveteaux apparaitre comme par magie au milieu d'un chemin :

Le prompt était pourtant : « Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing ».

Sora se trompe aussi quand OpenAI lui demande de recréer une vidéo d'un train passant le célèbre viaduc écossais de Glenfinnan. Le prompt proposé est très détaillé :

« The Glenfinnan Viaduct is a historic railway bridge in Scotland, UK, that crosses over the west highland line between the towns of Mallaig and Fort William. It is a stunning sight as a steam train leaves the bridge, traveling over the arch-covered viaduct. The landscape is dotted with lush greenery and rocky mountains, creating a picturesque backdrop for the train journey. The sky is blue and the sun is shining, making for a beautiful day to explore this majestic spot ».

Mais la vidéo générée par Sora représente un viaduc avec deux voies, alors que le viaduc réel n'en possède qu'une :

Sora n'est donc pas exempt des « hallucinations » qui ont rapidement été observées lors de l'utilisation d'autres IA génératives.

D'ailleurs, comme avec ChatGPT, OpenAI a l'intelligence marketing de pointer quelques « faiblesses » de son modèle : « Il peut avoir du mal à simuler avec précision la physique d'une scène complexe et ne pas comprendre les cas spécifiques de cause et d'effet. Par exemple, une personne peut mordre dans un biscuit, mais après coup, le biscuit peut ne pas avoir de trace de morsure ».

Elle ajoute qu'il peut « également confondre les détails spatiaux d'un prompt, par exemple en confondant la gauche et la droite, et peut éprouver des difficultés à décrire avec précision des événements qui se déroulent dans le temps, par exemple en suivant une trajectoire de caméra spécifique ».

Un rapport technique toujours pas au niveau d'un article scientifique

Avec GPT-4, l'entreprise a pris l'habitude de publier des « rapports techniques » sur les modèles qui n'ont qu'une vague ressemblance avec des articles scientifiques. Elle n'y déroge pas avec Sora. Le rapport publié donne des informations techniques sur sa création. Le modèle fait partie de la sous-famille des « diffusion transformers » (DIT), déjà utilisés pour générer des images fixes. Transformer est la famille dont est issu le modèle GPT (le T signifiant transformer).

Les chercheurs d'OpenAI y expliquent qu'ils ont aussi créé un réseau entrainé pour la compression vidéo : « ce réseau prend la vidéo brute en entrée et produit une représentation latente qui est compressée à la fois dans le temps et dans l'espace ». Entrainé sur cet « espace latent compressé », Sora y « génère par la suite des vidéos ». Le rapport contient divers exemples d'utilisation sur des vidéos et un paragraphe assez vague sur les limites de l'outil :

« Sora présente actuellement de nombreuses limites en tant que simulateur. Par exemple, il ne modélise pas avec précision la physique de nombreuses interactions de base, comme le bris de verre. D'autres interactions, comme la consommation de nourriture, n'entraînent pas toujours des changements corrects dans l'état des objets ».

Mais tout en allant plus loin que la présentation « tout public » de Sora, ce rapport laisse beaucoup de détails de côté pour qu'il soit lu comme un article scientifique. Dans sa communication, OpenAI évite aussi de parler des questions maintenant classiques que posent les IA génératives.

Quid des données d'entrainement et de l'énergie utilisée ?

On le sait, ces modèles utilisés par les IA génératives ont besoin d'être entrainés avec des tonnes de données pour pouvoir proposer des textes, des images et maintenant des vidéos de cette qualité.

Dangers des grands modèles de langage : des chercheuses avaient prévenu

Pour les modèles GPT, l'entreprise communiquait un peu sur les jeux de données utilisés pour leur entrainement : si aucun détail n'était clairement donné, les chercheurs livraient les noms de regroupements de données comme « Books1 », « Books2 », « Wikipédia ». Pour Sora, OpenAI ne les évoque même plus. La question d'éventuels problèmes d'atteintes au droit d'auteur et d'infractions au copyright semble évacuée par l'entreprise.

De même, la question de l'énergie utilisée par Sora devient encore plus compliquée à poser, puisque l'entreprise ne donne aucun détail sur le matériel utilisé ou sur le nombre de données traitées.

Quid de la désinformation, des garde-fous et des biais ?

Comme pour ChatGPT, OpenAI affirme qu'elle prendra « plusieurs mesures de sécurité importantes avant de rendre Sora disponible » et qu'elle travaille avec des « experts dans des domaines tels que la désinformation, les contenus haineux et les biais – qui testeront le modèle de manière contradictoire ». Elle ajoute qu'elle est en train de créer des outils d'aide à la détection de « contenus trompeurs ». L'un d'eux, par exemple, sera capable de déterminer si une vidéo a été générée par Sora.

On n'en saura pas plus. Ces sujets de préoccupation sont pourtant pointés depuis l'avènement des grands modèles de langage.

Il y a quelque temps, des projets de développement étiquetés « privacy by design » ou « secure by design » ont émergé. N'est-il pas temps que les entreprises de l'IA générative s'en inspirent ?

Commentaires (11)

Furanku Abonné

Modifié le 16/02/2024 à 16h52

A y regarder de plus près le rendu reste quand même encore proche d'un (bon) trip léger sous LSD (les petites hallucinations visuelles perceptibles, même sur celles franchement réussies, etc).

Avantage : avec de la VR on pourra faire un trip en toute légalité. Il ne manque que la partie auditive à implémenter (le toucher on n'y est pas encore haha)

Furanku Abonné

Le 16/02/2024 à 16h53

On dit que les ingénieurs au sein de la Silicon Valley sont assez friands de psychotropes. Est-ce une coïncidence ?

hezirem Abonné

Le 17/02/2024 à 16h28

Je recommande vivement ce très bon livre

Cqoicebordel Abonné

Le 16/02/2024 à 19h03

A noter que le son n'est pas généré, uniquement la vidéo.
Et que c'était déjà ~possible en utilisant des outils : on prend une image. On la décale d'un centimètre dans une direction. On laisse le générateur combler le vide.
Avec cette technique, des mouvements de caméras complexes sont possible.

Le problème est la stabilité. Être capable de garder les mêmes détails d'images en images. D'où le problème avec les chiens et les cookies.
C'est voyant aussi dans la vidéo de la femme qui marche dans une rue de nuit. Si on regarde ses pieds, on voit de grosses aberrations, notamment des échanges de jambes. Ce qui est logique quand on ne se souvient pas des détails de quelques frames plus tôt (ce qui est le cas).

SebGF Abonné

Modifié le 16/02/2024 à 21h45

StabilityAI avait lancé il y a quelques temps de la génération d'image animée aussi. C'était assez dégueulasse par contre.

Mais c'est effectivement un exercice beaucoup plus complexe et lourd que de retenir le contexte d'une conversation texte.

Cela dit, le rendu visuel est impressionnant malgré les erreurs. Un peu trop même je trouve et j'ai eu le même sentiment qu'un trailer de jeu vidéo avec écrit en tout petit dessus "not actual in game render". Je ne saurais dire quelle confiance j'accorde à ces rendus, ayant toujours des réserves quant à la communication d'OpenAI.

---

Sinon rien à voir, j'ai eu accès ce jour à l'API LLM d'Infomaniak, basée sur Mixtral. Jusqu'ici, ça roule plutôt bien en dehors de régulières erreurs 504 probablement causées par une capacité infra encore limitée par l'hébergeur. J'ai eu des résultats un peu variés pour un même system prompt mais ce genre de chose demande un peu de tuning (et mon script python fait selon la norme ISO-1664 n'aide pas, je me ferai un petit front plus sexy en mode chat bot). Pour le moment j'ai testé comme use-case de lui demander d'être un relecteur de texte et pointer les erreurs de français, tournures, etc.

wild Abonné

Le 16/02/2024 à 22h17

Il aurait été intéressant de traduire les "prompts" en français, pour les non-anglophones.
Le travail d'OpenAI est assez bluffant !

FraGG

Le 17/02/2024 à 06h23

Je me demande ce que l'on trouve en faisant une recherche inversée d'images de certains plan fixes.

J'avoue c'est bluffant même si encore truffé de "bugs", et heureusement... On vas vraiment vers un futur ou l'image ne sera vraiment plus un gage de réalité, déjà que ce n'était plus le cas avec les détournements. Mais là c'est un autre niveau.

J'imagine que même si l'on parle de ces soucis de véracité/source depuis l'apparition de ces techno génératives ces entreprises n'en ont que faire et n'ont pas bossé sur un moyen qui nous permette d'identifier à coup sur une "video AI"....

SebGF Abonné

Modifié le 17/02/2024 à 10h10

On vas vraiment vers un futur ou l'image ne sera vraiment plus un gage de réalité, déjà que ce n'était plus le cas avec les détournements.

Ca fait très longtemps que l'image n'est pas gage de réalité, elle a énormément servi à représenter de l'imaginaire pourtant affiché comme réalité (notamment les fresques religieuses).

Et même si on reste dans la photographie, une vraie photo d'un vrai sujet pris dans un environnement bien réel peut tout autant être fausse qu'une image générée. Filtres "améliorant" sur les smartphones (immondes), mise en scène, composition, simple cadrage et l'image ne veut plus "dire" la même chose. C'est même une base des fake news : sortir une image de son contexte pour lui attribuer un autre sens.

Et même sans aller jusqu'à la désinformation, du faux il y en a plein les sites de stock photo, sur lesquels l'IA générative est en partie entraînée. Quand je compare mes propres photos faites à Venise avec celles des banques d'images, je me suis vraiment demandé si je suis allé dans la même ville. Pourtant en juin avec 5 jours de soleil et pas un nuage dans le ciel, la ville n'était clairement pas aussi colorée et criarde qu'on peut voir en image. Là où mes clichés étaient plus proches des couleurs et de la luminosité réelles, rendant l'image plus "fade" comparé aux autres. Après il suffit de faire un test simple : prendre en photo un sujet avec son smartphone et comparer le rendu. Il y a tellement de filtres appliqués de base que l'image est complètement faussée. Et ne parlons pas des photos de mode où c'est 40% de maquillage et 60% de photoshop.

En fait, si auparavant c'étaient le cinéma, les magazines, ou encore la télévision qui diffusaient des fausses images (films, etc), depuis le web des médias sociaux et le contenu produit par les utilisateurs, c'est désormais la norme de diffuser du faux partout. L'IA générative et ses productions toutes aussi fausses ne font que de s'inscrire dans cette norme d'usine à contenu imaginaires présentés comme réalité.

Après est-ce que c'est mal ? Je sais pas, mais à minima, il faut juste être conscient que l'image diffusée est très rarement vraie de nos jours. Que ce soit en tant que composition visuelle ou message qu'elle cherche à faire passer. Il faut donc une éducation pour savoir appréhender celle-ci : développement du sens critique, recherche croisée, etc.

Dadkill Abonné

Le 17/02/2024 à 11h25

"We’re also building tools to help detect misleading content such as a detection classifier that can tell when a video was generated by Sora. We plan to include C2PA metadata in the future if we deploy the model in an OpenAI product."

Onglet "Safety" de la page de présentation

SebGF Abonné

Le 17/02/2024 à 12h02

Ca perso j'attends de le voir dans les faits car, jusqu'ici, tout ceci s'est avéré être un échec. Il me semble que les récentes fausses images de Taylor Swift ont été produites avec Azure OpenAI Service alors que le service a pourtant des filtres de contenus.

Quant à cette certification C2PA, j'ai toujours pas compris en quoi cela est une garantie.

Paraplegix Abonné

Le 18/02/2024 à 15h34

C'est bien de proposer ce genre d'outils, mais le problème, c'est que déjà qu'aujourd'hui quelqu'un qui tweet "Le vaccin anti-covid a tué plus que la covid" est cru sur parole par des millions de personnes, alors si une personne tweet une courte vidéo censée représenter la "preuve" d'un complot (et peu importe lequel), ça risque de faire bien plus de bordel parce que des personnes pourront y voir une "preuve irréfutable".
Si tu es mal intentionné et que tu as accès à ce genre d'outils, tu vas régénérer et couper, flouter, retoucher la vidéo jusqu'à avoir un résultat satisfaisant pour toi.

La période de transition entre maintenant que relativement peu de personnes connaissent ce truc (ou y font attention) et vont accepter d'office n'importe quel vidéo, et plus tard où suffisamment de personnes se seront fait berner et y seront plus vigilants risque de faire très mal.

Je trouve très impressionnant et intéressant toutes les démos techniques autour de l'ia générative (j'utilise e assez fréquemment chatgpt et copilot pour le boulot). Mais là, avec la génération d'image et maintenant de vidéo aussi réaliste, je sens qu'on va voir passer beaucoup de désinformations...