Meta AI fait aussi des vidéos

Meta AI fait aussi des vidéos

Llama faire toujours comme ça

5

Meta AI fait aussi des vidéos

Huit mois après l'annonce de l'existence de Sora par OpenAI, Meta communique sur sa capacité de générer de petites vidéos de 10 secondes en utilisant des modèles de fondation. Comme sa concurrente, Meta ne communique ni sur les sources utilisées ni sur l'énergie dépensée. Et comme pour Sora, l'outil n'est pas disponible pour le grand public.

Meta a récemment communiqué sur sa capacité à générer des petites vidéos de 10 secondes en utilisant une famille de modèles de fondation, appelée Movie Gen et créée par son équipe de recherche. L'entreprise montre des vidéos dont les images sont, comme pour Sora, d'un incroyable réalisme. Elle a publié une série de 80 vidéos générées avec ses nouveaux modèles tout en évitant, contrairement à sa concurrente, de montrer des vidéos comportant des hallucinations. Ce qui ne veut pas dire que ses modèles n'en produisent pas.

Dans son annonce, Meta indique : « nos dernières avancées en matière de recherche montrent comment vous pouvez utiliser de simples entrées de texte pour produire des vidéos et des sons personnalisés, éditer des vidéos existantes ou transformer votre image personnelle en une vidéo unique ».

Pas d'outil disponible

Mais, pour l'instant, contrairement à ce que dit Meta, vous ne pouvez pas accéder à cet outil. L'entreprise affirme d'ailleurs qu'elle « continue à améliorer » ses modèles et qu'elle se dirige « vers une éventuelle future publication ». Elle ajoute travailler « en étroite collaboration avec les cinéastes et les créateurs afin d'intégrer leurs commentaires ».

D'ailleurs, du côté d'OpenAI, huit mois après l'annonce à propos de Sora, l'entreprise ne fournit toujours pas d'accès à Sora. Si ces entreprises communiquent sur ces capacités incroyables de génération de vidéos, leurs limitations semblent bloquer leur diffusion.

Aux petites vidéos générées via un prompt, Meta ajoute aussi qu'elle est capable de créer des vidéos « personnalisées ». C'est-à-dire que son système peut, par exemple, utiliser la photo d'une personne pour l'intégrer dans une vidéo générée, ou même éditer une vidéo existante.

Enfin, l'entreprise de Mark Zuckerberg explique que Movie Gen contient aussi un modèle qui permet la génération de son ( « jusqu'à 45 secondes »), soit à partir d'une vidéo existante, soit via un prompt textuel.

Une architecture beaucoup plus détaillée

Les chercheurs de Meta détaillent (beaucoup plus que ceux d'OpenAI) dans un « paper » [PDF] les composants et l'architecture des modèles de la famille « Movie Gen ».

Dans ce texte, ils se plaignent d'ailleurs des difficultés qu'ils ont rencontrées pour comparer les performances des différents travaux de leurs confrères et consœurs. Ils n'ont pu comparer leurs travaux, chez Runway Gen3, LumaLabs et Kling1, qu'en utilisant leurs « modèles commerciaux dans une boite noire » avec un accès via leurs API.

Et pour comparer à Sora, ils n'ont pu que le faire en utilisant les prompts et vidéos publiés en exemples par OpenAI. Les chercheurs de Meta pointent le fait qu'évidemment, « les vidéos publiées pour les méthodes dont les sources sont fermées sont susceptibles d'être les "meilleurs" échantillons représentatifs obtenus par sélection ». Si le « paper » des chercheurs de Meta est bien plus détaillé que le « rapport technique » d'OpenAI, des questions se posent aussi sur la possibilité d'évaluer les performances de Movie Gen par d'autres, puisque les modèles ne sont pas publiés.

Encore beaucoup de problèmes

Les chercheurs de Meta considèrent que Movie Gen « représente une amélioration significative de la génération de vidéo à partir d'un texte ». Mais, ils avouent que « malgré ces améliorations, [ils observent] que les modèles de génération vidéo souffrent encore de problèmes – artefacts dans les vidéos générées ou éditées autour d'une géométrie complexe, manipulation d'objets, physique des objets, transformations d'état, etc ».

Ils ajoutent à propos des effets sonores que « le son généré est parfois désynchronisé lorsque les mouvements sont denses (par exemple, les claquettes), visuellement petits ou occultés (par exemple, les bruits de pas), ou lorsqu'il nécessite une compréhension visuelle plus fine (par exemple, la reconnaissance des accords de guitare). Enfin, ils précisent qu' « actuellement » Movie Gen « ne prend pas en charge la génération de voix en raison de nos choix de conception ».

De plus, comme le fait remarquer l'enseignant-chercheur à l'Université de Genève, François Fleuret, ces modèles de génération de vidéos ne se soucient pas « de l’exhaustivité des futurs possibles ». Les vidéos sont générées en fonction du rendu des images et non en fonction d'une « modélisation du monde ».

La remarque est d'ailleurs appuyée par le responsable scientifique de Meta AI lui-même, Yann LeCun. Selon lui, ils peuvent produire toujours les mêmes sorties ou de faibles variations (ce qui, dans le jargon technique, est désigné par le terme « mode collapse »), « et vous ne le saurez jamais ». Par exemple, à partir d'un prompt décrivant une voiture tournant dans un carrefour, un modèle peut ne proposer que des vidéos d'une voiture qui tourne à gauche, sans parcourir d'autres possibilités.

Commentaires (5)


Je ne comprend pas quel est l'intérêt.
La quantité de bullshit sur les réels Facebook va encore augmenter ?

Je ne parviens pas à voir quel bénéfice (financier) ils vont en tirer au final. Pouvoir vendre de la génération à la volée de publicités ?
Pouvoir vendre de la publicité à la génération volée ? :humour:

Vincent Hermann

Pouvoir vendre de la publicité à la génération volée ? :humour:
Avec la photo de nos propre petits nenfants nous qui nous demandent avec les grands yeux et leur jolie voix (fourni via lesrezeaux) d'acheter la nouvelle lessive qui fait pas gratter les pulls...
Ok, pour l'instant, on en rigole... Mais...

dedalum

Avec la photo de nos propre petits nenfants nous qui nous demandent avec les grands yeux et leur jolie voix (fourni via lesrezeaux) d'acheter la nouvelle lessive qui fait pas gratter les pulls...
Ok, pour l'instant, on en rigole... Mais...
En vrai je voulais juste réarranger les mots dans la dernière phrase d'Yvan :transpi:
Publicité vidéo ciblée en fonction de paramètres qui sont propres à chacun afin de caler au mieux avec notre profil psychologique ?
Modifié le 08/10/2024 à 13h57

Historique des modifications :

Posté le 08/10/2024 à 13h57


Publicité vidéo ciblée en fonction de paramètres qui sont propres à chacun afin de caler au mieux avec notre profil psychologique ?

Fermer