Des visages en mouvement à partir de quelques images, voire d’une seule

Des visages en mouvement à partir de quelques images, voire d’une seule

Des visages en mouvement à partir de quelques images, voire d’une seule

Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, Victor Lempitsky, chercheurs au Samsung AI lab et à l’Institut Skolkovo des sciences et de la technologie, ont exposé leurs travaux visant à recréer des vidéos photoréalistes à l’aide de quelques images, voire d’une seule.

Effectuer une telle synthèse est considéré comme difficile, rappellent-ils. « Les têtes humaines sont d’une grande complexité photométrique, géométrique et cinématique », tenant à la fois à la modélisation, mais aussi à la forme de chaque élément.

De plus, il y a une très faible tolérance de l’œil humain « vis-à-vis des erreurs, même mineures, dans la modélisation de l'apparence des têtes humaines ». C’est le phénomène de « vallée dérangeante » (uncanny valley), « théorie scientifique (…) selon laquelle plus un robot androïde est similaire à un être humain, plus ses imperfections nous paraissent monstrueuses » (Wikipedia).

Les débouchés sont multiples (vidéoconférence, jeux vidéo, industrie des effets spéciaux). Le résultat est à contempler sur cette vidéo, avec une mention spéciale pour la mise en mouvement du visage de Mona Lisa.

Commentaires (12)


<img data-src=" />

&nbsp; il reste plu qu’a faire parler mona lisa pour savoir si c’est un mec ou une nana …


De ce que je vois, le système se fait en 2 étapes :




  1. La première “encode” les photos des visages de la personnes que l’on veut faire bouger pour le décrire via un ensemble fixe de valeur (en gros, ça a trouver une solution pour décrire le visage comme on le ferait avec un éditeur de perso de RPG).

  2. puis de ce code et d’un schéma du visage (un dessin grossier du visage et des éléments de celui ci) il recréer un nouveau visage.



    Après, derrière, le réseau complet sert à l’apprentissage. C’est grossièrement un Generative Adversarial Neural Network/GAN ou Réseaux antagonistes génératifs. 2 réseaux sont en concurrence, l’un essaie de créer des truc qui semble être vrai pendant que l’autre essaie de repérer ce qui est vrai de ce qui a été généré par le premier réseau. Sachant que le premier réseau a accès au “rapport d’expertise” du second réseau, il sait ce qui a fait tilté le second et donc comment améliorer ses faux pour qu’il paraissent plus vrai la fois suivante. Genre “les coup de pinceaux sont trop courts” -&gt; “je prend note, la prochaine fois, je ferai des coups de pinceau plus long”





    Sinon, pour la reconnaissance d’un visage par un humain, il y a 2 phénomènes qui se passe :




  • on est très doué pour voir des visages dans tout et n’importe quoi, un simple doint-points suivit d’une parenthèse et ban on voit une personne souriante :) .

  • on est très sensible au détail sur un visage humain. La moindre imperfection nous saute au yeux.



    Du coup, il est à la fois simple de dessiner quelque chose que l’on arrivera à identifier comme un visage, mais difficile de le faire passer pour un vrai.


la prouesse est belle, résultat est pas génial (pour Mona Lisa, à tout le moins)


C’est quand même bien marrant de voir Mona Lisa bouger <img data-src=" /> Bon, pour le moment ça fera juste une appli Android de plus pour faire joujou avec son tel en attendant le bus.

Mais je ne doute pas que ça évoluera, et que des esprits dérangés trouveront bien un moyen de l’appliquer à des fins bien moins nobles, telle la reconnaissance faciale qui sert maintenant à traquer de plus en plus. Le bénéfice compense trop peu souvent les dérives, avec ce genre de techno…


Intéressant de voir aussi les visages des autres, de Marilyn Monroe et de Dali. Pour ceux qui ont vu ces personnes vraiment parler, on peut voir que c’est prometteur mais que&nbsp; le chemin est encore long.








WereWindle a écrit :



la prouesse est belle, résultat est pas génial (pour Mona Lisa, à tout le moins)





A priori, le résultat est meilleur avec plus d’image de référence. La, il n’en a qu’une seule. De plus, avec Mona Lisa, c’est une peinture ce qui sort un peu du cadre classique de ce sur quoi il a appris (il y a des chances que ce soit la base de donnée de photos de célébrité).

Et comme je l’ai dit plus haut : autant on arrive facilement à voir un visage, autant on repère très vite les défauts sur ce visage.

Par exemple sur ce site on est tellement concentré à repérer les petit défaut sur le visage que l’on ne voit pas que le reste est dégueulasse (c’est parfois amusant quand le réseau essaye de simuler un second visage proche).







thotor a écrit :



C’est quand même bien marrant de voir Mona Lisa bouger <img data-src=" /> Bon, pour le moment ça fera juste une appli Android de plus pour faire joujou avec son tel en attendant le bus.

Mais je ne doute pas que ça évoluera, et que des esprits dérangés trouveront bien un moyen de l’appliquer à des fins bien moins nobles, telle la reconnaissance faciale qui sert maintenant à traquer de plus en plus. Le bénéfice compense trop peu souvent les dérives, avec ce genre de techno…





Hum, coller le visage de n’importe qui sur n’importe quelle vidéo… que disent les règles d’internet ?



Déjà, de manière général, tu as tout ce qui est “deepfake” qui est en gros tous ce qui permet de créer des faux qui ressemblent au vrai. On pourrait imaginer créer une vidéo de n’importe qui, qui dit ce que tu veux en copiant son visage, ses expressions, sa voix, son intonation mais aussi son “style” de phrase.



Pero je vois une application immediate dans l’industrie du porn.

Et je suis sérieux


L’algorithme est basé sur le Da Vinci Code !


Les débouchés… Première application… Les fakenews








Drepanocytose a écrit :



Pero je vois une application immediate dans l’industrie du porn.

Et je suis sérieux





Éclaire nous



c’est déjà appliqué avec CGI , ils t’ont pas attendu, ni cette nouveauté .



enfin pas le porno pro évidemment.



Emma Watson en a apparemment beaucoup fait les frais.



C’est sur wikipedia que j’ai trouvé ça , j’ai fais aucune recherche douteuses








tazvld a écrit :





  • on est très sensible au détail sur un visage humain. La moindre imperfection nous saute au yeux.







    Oui c’est la raison pour laquelle les androïdes font peur justement. Les expressions faciales sont encore très hachées et pas naturelles, cela provoque tout de suite un sentiment d’inconfort face à eux.

    Là où les robots avec une petite bouille mignonne abstraite (à la EVE de Wall-E par exemple) passent bien mieux.



Fermer