Connexion
Abonnez-vous

VALL-E, la nouvelle IA de Microsoft, peut simuler la voix de n’importe qui avec 3 secondes d’audio

VALL-E, la nouvelle IA de Microsoft, peut simuler la voix de n'importe qui avec 3 secondes d'audio

Le 11 janvier 2023 à 06h15

« La nouvelle IA de Microsoft peut simuler la voix de n'importe qui avec 3 secondes d'audio », titre Ars Technica. Le modèle de synthèse vocale peut en outre « préserver le ton émotionnel et l'environnement acoustique du locuteur » :

« Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l'édition de la parole, où l'enregistrement d'une personne pourrait être édité et modifié à partir d'une transcription textuelle (en lui faisant dire quelque chose qu'elle ne disait pas à l'origine), et pour la création de contenu audio lorsqu'il est combiné à d'autres modèles d'IA générative comme GPT-3. »

Contrairement à d'autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d'onde, VALL-E analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, une technologie que Meta a annoncée en octobre 2022, et utilise des données d'entraînement pour faire correspondre ce qu'il « sait » de la façon dont cette voix sonnerait si elle prononçait d'autres phrases en dehors de l'échantillon de trois secondes, explique Ars Technica : 

« En plus de préserver le timbre vocal et le ton émotionnel d'un locuteur, VALL-E peut également imiter l'"environnement acoustique" de l'échantillon audio. Par exemple, si l'échantillon provient d'un appel téléphonique, l’audio simulera les propriétés acoustiques et fréquentielles d'un appel téléphonique dans sa synthèse (une façon élégante de dire que cela ressemblera aussi à un appel téléphonique). »

Les chercheurs de Microsoft « semblent conscients du préjudice social potentiel que cette technologie pourrait entraîner », relève Ars Technica qui souligne qu'ils précisent que :

« Puisque VALL-E pourrait synthétiser une parole qui maintient l'identité du locuteur, il peut comporter des risques de mauvaise utilisation du modèle, comme l'usurpation de l'identification vocale ou l'usurpation de l'identité d'un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection permettant de déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de l'IA de Microsoft lors du développement ultérieur des modèles. »

Le 11 janvier 2023 à 06h15

Commentaires (44)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

“Comment va Wolfy, je l’entends qui aboie ?”…

votre avatar

Zut, grillé !! , j’avais pas vu !!! :incline: :yes: :bravo:

votre avatar

Righall a dit:


“Comment va Wolfy, je l’entends qui aboie ?”…


“Wolfy va bien.” 🤖

votre avatar

Terminator…

votre avatar

Adieu les studios de doublage !



Remarque: en 2012, Microsoft avait fait une démo de comment parlerait Bruce Willis en français, c’était l’époque du buzz sur la traduction automatique des conversations vocales :)
Ca fait 10 ans que j’attend ce genre d’annonce…




Cortomatt a dit:


Terminator…


Et immense bourde dans le bouquin du film…

votre avatar

La chose importante qui me fait peur, c’est l’usurpation d’identité grâce à ce genre d’outil qui servira aux voleurs.

votre avatar

Il devrait être obligatoire d’insérer des tags accessibles aux outils de lecture dans tous ce qui est généré par IA que ce soit de la synthèse vocale, du deepfake etc.

votre avatar

Wosgien a dit:


Adieu les studios de doublage !


James Earl Jones avait cédé l’autorisation de synthétiser sa voix pour Dark Vador.



Avec le rajeunissement, voire la sortie de la tombe d’acteurs par maquillage numérique, maintenant la voix. Bref, plus besoin de se faire chier avec des divas qui demanderont un cachet à 50 millions de dollars pour un film. Suffira de prendre le premier gus dans la rue qui sait prendre la pose et la magie fera le reste.



L’industrie du faux n’aura jamais aussi bien porté son nom :D

votre avatar

Je crois que les acteurs qui sont payés énormément le sont plus pour la valeur de promotion qu’ils apportent que pour leur qualité d’acteur.



Je crois qu’Avatar est déjà bien dans le faux, les acteurs sont plus facilement remplaçables.



Mais comme tu l’as suggéré, ça pourra être utilisé pour éviter les soucis de vieillissement / mort des acteurs et permettre de conserver un personnage.



De mémoire ils avaient eu le soucis pour Harry Potter, les acteurs vieillissant plus vite que leurs personnages. (Et pour faire le lien avec l’article, des soucis de mue de voix).

votre avatar

Oui en effet, le business model du cinema repose en partie sur le côté “bankable” des acteurs de cinéma. Mais derrière ça peut entraîner une transition vers un business model basé sur le côté “bankable” de la franchise et des personnages qui pourraient être entièrement dissociés de leurs acteurs là où aujourd’hui “Machin dans le rôle de Bidule” fait vendre.



M’enfin pour le dernier cas, on a pas mal d’acteurs où on a surtout l’impression qu’ils jouent leur propre rôle :D (genre Morgan Freeman, dans le rôle de Morgan Freeman et ses rôles de mentor / conscience du protagoniste)

votre avatar

Le truc c’est que l’acteur fait aussi de la promotion en dehors du film (plateaux TV, conventions, …).



Pour les acteurs dans leur propre rôle, je suppose que c’est toujours dans l’idée de donner au spectateur ce qu’il attend (Jim Carrey).

votre avatar

Et ben WALL-E distribuera des autographes imprimés sur place :D



Mais oui tu as raison, il y a encore besoin de représentativité. Jusqu’à quand, on verra. Après tout, au Japon, Hatsune Miku a fait aussi des festivals et des promotions en tout genre. C’est devenue une véritable “virtual Idol”.

votre avatar

Mais c’est effrayant et en même temps magnifique.
J’imagine pour les personnes ayant perdu des proches et ne gardant d’eux qu’un message vocal. Ils vont pouvoir faire “revivre” leur proches et être aimés. Difficile, de prévoir l’effet positif ou négatif de cette technologie dans ce domaine. Le deuil se fera t-il toujours ? De quelle manière ?



Je ne parle pas du côté malveillant qui pourrait dépasser notre imagination. Offrir un moyen de le détecter n’est utile que lorsque l’on se méfie de ce genre de technologie.

votre avatar

swiper a dit:


J’imagine pour les personnes ayant perdu des proches et ne gardant d’eux qu’un message vocal. Ils vont pouvoir faire “revivre” leur proches et être aimés. Difficile, de prévoir l’effet positif ou négatif de cette technologie dans ce domaine. Le deuil se fera t-il toujours ? De quelle manière ?


Faire parler les morts, tu crois sérieusement que ça va aider pour le deuil ? C’est carrément glauque.

votre avatar

swiper a dit:


Mais c’est effrayant et en même temps magnifique. J’imagine pour les personnes ayant perdu des proches et ne gardant d’eux qu’un message vocal. Ils vont pouvoir faire “revivre” leur proches et être aimés. Difficile, de prévoir l’effet positif ou négatif de cette technologie dans ce domaine. Le deuil se fera t-il toujours ? De quelle manière ?



Je ne parle pas du côté malveillant qui pourrait dépasser notre imagination. Offrir un moyen de le détecter n’est utile que lorsque l’on se méfie de ce genre de technologie.


Je suis pas fan de ça. Ca me fait penser à l’épisode de Black Mirror où une femme fait revenir son petit ami récemment décédé en commandant le service en ligne.



Ce genre de techno peut être marrante, bluffante mais c’est surtout super flippant quand on pense aux innombrables choses complétement amorales et illégales qu’on pourra faire.

votre avatar

(quote:2114030:alex.d.)
Faire parler les morts, tu crois sérieusement que ça va aider pour le deuil ? C’est carrément glauque.


Et pourtant… C’est déjà tenté (plusieurs fois)
https://edition.cnn.com/2021/01/27/tech/microsoft-chat-bot-patent/index.html
https://www.technologyreview.com/2022/10/18/1061320/digital-clones-of-dead-people/

votre avatar

Ça n’en reste pas moins glauque…

votre avatar

swiper a dit:


Mais c’est effrayant et en même temps magnifique.
Effrayant? sans-doutes. Magnifique? Non… C’est juste de la falsification, et cela sera utilisé exclusivement pour de la falsification.



J’imagine pour les personnes ayant perdu des proches et ne gardant d’eux qu’un message vocal. Ils vont pouvoir faire “revivre” leur proches et être aimés. Difficile, de prévoir l’effet positif ou négatif de cette technologie dans ce domaine. Le deuil se fera t-il toujours ? De quelle manière ?


Concernant le deuil, on peut tout à fait anticiper que ça va surtout aider des gens à rester dans le déni, la névrose, l’illusion, le passé… à ne pas pas traverser le deuil mais à y demeurer.




Je ne parle pas du côté malveillant qui pourrait dépasser notre imagination. Offrir un moyen de le détecter n’est utile que lorsque l’on se méfie de ce genre de technologie.


Il y a pas mal de raisons de se méfier de ces outils permettant de créer de tels niveaux de falsification. Ces outils mettent en péril notre relation aux autres, mettent en péril nos identités, notre relation à la réalité, et mettent en danger notre sécurité à de nombreux niveaux.

votre avatar

Tandhruil a dit:


Il devrait être obligatoire d’insérer des tags accessibles aux outils de lecture dans tous ce qui est généré par IA que ce soit de la synthèse vocale, du deepfake etc.


A partir du moment où la technologie existe , tu pourra toujours implémenter une version qui n’insère pas les tags “obligatoire” …
Même les waterwark “secret” des studio dans les films diffusés survivent rarement aux réencodages.

votre avatar

Retrouver la voix de Roger Carel dans les nouveaux Astérix…
Avoir la même voix pour Harrison Ford dans la Saga Indiana Jones ou Star Wars.



À voir en pratique, mais ça risque d’être détourné à de mauvaises fins…

votre avatar

Pierre Tornade, Jean Topart, Jacques Balutin, Michel Roux, Patrick Poivey, Jacques Frantz

votre avatar

Med Hondo, Odile Schmitt, Patrick Floersheim…

votre avatar

Ça me semble quand même “ambietieux” qu’en partant de 3 secondes, on puisse le faire correctement, tromper qqu’un qui te connaît un minimum. On a chacun nos “tic” tant côté accent que côté tonalité. Je reste perplexe sur la variable “effet d’annonce”

votre avatar

Si en 3 secondes (3 secondes !), tu peux matcher à 95%, imagine avec, je sais pas, 30 secondes ! :D

votre avatar

Righall a dit:


“Comment va Wolfy, je l’entends qui aboie ?”…


D’ailleurs dans la version non coupé on le voit tuer le chien

votre avatar

corrigo a dit:


À voir en pratique, mais ça risque d’être détourné à de mauvaises fins…


Ça VA être détourné à de mauvaises fin…

votre avatar

ndjpoye a dit:


Ça me semble quand même “ambietieux” qu’en partant de 3 secondes, on puisse le faire correctement, tromper qqu’un qui te connaît un minimum. On a chacun nos “tic” tant côté accent que côté tonalité. Je reste perplexe sur la variable “effet d’annonce”


Si l’échantillon parle vite et case une grande quantité de mots dans ces 3 secondes, pourquoi pas.



Mais si je devais servir d’exemple, je ne fais presque jamais les liaisons.
Si on me prend avec un échantillon de texte déjà sans liaisons, je doute que cette IA parvienne à m’imiter.

votre avatar

Ma banque utilise un mode d’authentification par la voix “ma voix est mon mot de passe”…



Donc avec cette techno, ma voix n’est plus mon mot de passe… fichtre.

votre avatar

(reply:2114085:john san)


La voix n’a jamais été équivalente à un mot de passe, même avant cette techno.

votre avatar

Ca peut être super pour faire jouer des textes dynamiques sur des centrales téléphonique,



Améliorer sa prosodie, en utilisant sa propre voix quand on a du mal à bien prononcer les phrases



On pourrait même imaginer une conversation avec un anglophone en visio, un speech-to-text transcrirait notre texte en Français pour le traduire en anglais et re balancer via Vall-e avec notre voix le texte en Anglais, ou même dans les films on aurait la vrai voix de l’acteur dans différentes langues.

votre avatar

swiper a dit:


Mais c’est effrayant et en même temps magnifique. J’imagine pour les personnes ayant perdu des proches et ne gardant d’eux qu’un message vocal. Ils vont pouvoir faire “revivre” leur proches et être aimés. Difficile, de prévoir l’effet positif ou négatif de cette technologie dans ce domaine. Le deuil se fera t-il toujours ? De quelle manière ?



Je ne parle pas du côté malveillant qui pourrait dépasser notre imagination. Offrir un moyen de le détecter n’est utile que lorsque l’on se méfie de ce genre de technologie.


Au contraire, c’est typiquement le problème avec l’usage de ce type d’outil : on distingue de moins en moins le vrai du faux.



Typiquement l’art était déjà confus entre ce qui faisait d’une œuvre d’art “un chef d’œuvre” : le rendu en lui-même ? le message qu’elle véhicule ? l’interprétation qui en est faite ?
Maintenant on va se poser la question de “est-ce que tout ça existe dans ce que je perçois ?”, car l’IA n’a aucune intention réelle, encore moins dans le cadre d’une reproduction comme ici.
Elle pourra faire un nouveau titre de Mickael Jackson sans problème, proche du style originel pour être identifiable, mais parfaitement mis au goût du jour comme “seul un véritable artiste saurait le faire”. Tout le monde y croira, ça sera “digne de lui”, mais est-ce que cela illustrera l’évolution artistique de Mickael Jackson ? Non, car il est mort, on écoutera une IA.
Elle aura répliqué à partir de sa base de connaissance ce qu’elle considère que notre cerveau va interpréter comme “véritable”. Une énorme hypocrite/faussaire, en gros.



C’est la même chose dans le cadre du deuil. On a eu un contact avec une vraie personne, des souvenirs se sont créés, dans lesquels se sont intégrés les personnalités respectives, les qualités et défauts de l’autre, peut-être son phrasé exemplaire mais une tendance à dire “astérix” au lieu d’astérisque ou à utiliser de façon insensée le mot “chocolatine” (bon ok, personne s’attache à quelqu’un qui dit pas “pain au chocolat”).



C’est la véracité de ces interactions qui vont manquer en cas de décès. C’est fini, c’est dur, mais l’IA ne reproduira jamais rien qui soit réel. On a un besoin crucial que ça reste vrai pour qu’on restent “utiles”. Déjà de base, nos représentations des gens sont biaisées par le temps et la mémoire, on y apporte désormais du biais complémentaire par les filtres, si en plus on se met à lui faire recréer des propos fictifs, rendus encore plus réalistes avec une petite vidéo deepfake (tant qu’à faire), ça ne peut qu’être nocif.



Mais bon, admettons qu’on se lance. On place où la limite ? On autorise à reprendre un extrait écrit existant dans une version interprétée ? A reproduire un propos au choix de 30sec maximum (ou 60sec avec le pack premium) sur la base d’un souvenir qu’on raconte ? A générer un message psychologiquement réconfortant automatique via une requête chatGPT “Que dire à ses proches quand on est mort et qu’ils sont tristes” ? Et du coup, c’est le futur mort qui choisi en amont ou c’est les proches après le décès dans le cadre des procédures d’héritage ?



Autant monter un cran au dessus, on va continuer à communiquer avec le mort, savamment répliqué via une IA,comme dans l’épisode Black Mirror évoqué dans un autre commentaire. Au moins, chacun fait son deuil à sa vitesse (si c’est possible quand la personne ne semble pas morte ?).



M’enfin dans ce cas tant qu’à faire, autant basculer directemetn sur l’IA avant même la mort de cette personne, comme ça on s’épargne la douleur de sa perte !
Avec un peu de chance, on pourra même ajuster quelques réglages sur des détails de sa personnalité qui nous agaçent, ça lui évitera d’être parfois un peu trop pessimiste, trop franche… et on aura même un bouton “PAUSE”, le rêve absolu !



Est-ce que j’exagère le trait ? J’ai franchement du mal à le savoir moi-même.

votre avatar

Tu sous estimes l’IA qui peut construire et se souvenir des interactions vécues. Aujourd’hui déjà, avec Chat GPT on peut avoir une conversation relativement intéressante sur pleins de sujets divers. Finalement, c’est souvent les informations qui ont été utilisées pour créer le modèle qui limite les interactions.
Je m’explique:
Je suis un père de famille aimant et un mari attentionné. J’ai souscrit à ce service qui me permet de faire mon journal intime sur la plateforme de l’entreprise EvilDead Corp. Ils me promettent de pouvoir introduire mes réflexions et mes façons de voir la vie dans un IA qui survivra à mon décès et qui pourra même créer des interactions nouvelles une fois décédé. Bien sûr, le modèle utilisera un pack de données générales pour étendre la simulation qui sera régulièrement mis à jour. D’ailleurs, cette simulation sera payante au mois sans quoi les informations seront supprimées.



Je n’ose même pas imaginer la fortune que la boite fera en quelques mois. Qui dit fortune dit puissance commerciale et bientôt politique. Je parle bien sur de lobbies de l’IA qui vont surfer à mort sur le bien qu’elles apportent à l’humanité de ne plus avoir à subir les pleins affres de la mort.



Rien qu’en élaborant cette théorie je me fais peur…

votre avatar

Pour ceux qui se rappellent de ce passage:



” Comment s’appelle le chien?”



” Max.”



“Qu’est-ce qu’il a, Wolfy?, Je l’entends aboyer… Il va bien?”



” Wolfy va bien, chéri. Très bien, Où es-tu?”



“Tes parents adoptifs sont morts.”



Terminator 2 (1991)

votre avatar

(reply:2114085:john san)


Si si, ta voix est toujours ton mot de passe. Un mot de passe faible.

votre avatar

SebGF a dit:


Mais oui tu as raison, il y a encore besoin de représentativité. Jusqu’à quand, on verra. Après tout, au Japon, Hatsune Miku a fait aussi des festivals et des promotions en tout genre. C’est devenue une véritable “virtual Idol”.


J’avoue que je n’y avais pas pensé.



Si on prend un IA qui pourrait communiquer avec une “personnalité” spécifique ce serait jouable.



Pour les plateaux tv on pourrait faire ça en “réalité augmentée”.
Chez nous la RTBF l’avait fait pour l’interview des joueurs de foot après le match, ils étaient filmés au Qatar et ensuite intégrés “sur” le plateau.
Le faire avec un modèle 3D devrait être “facile”.



Il ne manquerait que l’interaction physique, mais je pense que ce ne serait pas absurde à prédire pour le futur, le soucis n’est plus vraiment technique il est social.

votre avatar

(reply:2114075:skankhunt42 )


Et dans le dernier Terminator, si vous avez remarqué le message dissimulé dans cette scène: ils se prennent tranquille des Corona dans le jardin, et le T-800 caresse gentillement son chien en lui tapotant le dos , le message étant que le T-800 a radicalement évolué et est quasiment “humain”. La réplique à ce moment là d’Arnold (et pas possible qu’il l’ai sortie sans être péter de rire juste après):



Ils ne savent pas ?




  • Non.

  • Elle n’a pas remarqué que tu pèses 400 livres et que tu ne dors jamais ?

  • Notre relation n’est pas physique, elle a apprécié que je puisse changer les couches efficacement et sans aucune plainte.

  • Je suis fiable, je suis un très bon auditeur et je suis aussi quelqu’un d’ extrêmement drôle.

votre avatar

(quote:2114030:alex.d.)
Faire parler les morts, tu crois sérieusement que ça va aider pour le deuil ? C’est carrément glauque.


Et avec les progrès de la génération de modèle 3D à partir de photo, on aura même leur visage animé :D. Ça pourrait être plus sympa que Clippy :transpi:

votre avatar

xlp a dit:


Si si, ta voix est toujours ton mot de passe. Un mot de passe faible.


C’est seulement la voix qui donne l’accès, pas une phrase mot de passe ?

votre avatar

En l’occurrence je ne sais pas.
Il y a au moins un pays où au moins un service gouvernemental (les impôts de mémoire) demande à tout le monde de dire la même phrase.

votre avatar

misocard a dit:


Il ne manquerait que l’interaction physique, mais je pense que ce ne serait pas absurde à prédire pour le futur, le soucis n’est plus vraiment technique il est social.


Oui et encore, les émissions avec un personnage virtuel remontent déjà à longtemps (cf le BigDil ou encore Hugo Délire dans les années 90). Même si ça reste un gros changement culturel, viendra un moment où sur un plateau, ça sera un Dark Vador en virtuel doublé par la voix synthétisée de James Earl Jones qui fera l’interview.



Il suffit que l’enregistrement ne soit pas en direct pour que l’illusion soit parfaite… (après tout, il y avait eu une arnaque autour de l’androïde à IA dont j’ai oublié le nom qui avait fait des “interviews” avec différentes personnalités mais qui s’étaient avéré être des séquences tournées et planifiées à l’avance)



Et même, si demain ils arrivent à entraîner des modèles qui sont capables de refléter la personnalité du personnage de fiction, ils seraient presque capables de faire une “vraie” interview de Dark Vador (et au passage faire chier les scénaristes). Faut juste éviter que le présentateur pose les mauvaises questions, sinon il risque de sentir sa cravate se resserrer :transpi:

votre avatar

spidermoon a dit:


C’est seulement la voix qui donne l’accès, pas une phrase mot de passe ?


En l’occurrence tu peux dire : une phrase de passe :)

votre avatar

swiper a dit:


Tu sous estimes l’IA qui peut construire et se souvenir des interactions vécues. Aujourd’hui déjà, avec Chat GPT on peut avoir une conversation relativement intéressante sur pleins de sujets divers.


Ha mais je sais qu’elle en sera capable un jour, c’est bien ce qui pose problème de se dire qu’on peut s’en servir pour prolonger les interactions avec un humain dès qu’on peut reproduire une voix à partir d’une annonce de répondeur !



Reste que pour être viable, ton journal nécessiterait un niveau de transparence et d’intimité impossible à atteindre sauf à y passer des heures et des heures avec un guidage psychologique de l’IA qui en rebuterait plus d’un (à moins d’aller lire directement dans les pensées ?).



C’est pour ça que j’évoque une réplication capable de faire illusion auprès d’un proche, au moins un certain temps, mais que ça ne sera jamais toi.

votre avatar

xlp a dit:


En l’occurrence je ne sais pas. Il y a au moins un pays où au moins un service gouvernemental (les impôts de mémoire) demande à tout le monde de dire la même phrase.


“Je paye mes impôts dans la joie et la bonne humeur” ? :D à force de le répéter, on peut finir par y croire

votre avatar

Faudra que je leur suggère de changer, après tout à une époque il fallait changer régulièrement de mot de passe !

VALL-E, la nouvelle IA de Microsoft, peut simuler la voix de n’importe qui avec 3 secondes d’audio

Fermer