OpenAI communique sur ses capacités à cloner des voix, mais pas sur les données d’entrainement

« Open » AI ?

Mojahid Mottakin - Unsplash

Martin Clavey

Le 04 avril 2024 à 08h18

Comme avec Sora, OpenAI communique sur un outil capable de cloner des voix tout en ne le rendant pas public pour des raisons éthiques. Et encore une fois, se pose la question des données d’entrainement de ce nouvel outil d’IA générative. En parallèle, l’entreprise de Sam Altman rend disponible ChatGPT sans compte pour les internautes américains et rêve avec Microsoft de construire un supercalculateur à 100 milliards de dollars consacré à leurs projets d’IA.

OpenAI communique sur ses capacités à cloner des voix, mais pas sur les données d’entrainement

« Open » AI ?

Mojahid Mottakin – Unsplash

Martin Clavey

Le 04 avril 2024 à 08h18

IA et algorithmes

6 min

En fin de semaine dernière, OpenAI a publié un billet de blog pour montrer les capacités de son nouvel outil d’IA générative, « Voice Engine ». Mais, considérant les critiques contre de tels outils et notamment leur potentielle utilisation pour humilier ou arnaquer à travers des deep fakes, l’entreprise insiste sur le fait qu’elle ne met pas (pour l’instant) l’outil dans les mains de n’importe qui.

Cette présentation, sans accès public, rappelle celle que l’entreprise avait déjà utilisée pour son IA générative de vidéos, Sora. Elle a l’avantage de montrer que l’entreprise continue d’innover sans gérer d’éventuels nouveaux problèmes d’images et d’échelle pour l’entreprise qui, avec ChatGPT, a lancé le premier outil très grand public basé sur un modèle de langage.

IA

Sora : OpenAI fait des vidéos

IA

Vendredi 16 février 2024 à 16h41 16/02/2024 16h41

11

OpenAI n’est pas la seule startup à être capable de proposer ce genre d’outils de clonage de voix : une recherche dans votre moteur préféré permet de trouver de nombreux outils comme Murf, Play.ht, Voice.ai…

Continuité de son API text-to-speech et partenariats

En parlant de Voice Engine, l'entreprise communique en fait sur l'évolution de son travail autour de son API text-to-speech lancée fin 2022.

Voice Engine est déjà utilisé par OpenAI dans ses produits, notamment pour les voix de sa synthèse vocale employée par la version « voix » de ChatGPT et son option de « lecture à voix haute ».

Mais dans son billet, OpenAI en profite pour mettre en avant des projets de startups qui utilisent son outil. Par exemple, HeyGen utilise le Voice Engine d'OpenAI pour créer des vidéos d'avatars multilingues. OpenAI précise qu'en mode traduction, son outil conserve l'accent du locuteur original. L'entreprise prend l'exemple d'un texte généré en anglais « à partir d'un échantillon audio provenant d'un locuteur français, on obtient un discours avec l'accent français ». Dans le même genre, Spotify avait déjà annoncé utiliser les outils d'OpenAI pour faire de la traduction de podcast en septembre 2023.

OpenAI met aussi en avant le projet brésilien Livox qui propose aux personnes souffrant de troubles de la parole une application de communication alternative par l'IA. Les utilisateurs peuvent choisir la voix qui leur correspond le mieux plutôt qu'une voix synthétique.

On imagine bien que l'entreprise communique sur les projets les moins polémiques possibles pour montrer qu'elle les choisit avec soin.

La sempiternelle question des données d'entrainement

Reste que, comme toute IA générative, le Voice Engine d'OpenAI doit ses capacités impressionnantes, entre autres, aux données sur lesquelles il est entraîné.

TechCrunch a interrogé Jeff Harris, un membre de l'équipe produit d'OpenAI, sur le sujet, mais celui-ci « s'est contenté de dire que le modèle de Voice Engine a été formé à partir d'un mélange de données sous licence et de données publiques ». Par contre, il a expliqué à nos confrères qu'OpenAI n'utilise pas les données utilisateurs pour l'entrainer ou l'affiner. « L'audio utilisé est supprimé une fois la demande terminée », précise-t-il.

ChatGPT sans compte, mais avec réutilisation des données en opt out

OpenAI a aussi annoncé lundi 1ᵉʳ avril (et ce n'est pas un poisson) la possibilité d'utiliser ChatGPT sans créer de compte. Si le billet de blog de l'entreprise ne précise pas la liste des pays dans lesquels les utilisateurs peuvent utiliser cette nouvelle capacité, nous avons pu constater qu'avec une IP française, la page de ChatGPT redirige vers celle de login. Avec une IP américaine, l'outil est dès à présent disponible sans compte. Comme les versions déjà existantes, celle-ci permet aussi d'obtenir des réponses en français.

Ici, comme dans la version gratuite de ChatGPT déjà existante après login, OpenAI se donne la possibilité, par défaut, d'utiliser les données des utilisateurs pour entrainer et affiner son modèle. Pour que ce ne soit plus le cas, il faut cliquer sur une petite icône « ? » en bas à droite et aller dans les paramètres pour pouvoir décocher l'option « améliorer le modèle pour tout le monde » :

https://images.openai.com/blob/ebff4f07-9c31-48cb-a0f4-6bc777ab41ca/Comp_NoAuth_Gif2.gif

L'entreprise explique avoir ajouté à cette version des limites plus drastiques, bridant la génération de contenus problématiques.

Stargate, un supercalculateur à 100 milliards de dollars ?

Et OpenAI ne s'imagine pas s'arrêter sur son chemin de l'IA générative. Comme l'explique Le Monde Informatique, reprenant le média The Information, l'entreprise de Sam Altman envisagerait de créer avec Microsoft un supercalculateur dédié à l'IA dont le budget atteindrait 100 milliards de dollars. Son nom : Stargate.

L'investissement se concentrerait notamment sur l'achat de NPU et la machine demanderait une puissance électrique de 5 GW. « S'il était construit aujourd'hui, un supercalculateur de cinq gigawatts pourrait accueillir plus de 40 000 systèmes de rack NVL72 DGX GB200 de NVIDIA contenant 2,88 millions de GPU Blackwell capables de réaliser 14 400 exaFLOPS de performances FP8 denses », ont calculé nos confrères.

Commentaires (21)

R4VEN Premium

Le 04/04/2024 à 08h45

Quelqu'un peut-il m'expliquer la finalité qu'on peut trouver à cloner une voix humaine ? J'ai du mal à trouver un usage légitime intéressant à une telle fonction.

Ou alors ce n'est que pour dire "on sait le faire" côté OpenAI ?

vexal Premium

Le 04/04/2024 à 09h03

C'est utile pour tout ce qui est text to speech. Pour lire des livres aux personnes malvoyantes et toutes les aides que cela peut leur apporter au quotidien (lire un article d'un site web...). C'est plus compréhensible que les voix générées jusqu'à maintenant. Ce sera utile aux futurs robots humanoïdes pour s'exprimer.
Il y a aussi beaucoup de possibilité coté arnaques (ça existe déjà) ou de falsification de preuves...

MisterDams Premium

Le 04/04/2024 à 09h23

On peut imaginer que tu transmettes un message écrit (écrit dans le train par exemple) et qu'il soit lu dans la voiture de ton destinataire avec ta propre voix plutôt que celui de la synthèse vocale. Je crois que c'est Apple qui travaille un peu là dessus.

Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.

Côté santé, permettre de reparler à des handicapés qui auraient perdus l'usage de la voix (via une puce Neuralink par exemple).

SebGF Premium

Le 04/04/2024 à 13h46

Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.

Ou mort ou prenant sa retraite. Cf James Earl Jones.

ShadowNet Premium

Le 04/04/2024 à 09h42

Pour faire le communicateur universel de star trek. Chacun parle sa langue mais les autres entendent ce qui est dit dans leur propre langue. Ca permet de mieux saisir les nuances et de parler avec des personnes parlant une langue qu'on ne connait pas du tout

Colossale-Autruche-sélective

Le 05/04/2024 à 08h41

Bien vu !

fred42 Premium

Le 05/04/2024 à 10h31

Cela va à l'encontre de la volonté divine (Genèse 11) :

Allons ! descendons, et là confondons leur langage, afin qu’ils n’entendent plus la langue, les uns des autres.

guimoploup

Le 04/04/2024 à 09h48

Il y a aussi la disparition des "accents" pour les call center (voire des call center qui n'ont plus besoin de parler francais), de la publicité ciblée (imagine que la voix de ta copine t'insuffle d'acheter le dernier SUV) etc. Avec pour conséquence : Zéro confiance dans les communications orales.

swiper Premium

Le 04/04/2024 à 11h46

Pour faire croire à quelque tueur en série qu'on est toujours en train de chanter sous la douche alors qu'on est sorti par la fenêtre en train de démarrer la voiture. Imagine le nombre de personnes qui seraient sauvées dans les films !

Colossale-Autruche-sélective

Le 05/04/2024 à 08h43

Même si des fois certaines fenêtres de salle de bain, ben elles sont pas bien larges... enfin avec un peu de gel de douche ou du shampoing...

Trog Premium

Le 04/04/2024 à 15h58

Je m'en sers pour mes flashcards Anki (Text To Speech est intégré dans les OS comme MacOS, iOS et iPadOS) pour l'apprentissage des langues à défaut d'avoir des enregistrements de voix. Voir pour les intéressés: https://docs.ankiweb.net/templates/fields.html#text-to-speech-for-individual-fields.

pamputt Premium

Le 04/04/2024 à 09h13

L’investissement se concentrerait notamment sur l’achat de NPU et la machine demanderait une puissance électrique de 5 GW.

5 GW, c'est l'équivalent de 6 centrales nucléaires actuelles ou 3,5 futurs EPR. Tout ça pour alimenter un seul ordinateur. C'est vraiment n'importe quoi

Vincent Hermann Équipe

Le 04/04/2024 à 11h52

Oui, mais c'est un très très gros ordinateur

pamputt Premium

Le 04/04/2024 à 12h21

Cela dit, peut-être que dans les 100 milliards de dollar, ça inclut la construction des centrales nucléaires

/e/OS/rox Premium

Modifié le 26/04/2024 à 21h39

Pas les EPR d'Areva alors, c'est hors budget si l'on se fie aux EPR français et finlandais 🤪

Ferrex Premium

Modifié le 04/04/2024 à 14h32

Orano, c'est le combustible. l'EPR d'Olkiluoto (en Finlande), c'est toujours chez AREVA S.A.

RuMaRoCO Premium

Le 04/04/2024 à 12h25

C'est presque deux fois ce qu'il faut pour voyager dans le temps....

SebGF Premium

Le 04/04/2024 à 13h47

Mauvais exemple. Vu son nom, il servira à mettre en place et maintenir un pont dans l'espace-temps via trou de ver.

RuMaRoCO Premium

Modifié le 04/04/2024 à 16h12

Autant pour moi c'tétait 2,21 GigOwatt :-) (je suis allé reverifier)

par contre dans sliders je n'ai pas souvenir de combien d'énergie il avait eu besoin pour son 1er portail ;-)

SebGF Premium

Le 04/04/2024 à 16h48

Je sais pas, mais vu la taille de la télécommande qu'ils avaient dans la série, ça doit être des sacré Duracell dedans !

wanou Premium

Le 06/04/2024 à 19h40

Tranches nucléaires, pas centrales qui peuvent en avoir jusqu'à 6 en France.
et en ne prenant en compte que les anciennes qui produisent 900 MW.
Environ moitié du parc actuel produits jusqu'à 1300 MW et 4 atteignent 1450.

Mais, sinon, c'est trop en effet.