OpenAI communique sur ses capacités à cloner des voix, mais pas sur les données d’entrainement
« Open » AI ?
Comme avec Sora, OpenAI communique sur un outil capable de cloner des voix tout en ne le rendant pas public pour des raisons éthiques. Et encore une fois, se pose la question des données d'entrainement de ce nouvel outil d'IA générative. En parallèle, l'entreprise de Sam Altman rend disponible ChatGPT sans compte pour les internautes américains et rêve avec Microsoft de construire un supercalculateur à 100 milliards de dollars consacré à leurs projets d'IA.
Le 04 avril à 08h18
6 min
IA et algorithmes
IA
En fin de semaine dernière, OpenAI a publié un billet de blog pour montrer les capacités de son nouvel outil d'IA générative, « Voice Engine ». Mais, considérant les critiques contre de tels outils et notamment leur potentielle utilisation pour humilier ou arnaquer à travers des deep fakes, l'entreprise insiste sur le fait qu'elle ne met pas (pour l'instant) l'outil dans les mains de n'importe qui.
- Deepfakes pornographiques : quand l’intelligence artificielle sert à humilier
- États-Unis : un projet de loi et un concours de la FTC ciblent les dangers du clonage de voix par IA
Cette présentation, sans accès public, rappelle celle que l'entreprise avait déjà utilisée pour son IA générative de vidéos, Sora. Elle a l'avantage de montrer que l'entreprise continue d'innover sans gérer d'éventuels nouveaux problèmes d'images et d'échelle pour l'entreprise qui, avec ChatGPT, a lancé le premier outil très grand public basé sur un modèle de langage.
OpenAI n'est pas la seule startup à être capable de proposer ce genre d'outils de clonage de voix : une recherche dans votre moteur préféré permet de trouver de nombreux outils comme Murf, Play.ht, Voice.ai...
Continuité de son API text-to-speech et partenariats
En parlant de Voice Engine, l'entreprise communique en fait sur l'évolution de son travail autour de son API text-to-speech lancée fin 2022.
Voice Engine est déjà utilisé par OpenAI dans ses produits, notamment pour les voix de sa synthèse vocale employée par la version « voix » de ChatGPT et son option de « lecture à voix haute ».
Mais dans son billet, OpenAI en profite pour mettre en avant des projets de startups qui utilisent son outil. Par exemple, HeyGen utilise le Voice Engine d'OpenAI pour créer des vidéos d'avatars multilingues. OpenAI précise qu'en mode traduction, son outil conserve l'accent du locuteur original. L'entreprise prend l'exemple d'un texte généré en anglais « à partir d'un échantillon audio provenant d'un locuteur français, on obtient un discours avec l'accent français ». Dans le même genre, Spotify avait déjà annoncé utiliser les outils d'OpenAI pour faire de la traduction de podcast en septembre 2023.
OpenAI met aussi en avant le projet brésilien Livox qui propose aux personnes souffrant de troubles de la parole une application de communication alternative par l'IA. Les utilisateurs peuvent choisir la voix qui leur correspond le mieux plutôt qu'une voix synthétique.
On imagine bien que l'entreprise communique sur les projets les moins polémiques possibles pour montrer qu'elle les choisit avec soin.
La sempiternelle question des données d'entrainement
Reste que, comme toute IA générative, le Voice Engine d'OpenAI doit ses capacités impressionnantes, entre autres, aux données sur lesquelles il est entraîné.
TechCrunch a interrogé Jeff Harris, un membre de l'équipe produit d'OpenAI, sur le sujet, mais celui-ci « s'est contenté de dire que le modèle de Voice Engine a été formé à partir d'un mélange de données sous licence et de données publiques ». Par contre, il a expliqué à nos confrères qu'OpenAI n'utilise pas les données utilisateurs pour l'entrainer ou l'affiner. « L'audio utilisé est supprimé une fois la demande terminée », précise-t-il.
ChatGPT sans compte, mais avec réutilisation des données en opt out
OpenAI a aussi annoncé lundi 1ᵉʳ avril (et ce n'est pas un poisson) la possibilité d'utiliser ChatGPT sans créer de compte. Si le billet de blog de l'entreprise ne précise pas la liste des pays dans lesquels les utilisateurs peuvent utiliser cette nouvelle capacité, nous avons pu constater qu'avec une IP française, la page de ChatGPT redirige vers celle de login. Avec une IP américaine, l'outil est dès à présent disponible sans compte. Comme les versions déjà existantes, celle-ci permet aussi d'obtenir des réponses en français.
Ici, comme dans la version gratuite de ChatGPT déjà existante après login, OpenAI se donne la possibilité, par défaut, d'utiliser les données des utilisateurs pour entrainer et affiner son modèle. Pour que ce ne soit plus le cas, il faut cliquer sur une petite icône « ? » en bas à droite et aller dans les paramètres pour pouvoir décocher l'option « améliorer le modèle pour tout le monde » :
L'entreprise explique avoir ajouté à cette version des limites plus drastiques, bridant la génération de contenus problématiques.
Stargate, un supercalculateur à 100 milliards de dollars ?
Et OpenAI ne s'imagine pas s'arrêter sur son chemin de l'IA générative. Comme l'explique Le Monde Informatique, reprenant le média The Information, l'entreprise de Sam Altman envisagerait de créer avec Microsoft un supercalculateur dédié à l'IA dont le budget atteindrait 100 milliards de dollars. Son nom : Stargate.
L'investissement se concentrerait notamment sur l'achat de NPU et la machine demanderait une puissance électrique de 5 GW. « S'il était construit aujourd'hui, un supercalculateur de cinq gigawatts pourrait accueillir plus de 40 000 systèmes de rack NVL72 DGX GB200 de NVIDIA contenant 2,88 millions de GPU Blackwell capables de réaliser 14 400 exaFLOPS de performances FP8 denses », ont calculé nos confrères.
OpenAI communique sur ses capacités à cloner des voix, mais pas sur les données d’entrainement
-
Continuité de son API text-to-speech et partenariats
-
La sempiternelle question des données d’entrainement
-
ChatGPT sans compte, mais avec réutilisation des données en opt out
-
Stargate, un supercalculateur à 100 milliards de dollars ?
Commentaires (21)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 04/04/2024 à 08h45
Ou alors ce n'est que pour dire "on sait le faire" côté OpenAI ?
Le 04/04/2024 à 09h03
Il y a aussi beaucoup de possibilité coté arnaques (ça existe déjà) ou de falsification de preuves...
Le 04/04/2024 à 09h23
Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.
Côté santé, permettre de reparler à des handicapés qui auraient perdus l'usage de la voix (via une puce Neuralink par exemple).
Le 04/04/2024 à 13h46
Le 04/04/2024 à 09h42
Le 05/04/2024 à 08h41
Le 05/04/2024 à 10h31
Le 04/04/2024 à 09h48
Le 04/04/2024 à 11h46
Le 05/04/2024 à 08h43
Le 04/04/2024 à 15h58
Le 04/04/2024 à 09h13
5 GW, c'est l'équivalent de 6 centrales nucléaires actuelles ou 3,5 futurs EPR. Tout ça pour alimenter un seul ordinateur. C'est vraiment n'importe quoi
Le 04/04/2024 à 11h52
Le 04/04/2024 à 12h21
Modifié le 26/04/2024 à 21h39
Modifié le 04/04/2024 à 14h32
Le 04/04/2024 à 12h25
Le 04/04/2024 à 13h47
Modifié le 04/04/2024 à 16h12
par contre dans sliders je n'ai pas souvenir de combien d'énergie il avait eu besoin pour son 1er portail ;-)
Le 04/04/2024 à 16h48
Le 06/04/2024 à 19h40
et en ne prenant en compte que les anciennes qui produisent 900 MW.
Environ moitié du parc actuel produits jusqu'à 1300 MW et 4 atteignent 1450.
Mais, sinon, c'est trop en effet.