Meta refuse « pour le moment » de rendre public son nouveau modèle d'IA générative Voicebox

Meta refuse « pour le moment » de rendre public son nouveau modèle d’IA générative Voicebox

Meta refuse « pour le moment » de rendre public son nouveau modèle d'IA générative Voicebox

Les chercheurs de Meta AI auraient réalisé une « percée » dans le domaine de l'IA générative pour la parole avec Voicebox, « le premier modèle capable de s'adapter à des tâches de génération de la parole pour lesquelles il n'a pas été spécifiquement formé, avec des performances de pointe » dans six langues. 

Pour autant, et « en raison des risques potentiels d'utilisation abusive », Meta a décidé de ne pas rendre le modèle ni le code de la Voicebox accessible au public « pour le moment » : 

« Comme c'est le cas pour d'autres innovations puissantes en matière d'IA, nous reconnaissons que cette technologie est susceptible d'être utilisée à mauvais escient et de causer des dommages involontaires. Nous pensons qu'il est important d'être ouvert à la communauté de l'IA et de partager nos recherches pour faire progresser l'état de l'art en matière d'IA, mais il est également nécessaire de trouver un juste équilibre entre ouverture et responsabilité, ce pourquoi nous partageons notre approche et nos résultats dans un document de recherche. »

Voicebox aurait été entraîné sur plus de 50 000 heures de discours enregistrés et de transcriptions de livres audio du domaine public (en anglais, français, espagnol, allemand, polonais et portugais) à prédire un segment de parole lorsqu'on lui donne la parole environnante et la transcription du segment : 

« Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite appliquer cette méthode à toutes les tâches de génération de parole, y compris la génération de parties au milieu d'un enregistrement audio sans avoir à recréer l'ensemble de son contenu [input, ndlr]. »

Cette capacité pourrait permettre aux personnes incapables de parler de s'exprimer, aider les gens à communiquer de manière naturelle et authentique, même s'ils ne parlent pas la même langue, et personnaliser les voix utilisées par les assistants et personnages virtuels.

Voicebox pourrait également resynthétiser la partie de la parole corrompue par un bruit de courte durée (comme l'aboiement d'un chien) ou remplacer des mots mal prononcés sans avoir à en réenregistrer l'intégralité, et donc rendre le nettoyage et l'édition audio aussi faciles que les outils d'édition d'images populaires l'ont fait pour l'ajustement et la correction des photos.

Commentaires (5)


Fait pas bon s’appeller Sarah Connor en ce moment…


Ca aurait été génial de brancher des ChatGPT avec synthèse vocale de politiques. On aurait pu faire des streams de l’Assemblée Nationale.
Ha mince, Public Sénat le fait déjà… :francais:


Ca va simplifier pas mal les choses pour faire des arnaques au président


Oui oui “pour le moment”, juste le temps de faire monter la hype, tout comme quand OpenAI faisait des annonces publique du genre «Oh làlà notre IA GPT est trop puissante, mais on ne veut pas la rendre publique ça serait dangereux, hein.»
Ces entreprises sont tellement prévisibles.


Je sais pas, quand Meta dit « en raison des risques potentiels d’utilisation abusive », j’ai vraiment tendance à penser qu’ils ne sont vraiment pas sincères au regard de leur (lourd) passif et que leur motif est ailleurs.


Fermer