Meta refuse « pour le moment » de rendre public son nouveau modèle d’IA générative Voicebox
2 min
Internet
Internet
Les chercheurs de Meta AI auraient réalisé une « percée » dans le domaine de l’IA générative pour la parole avec Voicebox, « le premier modèle capable de s’adapter à des tâches de génération de la parole pour lesquelles il n’a pas été spécifiquement formé, avec des performances de pointe » dans six langues.
Pour autant, et « en raison des risques potentiels d’utilisation abusive », Meta a décidé de ne pas rendre le modèle ni le code de la Voicebox accessible au public « pour le moment » :
« Comme c’est le cas pour d’autres innovations puissantes en matière d’IA, nous reconnaissons que cette technologie est susceptible d’être utilisée à mauvais escient et de causer des dommages involontaires. Nous pensons qu’il est important d’être ouvert à la communauté de l’IA et de partager nos recherches pour faire progresser l’état de l’art en matière d’IA, mais il est également nécessaire de trouver un juste équilibre entre ouverture et responsabilité, ce pourquoi nous partageons notre approche et nos résultats dans un document de recherche. »
Voicebox aurait été entraîné sur plus de 50 000 heures de discours enregistrés et de transcriptions de livres audio du domaine public (en anglais, français, espagnol, allemand, polonais et portugais) à prédire un segment de parole lorsqu’on lui donne la parole environnante et la transcription du segment :
« Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite appliquer cette méthode à toutes les tâches de génération de parole, y compris la génération de parties au milieu d’un enregistrement audio sans avoir à recréer l’ensemble de son contenu [input, ndlr]. »
Cette capacité pourrait permettre aux personnes incapables de parler de s’exprimer, aider les gens à communiquer de manière naturelle et authentique, même s’ils ne parlent pas la même langue, et personnaliser les voix utilisées par les assistants et personnages virtuels.
Voicebox pourrait également resynthétiser la partie de la parole corrompue par un bruit de courte durée (comme l’aboiement d’un chien) ou remplacer des mots mal prononcés sans avoir à en réenregistrer l’intégralité, et donc rendre le nettoyage et l’édition audio aussi faciles que les outils d’édition d’images populaires l’ont fait pour l’ajustement et la correction des photos.
Commentaires (5)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 21/06/2023 à 06h44
Fait pas bon s’appeller Sarah Connor en ce moment…
Le 21/06/2023 à 07h26
Ca aurait été génial de brancher des ChatGPT avec synthèse vocale de politiques. On aurait pu faire des streams de l’Assemblée Nationale.
Ha mince, Public Sénat le fait déjà…
Le 21/06/2023 à 08h04
Ca va simplifier pas mal les choses pour faire des arnaques au président …
Le 21/06/2023 à 09h04
Oui oui “pour le moment”, juste le temps de faire monter la hype, tout comme quand OpenAI faisait des annonces publique du genre «Oh làlà notre IA GPT est trop puissante, mais on ne veut pas la rendre publique ça serait dangereux, hein.»
Ces entreprises sont tellement prévisibles.
Le 21/06/2023 à 11h04
Je sais pas, quand Meta dit « en raison des risques potentiels d’utilisation abusive », j’ai vraiment tendance à penser qu’ils ne sont vraiment pas sincères au regard de leur (lourd) passif et que leur motif est ailleurs.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?