Mozilla Common Voice devient la plus grande base d'échantillons de voix en accès libre

Mozilla Common Voice devient la plus grande base d’échantillons de voix en accès libre

Mozilla Common Voice devient la plus grande base d'échantillons de voix en accès libre

Fin 2017, Mozilla initiait un projet baptisé Common Voice. Sur la base de 20 000 participations volontaires initialement, l’éditeur avait bâti un modèle de traitement et une vaste base de données, le tout sous licence MPL 2.0.

La collection a évolué pour inclure aujourd’hui 1 400 heures d’enregistrement de 42 000 contributeurs. Il s’agit toujours en bonne partie de volontaires, mais les échantillons incluent maintenant des participations de professionnels et linguistes travaillant sur les technologies liées à la voix.

La base de données est désormais disponible en 22 langues, dont le néerlandais, le haka chin, l'espéranto, le farsi, le basque, l’espagnol, le français, l’allemand, le mandarin, le chinois traditionnel, le gallois et le kabyle.

Le projet a finalement accouché de la plus grande base d’échantillons vocaux en libre accès. L’objectif n’a pas changé, à savoir aider l'entraînement des modèles de machine learning à la reconnaissance vocale.

Actuellement, Mozilla affirme être capable de convertir à la volée des paroles en texte grâce à DeepSpeech, son moteur open source Speech-to-Text. Le moteur est d’ailleurs déjà utilisé dans certains produits comme Mycroft (assistant vocal open source), Leon (assistant personnel) et FusionPBX pour la transcription des messages.

Même si Common Voice vient de franchir une étape majeure, le projet va continuer à s’enrichir. Mozilla annonce vouloir « tester différentes approches pour accroître la qualité et la quantité des données » que l’éditeur pourra collecter, aussi bien grâce à la communauté que des partenariats.

Le site Common Voices permet de télécharger n’importe quel lot de données, en fonction de la langue choisie. Attention, tous les lots ne sont pas équivalents. Un regard sur les versions anglaise et française le montre bien, la première pesant 22 Go, la seconde 2 Go.

Commentaires (11)


Dans les stats on peut lire :

“Sex




  • 41%,Male

  • 10%, Female”

    Voila, voila…


49% des english qui ne sont ni des male, ni female. Bizzare ces gens.



Mais ya mieux, l’esperanto c’est 21% male et 10% female et le chuvash avec uniquement 46% de male et rien d’autre… <img data-src=" />








tazvld a écrit :



Dans les stats on peut lire :

“Sex




  • 41%,Male

  • 10%, Female”

    Voila, voila…





    Mais y a mieux (?):



    Accent



  • 74% Français de France

  • 2% Français de Belgique

  • 1% Français de Suisse

  • 1% Français du Canada





    Age



  • 25% 40 - 49

  • 23% 19 - 29

  • 20% 30 - 39

  • 6% &lt; 19

  • 2% 50 - 59

  • 2% 60 - 69







    Sex



  • 72% Male

  • 7% Female







    Voilà voilà…



    (Reste à savoir c’est quoi les 21% restants…)



qui veux récupérer 22 go d’audio anglais ….


En faite, je pense que ça peut faire des truc très amusant.

Par exemple, avec les voix, tu as souvent l’information de sexe et d’accent. Il y a moyen d’utiliser les capacité de transfert de “style” pour faire une sorte de modulateur de voix permettant par exemple à l’un des 41% de “male” anglais de séduire une des 10% de “female” avec un accent frenchy so sexy (la concurrence semble rude, il faut mettre toutes ses chances de son coté).


Les trous dans les stats (qui ne font pas 100%) c’est parceque tout est facultatif. Les 49% non genré sont simplement 49% de participants qui ne l’ont pas précisé.


J’ai participé et je n’ai pas le souvenir d’avoir renseigné des infos sur mon genre.


C’est juste que la façon dont c’est écrit ça laisse libre cours à l’imagination. Il aurait fallu ajouter “49% N/A”.


201 Mo de Breton et pas de Saintongeais, je hurle.

😋


Faut s’authentifier pour pouvoir ensuite indiquer certaines infos te concernant.


C’est pas obligatoire, faut aller dans le profil le renseigner.


Fermer