Connexion
Abonnez-vous

Common Voice s’approche des 14 000 heures, dans pas moins de 76 langues

Common Voice s’approche des 14 000 heures, dans pas moins de 76 langues

Le 02 septembre 2021 à 07h30

Fin 2017, Mozilla lançait son projet visant à aider les développeurs dans le domaine de la reconnaissance vocale. 

Un modèle de traitement et surtout une base de données comprenant environ 400 000 échantillons vocaux étaient mis à disposition, permettant ainsi à chacun d'entraîner une intelligence artificielle par exemple. 

Début 2019, elle évoluait pour atteindre 1 400 heures d'enregistrement dans 22 langues. Fin juillet, NVIDIA annonçait s’associer à l'initiative évoquant désormais 13 905 heures de voix dans 76 langues. Les plus représentées sont : anglais (2 630 heures), kinyarwanda (2 260), allemand (1 040), catalan (920) et espéranto (840).

Le 02 septembre 2021 à 07h30

Commentaires (11)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.

votre avatar

C’est pas un téléphone, c’est une biscotte cramée !

votre avatar

DocKeR a dit:


Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.


:mdr2: :mdr2: :zero:

votre avatar

DocKeR a dit:


Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.


Lorsque une personne se croit être “tout le monde”, cette personne est surtout horrible et détestable.
Cordialement, signé Winderly.

votre avatar

Personne pour relever le fait que le kinyarwanda soit aussi représenté ? Il y’a une raison technique, idéologique ou autre que je ne connais pas ?

votre avatar

Le recul technologique par rapport à ce qu’on faisait il y a plus de 20 ans est assez impressionnant.
Il faut utiliser d’énormes puissances de calcul dans le cloud pour faire à peine mieux qu’un soft comme Dragon dans les années 90 qui utilisait un Pentium

votre avatar

Cumbalero a dit:


Le recul technologique par rapport à ce qu’on faisait il y a plus de 20 ans est assez impressionnant. Il faut utiliser d’énormes puissances de calcul dans le cloud pour faire à peine mieux qu’un soft comme Dragon dans les années 90 qui utilisait un Pentium


Recul technologique ? Non pas vraiment, c’est justement ce qui a permis de faire un réel bond technologique, et de balayer les anciennes techniques car complètement dépassé au niveau des performances.



Merci à Common Voice de permettre de réaliser un système de reconnaissance de la parole performant en français grâce à ces enregistrements.

votre avatar

Et surtout, n’oubliez pas que n’importe qui peu contribuer un peu de sa voix en enregistrant quelques échantillons (ou en validant ceux des autres), ce qui aide grandement le projet 🙂

votre avatar

farinas a dit:


Recul technologique ? Non pas vraiment, c’est justement ce qui a permis de faire un réel bond technologique


Il y a 20 ans, la reconnaissance (qui fonctionnait plutôt bien) se faisait en local sur des appareils moins puissants que le moins puissant des smartphones actuel. Je cherche où est le progrès.

votre avatar

Cumbalero a dit:


Il y a 20 ans, la reconnaissance (qui fonctionnait plutôt bien) se faisait en local sur des appareils moins puissants que le moins puissant des smartphones actuel. Je cherche où est le progrès.


La reconnaissance était-elle réellement fiable et efficace, ou fallait-il sans cesse repasser derrière pour corriger ? Et pouvait-on parler normalement, ou devait-on se forcer à parler lentement, en prononçant bien chaque syllabe ? Toutes les voix étaient également bien reconnues ? Hommes, femmes, enfants, adultes, personnages âgées, avec tous les accents possibles et imaginables (africains, québécois, marseillais, toulousain…)



Un jour, j’avais lu un article sur le sujet, où le chercheur indiquait qu’il était relativement facile d’atteindre un certain pourcentage de fiabilité, mais qu’ensuite, chaque petit pourcent supplémentaire devenait toujours plus difficile à atteindre. Microsoft indique atteindre un taux d’erreur de mots de 5.1%, quand Google annonce atteindre les 4.9%. L’être humain semble quand à lui atteindre les 4% (source). On voit les progrès réalisés quand on sait qu’en 2017, Google était à 8%, Microsoft à 5.9%, IBM à 5.5%, Apple à 5%, Baidu à 16%… (source). Tous ces chiffres, c’est pour l’anglais. Pour le français, ils doivent faire clairement moins bien, puisque il existe moins de données (et de diversité dans les profils de contributeurs) pour entraîner les modèles (d’où l’importance de contribuer à Common Voice).



Quant à Mozilla DeepSpeech, fin 2019, en s’entraînant sur 5516 heures de transcription audio (en anglais, toujours), provenant de LibriSpeech, Fisher, Switchboard et Common Voice, ils obtenaient un taux d’erreur de 7,5% (source). Il y a eu plusieurs nouvelles versions depuis, et le jeu de données de Common Voice augmentant sans cesse, on devrait pouvoir obtenir de meilleurs résultats aujourd’hui.



Et pour participer à la validation des échantillons sur Common Voice, je peux dire que pour certaines personnes, c’est parfois difficile de comprendre ce qu’elles baragouinent. Alors pour un logiciel stupide qui ne comprend rien à la signification de ce qu’il analyse, et donc, sans le moindre contexte sur le reste de la phrase, je doute qu’il n’y ait pas eu des progrès fulgurants depuis cette époque.



Et c’est la même chose pour la traduction automatique. De nos jours, un soft comme DeepL arrive à produire des traductions plus que correctes, alors qu’il n’y a pas si longtemps, c’était complètement catastrophique. Et dans les deux cas, ça fait désormais appel à l’apprentissage profond (ce qui n’était pas le cas à l’époque).

votre avatar

Okki a dit:


La reconnaissance était-elle réellement fiable et efficace, ou fallait-il sans cesse repasser derrière pour corriger ?


C’était tout à fait satisfaisant, sans avoir à faire d’effort d’élocution particulier après la phase d’apprentissage. Et sur un Pentium avec 32Mo de RAM.




Et c’est la même chose pour la traduction automatique. (…) Et dans les deux cas, ça fait désormais appel à l’apprentissage profond (ce qui n’était pas le cas à l’époque).


Avec tous les biais que ça comporte: la machine devant corriger elle-même ses erreurs, renforçant parfois les dites erreurs.
Les traductions automatiques c’est une horreur dès que ça ne concerne pas un domaine technique. Je lis régulièrement des romans où je dois retraduire dans l’autre sens en mot à mot pour comprendre le sens de la phrase originale, bien souvent derrière il y a un jeu de mot.

Common Voice s’approche des 14 000 heures, dans pas moins de 76 langues

Fermer