Abonnez-vous Connexion

Abonnez-vous

Nous suivre

À propos

Next, média indépendant, est soutenu par la société moji.

Elle lui assure une pérennité économique et lui permet de maintenir sa totale liberté éditoriale, d'expérimenter de nouvelles formes d'information et de garantir sa survie à long terme, sans dépendre d'annonceurs externes.

Common Voice s’approche des 14 000 heures, dans pas moins de 76 langues

Par Sébastien Gavois

Le 02 Septembre 2021 à 07h30

1 min 11

Fin 2017, Mozilla lançait son projet visant à aider les développeurs dans le domaine de la reconnaissance vocale.

Un modèle de traitement et surtout une base de données comprenant environ 400 000 échantillons vocaux étaient mis à disposition, permettant ainsi à chacun d'entraîner une intelligence artificielle par exemple.

Début 2019, elle évoluait pour atteindre 1 400 heures d'enregistrement dans 22 langues. Fin juillet, NVIDIA annonçait s’associer à l'initiative évoquant désormais 13 905 heures de voix dans 76 langues. Les plus représentées sont : anglais (2 630 heures), kinyarwanda (2 260), allemand (1 040), catalan (920) et espéranto (840).

Accéder à Common Voice

Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

Stack Overflow signe avec OpenAI

La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

Boeing Starliner n’a finalement toujours pas décollé…

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Commentaires (11)

DocKeR

Le 02/09/2021 à 09h07

Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.

Jarodd Abonné

Le 02/09/2021 à 10h09

#1.1

C’est pas un téléphone, c’est une biscotte cramée !

darkweizer Abonné

Le 02/09/2021 à 10h43

DocKeR a dit:

Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.

Winderly Abonné

Le 02/09/2021 à 12h37

DocKeR a dit:

Si vous téléphonez en public comme le gars sur la photo d’illustration, vous êtes une personne horrible et détestable. Cordialement, signé “tout le monde”.

Lorsque une personne se croit être “tout le monde”, cette personne est surtout horrible et détestable.
Cordialement, signé Winderly.

christophe.agostini

Le 02/09/2021 à 13h39

Personne pour relever le fait que le kinyarwanda soit aussi représenté ? Il y’a une raison technique, idéologique ou autre que je ne connais pas ?

Cumbalero

Le 02/09/2021 à 13h42

Le recul technologique par rapport à ce qu’on faisait il y a plus de 20 ans est assez impressionnant.
Il faut utiliser d’énormes puissances de calcul dans le cloud pour faire à peine mieux qu’un soft comme Dragon dans les années 90 qui utilisait un Pentium

farinas Abonné

Le 02/09/2021 à 17h19

Cumbalero a dit:

Le recul technologique par rapport à ce qu’on faisait il y a plus de 20 ans est assez impressionnant. Il faut utiliser d’énormes puissances de calcul dans le cloud pour faire à peine mieux qu’un soft comme Dragon dans les années 90 qui utilisait un Pentium

Recul technologique ? Non pas vraiment, c’est justement ce qui a permis de faire un réel bond technologique, et de balayer les anciennes techniques car complètement dépassé au niveau des performances.

Merci à Common Voice de permettre de réaliser un système de reconnaissance de la parole performant en français grâce à ces enregistrements.

Okki Abonné

Le 03/09/2021 à 06h04

Et surtout, n’oubliez pas que n’importe qui peu contribuer un peu de sa voix en enregistrant quelques échantillons (ou en validant ceux des autres), ce qui aide grandement le projet 🙂

Cumbalero

Le 06/09/2021 à 07h07

farinas a dit:

Recul technologique ? Non pas vraiment, c’est justement ce qui a permis de faire un réel bond technologique

Il y a 20 ans, la reconnaissance (qui fonctionnait plutôt bien) se faisait en local sur des appareils moins puissants que le moins puissant des smartphones actuel. Je cherche où est le progrès.

Okki Abonné

Le 06/09/2021 à 09h55

Cumbalero a dit:

Il y a 20 ans, la reconnaissance (qui fonctionnait plutôt bien) se faisait en local sur des appareils moins puissants que le moins puissant des smartphones actuel. Je cherche où est le progrès.

La reconnaissance était-elle réellement fiable et efficace, ou fallait-il sans cesse repasser derrière pour corriger ? Et pouvait-on parler normalement, ou devait-on se forcer à parler lentement, en prononçant bien chaque syllabe ? Toutes les voix étaient également bien reconnues ? Hommes, femmes, enfants, adultes, personnages âgées, avec tous les accents possibles et imaginables (africains, québécois, marseillais, toulousain…)

Un jour, j’avais lu un article sur le sujet, où le chercheur indiquait qu’il était relativement facile d’atteindre un certain pourcentage de fiabilité, mais qu’ensuite, chaque petit pourcent supplémentaire devenait toujours plus difficile à atteindre. Microsoft indique atteindre un taux d’erreur de mots de 5.1%, quand Google annonce atteindre les 4.9%. L’être humain semble quand à lui atteindre les 4% (source). On voit les progrès réalisés quand on sait qu’en 2017, Google était à 8%, Microsoft à 5.9%, IBM à 5.5%, Apple à 5%, Baidu à 16%… (source). Tous ces chiffres, c’est pour l’anglais. Pour le français, ils doivent faire clairement moins bien, puisque il existe moins de données (et de diversité dans les profils de contributeurs) pour entraîner les modèles (d’où l’importance de contribuer à Common Voice).

Quant à Mozilla DeepSpeech, fin 2019, en s’entraînant sur 5516 heures de transcription audio (en anglais, toujours), provenant de LibriSpeech, Fisher, Switchboard et Common Voice, ils obtenaient un taux d’erreur de 7,5% (source). Il y a eu plusieurs nouvelles versions depuis, et le jeu de données de Common Voice augmentant sans cesse, on devrait pouvoir obtenir de meilleurs résultats aujourd’hui.

Et pour participer à la validation des échantillons sur Common Voice, je peux dire que pour certaines personnes, c’est parfois difficile de comprendre ce qu’elles baragouinent. Alors pour un logiciel stupide qui ne comprend rien à la signification de ce qu’il analyse, et donc, sans le moindre contexte sur le reste de la phrase, je doute qu’il n’y ait pas eu des progrès fulgurants depuis cette époque.

Et c’est la même chose pour la traduction automatique. De nos jours, un soft comme DeepL arrive à produire des traductions plus que correctes, alors qu’il n’y a pas si longtemps, c’était complètement catastrophique. Et dans les deux cas, ça fait désormais appel à l’apprentissage profond (ce qui n’était pas le cas à l’époque).

Cumbalero

Le 06/09/2021 à 10h02

#10

Okki a dit:

La reconnaissance était-elle réellement fiable et efficace, ou fallait-il sans cesse repasser derrière pour corriger ?

C’était tout à fait satisfaisant, sans avoir à faire d’effort d’élocution particulier après la phase d’apprentissage. Et sur un Pentium avec 32Mo de RAM.

Et c’est la même chose pour la traduction automatique. (…) Et dans les deux cas, ça fait désormais appel à l’apprentissage profond (ce qui n’était pas le cas à l’époque).

Avec tous les biais que ça comporte: la machine devant corriger elle-même ses erreurs, renforçant parfois les dites erreurs.
Les traductions automatiques c’est une horreur dès que ça ne concerne pas un domaine technique. Je lis régulièrement des romans où je dois retraduire dans l’autre sens en mot à mot pour comprendre le sens de la phrase originale, bien souvent derrière il y a un jeu de mot.

Fermer

❮

❯