Connexion
Abonnez-vous

OpenAI rend open source Whisper, son système de reconnaissance vocale

OpenAI rend open source Whisper, son système de reconnaissance vocale

Le 22 septembre 2022 à 05h07

Whisper est un système multilingue de reconnaissance vocale, qu’OpenAI vient de passer sous licence MIT et donc de rendre open source. Le code et les explications ont été publiés sur GitHub.

Selon OpenAI, Whisper peut faire la différence par rapport à d’autres solutions concurrentes. L’entreprise est consciente que beaucoup de grosses sociétés se sont lancées dans ce domaine depuis des années et aboutissent à des résultats tangibles.

Elle indique cependant que Whisper a été entrainé avec 680 000 heures de données multilingues et « multitâches », aboutissant à un système capable de repérer de nombreuses finesses et de prendre en compte des accents, des sons en arrière-plan et même du jargon technique.

Bien que Whisper ait avant tout été développé pour les chercheurs, il pourrait être utilisé en environnement de production, une fois adapté. Bien qu’il ne puisse pas être employé tel quel, OpenAI le décrit notamment comme très à l’aise pour reconnaitre et traduire automatiquement d’autres langues en anglais.

L’entreprise prévient également que Whisper a certaines limitations, notamment dès que l’on touche à la prédiction de mot. Des confusions peuvent apparaître parfois avec des mots écrits alors qu’ils n’ont pas été prononcés, la faute selon OpenAI aux données utilisées pour l’entrainement.

Le 22 septembre 2022 à 05h07

Commentaires (4)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Avec un nom pareil, il doit avoir l’oreille sensible. J’espère qu’il sait décoder quand on crie. :D

votre avatar

Il baisse les oreilles et s’en va en gémissant car ça lui a fait peur :transpi:

votre avatar

Enfin peut être le début d’une alternative libre et sérieuse aux outils Google…
A noter qu’il y a aussi le projet Common Voice de Mozilla mais j’ai moins suivi ces derniers temps.



En plus, la licence MIT est très permissive donc ça peut alimenter le projet de Mozilla.

votre avatar

Vosk fonctionne deja bien en français

OpenAI rend open source Whisper, son système de reconnaissance vocale

Fermer