Connexion Premium

Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10

Pour Canonical, l’intelligence artificielle se répartit en deux grandes catégories : l’IA implicite, qui améliore discrètement des fonctions existantes, et l’IA explicite, qui correspond à des fonctions que l’on appelle en toute connaissance de cause. Dans notre article du 8 juin, nous évoquions quelques exemples d’IA implicite donnés, comme l’amélioration de l’autofocus pour la webcam ou la qualité du son sur le micro. Ces opérations pourraient être réalisées assez simplement depuis un modèle local.

La seule fonction d’IA explicite prévue était alors une dictée vocale à l’échelle de tout le système. Le 17 juin, Canonical a précisé dans un billet son projet, nommé Myna : « une nouvelle initiative visant à introduire la dictée vocale sur Ubuntu Desktop. Nommé d’après le myna [mainate religieux en français, ndlr], connu pour sa capacité à imiter la parole humaine, le projet vise à offrir une expérience de dictée qui ressemble naturellement à un ordinateur de bureau tout en respectant la confidentialité des utilisateurs et fonctionnant entièrement sur du matériel local ».

L’éditeur confirme l’arrivée de cette fonction dans Ubuntu 26.10, qui arrivera en octobre. Il s’agira d’une première version, au fonctionnement simple : en appuyant sur une touche, on déclenchera l’écoute et le texte s’affichera dans le champ texte de l’application utilisée. Cette première version visera Ubuntu Desktop sous Wayland avec GNOME. Canonical ajoute que l’architecture sera « suffisamment ouverte pour supporter d’autres environnements de bureau à l’avenir ».

Canonical affirme que la fonction est pensée dès la conception pour la confidentialité. Elle ne fonctionnera qu’en local, sans besoin d’une connexion internet. L’accès au microphone ne se fera qu’avec l’activation explicite du raccourci clavier. Quant à l’audio récupéré, il est effacé de la mémoire après avoir été traité et rien n’est envoyé sur des serveurs.

Ubuntu dit chercher des retours sur cette fonction. Un dépôt GitHub a été ouvert pour l’occasion, mais on ne trouve pour l’instant qu’un peu de documentation.

Commentaires (3)

votre avatar
Excalidraw 💙
votre avatar
Marrant, j'ai fait un truc un peu dans le genre avec whisper il y a quelques semaines pour avoir des transcription locales de discussions trop confidentielles pour aller dans le cloud.... Je suis curieux de voir les besoins matériels pour l'exécution (GPU), le modèle utilisé, la latence et la précision de la transcription.
votre avatar
Très bonne chose ça !
À mon sens c'est un cas d'usage de l'IA pertinent, et le traitement en local + solution open source indique clairement la bonne direction. Maintenant, à voir ce que ça donnera au final, surtout sur les machines les plus modestes.