Connexion Premium

Mistral sort des modèles pour de la traduction vocale vers le texte instantanée

Le 05 février à 09h03

La startup française d’IA générative vient de sortir la version 2 de sa famille Voxtral Transcribe, des modèles pour faire de la traduction vocale vers le texte (speech-to-text).

Dans son annonce, Mistral mentionne en fait deux modèles :

  • l’un en open source, Voxtral Mini 4B Realtime 2602, sous licence Apache 2.0, et via son API à 0,006 $ par minute ;
  • l’autre, Voxtral Transcribe 2, est disponible seulement via API à 0,003 $ par minute et sur les services de Mistral comme Mistral Studio et Le Chat.

Voxtral Realtime est « conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, permettant l’utilisation d’agents vocaux et d’applications en temps réel », explique l’entreprise.

Quant à Voxtral Transcribe 2, il est plus fait pour transcrire des fichiers audio par lots.

Les deux modèles sont utilisables pour la traduction en treize langues : anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien et néerlandais.

Pierre Stock, le responsable R&D chez Mistral, met en avant la taille relativement petite des modèles de son entreprise comparée à ceux des leaders américains. «Franchement, trop de GPU vous rend paresseux », affirme-t-il à Wired. « Vous testez aveuglément beaucoup de choses, mais vous ne réfléchissez pas à la voie la plus courte vers le succès ». Cette taille des modèles de Mistral peut permettre de bâtir des outils de traduction qui s’exécutent directement sur les smartphones.

L’entreprise donne plus d’explications pour l’utilisation de ses modèles dans sa documentation.

Le 05 février à 09h03

Commentaires (14)

votre avatar
Puisqu'on parle d'oral, j'imagine que le chinois signifie le mandarin ? Pareil pour l'arabe, difficile de savoir si le transcripteur fonctionne pour l'arabe andalou jusqu'à l'arabe yéménite.
Pour le français, les variations sont moins importantes, mais ce serait intéressant de tester s'il arrive à transcrire le français de l'île de la Madeleine ou certains accents utilisés en Afrique. Bien sûr il y a d'autres accents, mais tout ses accents ont moins de chance de se retrouver dans des données d'entrainement.

Quoi qu'il en soit, le fait de développer des modèles moins gourmands en ressources va dans le bon sens.
votre avatar
À voir comment il se comparera à Whisper.
votre avatar
parfait pour que les escrocs, brouteurs, etc... ne fasse plus de faute a l'écrit ...
votre avatar
des modèles pour faire de la traduction VOCALE vers le texte (speech-to-text)
Les escrocs ne font déjà plus de fautes à l'écrit avec les LLM actuels.
votre avatar
Question naïve : L’instantané aurait quels types d'applications ? Branché à du text-to-speech pour des traductions en directes ? Dans ce cas, doit-on passer par du texte obligatoirement ? Car la majorité des applications speech-to-text acceptent un peu de latence.
En tous les cas, vive Handy https://handy.computer/
votre avatar
De ce que je comprends, c'est du speech-to-text, aussi appelé transcription, encore appelé reconnaissance vocale. Les usages premiers, avant la traduction/interprétariat, je pense, c'est le sous-titrage instantané, la transcription pour sourds et malentendants, et la diction (écrire sans avoir à taper son texte).

Sinon pour l'interprétariat il me semble effectivement que les modèles state-of-the-art ne passent pas par l'écrit, mais c'est peut-être plus lourd et compliqué et réservé à quelques très grosses boîtes de l'IA très en avance. Il est possible que pour l'instant passer par le texte, bien que plus lent et pas forcément aussi fiable, reste le seul moyen économique et facile à mettre en œuvre pour une boîte de taille standard.
votre avatar
Désolé de poser encore la question, mais du coup en auto-hébergé ces modèles demandent combien de ram ? Ça marche sur GPU ? Ça peut fonctionner en arrière plan sans affecter les performances ?
votre avatar
Le modèle open-weight fait un peu plus de 8Go donc oui ça peut tourner sur GPU, mais vraisemblablement pas sur un GPU avec seulement 8Go de VRAM (même si tu arrives à faire tourner le truc sur le papier en mettant une partie du modèle en RAM centrale, j'ai pas testé mais j'ai dans l'idée que ce soit trop lent pour son but, à savoir transcrire en temps réel). Il faudra compter 10Go de VRAM au minimum.

Pour ce qui est des perfs en arrière-plan, ça dépend de quoi on parle. Si tu fais de la transcription en temps réel dans un usage bureautique, vraisemblablement ça doit pouvoir marcher sans trop affecter le reste vu que c'est principalement ton GPU qui va bosser, et que celui-ci n'est sollicité par rien d'autre. Si tu avais en tête un usage dans le cadre d'un jeu vidéo ce sera une toute autre affaire. Même à supposer qu'il soit léger en termes de calculs (j'ai pas vérifié), plus de 8Go de VRAM réservés par le modèle ce sera pas indolore sur la plupart des cartes graphiques grand public.
votre avatar
Pour les jeux vidéo et les films manque encore une fonctionnalité essentielle à enchainer : générer la voix en Français pour éviter de lire des sous-titres.
votre avatar
Ça s'appelle du doublage. Je préférerais que ce soit fait par des comédiens professionnels, c'est-à-dire des artistes, plutôt que par d'immondes voix IA. Suffit d'écouter ce que donne le doublage IA sur YouTube - où la tâche est généralement relativement simple - pour ne pas avoir envie de ça du tout dans ses jeux et films.

Et j'ai déjà eu l'occasion de le dire mais rien que la traduction par IA, c'est déjà une perte gigantesque de qualité, avant même de parler du voice acting.
votre avatar
Sûrement pas. Doublage réels ou voix réelles + sous-titres. Pour des doublages automatiques par IA tu peux aller sur YouTube, et ressentir toute l'intensité des doublages 😂😂
votre avatar
Merci pour ton retour. Mais donc quand ils parlent de temps réel, (200ms), c'est quand même par API alors ? Dommage, je pensais qu'ils parlais de modèles tels que whisper
votre avatar
Non je pense que le temps réel est tenable, mais seulement sur un PC un peu solide. Sur un smartphone effectivement ça me paraît difficilement envisageable. Ceci dit vu que le modèle est open-weights, tu peux très bien te louer un serveur puissant, l'installer dessus, et communiquer avec depuis ton téléphone, sans passer par l'API de Mistral. Mais sinon si tu veux du pur local, et sous réserve d'implémentation sous tel ou tel framework, une 4060Ti 16Go ou une 1080Ti ou même une Arc B580 12Go doivent pouvoir faire l'affaire pour du temps réel.

Une carte avec seulement 8Go de VRAM, comme une 5060, risque d'être un peu juste : le modèle devra être en partie placé en RAM centrale et ça a tendance à ralentir fortement les opérations. Quand tout le modèle tient dans la VRAM le gain de vitesse est vraiment substantiel.
votre avatar
Ok donc pas de temps reel sans passer par les apis ou dédier une machine gamer ou equivalent pour ça. Sniff. Bon il restera quand même des applications possibles avec les apis mais ça limite mon excitation 😁

Mistral sort des modèles pour de la traduction vocale vers le texte instantanée