Mistral sort des modèles pour de la traduction vocale vers le texte instantanée

Le 05 février à 09h03

2 min

IA et algorithmes

La startup française d’IA générative vient de sortir la version 2 de sa famille Voxtral Transcribe, des modèles pour faire de la traduction vocale vers le texte (speech-to-text).

Dans son annonce, Mistral mentionne en fait deux modèles :

l’un en open source, Voxtral Mini 4B Realtime 2602, sous licence Apache 2.0, et via son API à 0,006 $ par minute ;
l’autre, Voxtral Transcribe 2, est disponible seulement via API à 0,003 $ par minute et sur les services de Mistral comme Mistral Studio et Le Chat.

Voxtral Realtime est « conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, permettant l’utilisation d’agents vocaux et d’applications en temps réel », explique l’entreprise.

Quant à Voxtral Transcribe 2, il est plus fait pour transcrire des fichiers audio par lots.

Les deux modèles sont utilisables pour la traduction en treize langues : anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien et néerlandais.

Pierre Stock, le responsable R&D chez Mistral, met en avant la taille relativement petite des modèles de son entreprise comparée à ceux des leaders américains. «Franchement, trop de GPU vous rend paresseux », affirme-t-il à Wired. « Vous testez aveuglément beaucoup de choses, mais vous ne réfléchissez pas à la voie la plus courte vers le succès ». Cette taille des modèles de Mistral peut permettre de bâtir des outils de traduction qui s’exécutent directement sur les smartphones.

L’entreprise donne plus d’explications pour l’utilisation de ses modèles dans sa documentation.

IA

Mistral lance sa nouvelle famille Mistral 3 et vante ses petits modèles

IA

Mercredi 03 décembre 2025 à 13h58 03/12/2025 13h58

27

Martin Clavey

Le 05 février à 09h03

Commentaires (14)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

pamputt Premium

Modifié le 5 février à 10h53

Puisqu'on parle d'oral, j'imagine que le chinois signifie le mandarin ? Pareil pour l'arabe, difficile de savoir si le transcripteur fonctionne pour l'arabe andalou jusqu'à l'arabe yéménite.
Pour le français, les variations sont moins importantes, mais ce serait intéressant de tester s'il arrive à transcrire le français de l'île de la Madeleine ou certains accents utilisés en Afrique. Bien sûr il y a d'autres accents, mais tout ses accents ont moins de chance de se retrouver dans des données d'entrainement.

Quoi qu'il en soit, le fait de développer des modèles moins gourmands en ressources va dans le bon sens.

Vekin Premium

Le 5 février à 11h03

À voir comment il se comparera à Whisper.

Lluvaya_Fiir

Le 5 février à 11h19

parfait pour que les escrocs, brouteurs, etc... ne fasse plus de faute a l'écrit ...

Arkeen Premium

Le 5 février à 13h17

des modèles pour faire de la traduction VOCALE vers le texte (speech-to-text)

Les escrocs ne font déjà plus de fautes à l'écrit avec les LLM actuels.

Turon35 Premium

Le 5 février à 17h52

Question naïve : L’instantané aurait quels types d'applications ? Branché à du text-to-speech pour des traductions en directes ? Dans ce cas, doit-on passer par du texte obligatoirement ? Car la majorité des applications speech-to-text acceptent un peu de latence.
En tous les cas, vive Handy https://handy.computer/

Liam

Le 6 février à 15h47

De ce que je comprends, c'est du speech-to-text, aussi appelé transcription, encore appelé reconnaissance vocale. Les usages premiers, avant la traduction/interprétariat, je pense, c'est le sous-titrage instantané, la transcription pour sourds et malentendants, et la diction (écrire sans avoir à taper son texte).

Sinon pour l'interprétariat il me semble effectivement que les modèles state-of-the-art ne passent pas par l'écrit, mais c'est peut-être plus lourd et compliqué et réservé à quelques très grosses boîtes de l'IA très en avance. Il est possible que pour l'instant passer par le texte, bien que plus lent et pas forcément aussi fiable, reste le seul moyen économique et facile à mettre en œuvre pour une boîte de taille standard.

guildem Premium

Le 6 février à 09h45

Désolé de poser encore la question, mais du coup en auto-hébergé ces modèles demandent combien de ram ? Ça marche sur GPU ? Ça peut fonctionner en arrière plan sans affecter les performances ?

Liam

Le 6 février à 15h36

Le modèle open-weight fait un peu plus de 8Go donc oui ça peut tourner sur GPU, mais vraisemblablement pas sur un GPU avec seulement 8Go de VRAM (même si tu arrives à faire tourner le truc sur le papier en mettant une partie du modèle en RAM centrale, j'ai pas testé mais j'ai dans l'idée que ce soit trop lent pour son but, à savoir transcrire en temps réel). Il faudra compter 10Go de VRAM au minimum.

Pour ce qui est des perfs en arrière-plan, ça dépend de quoi on parle. Si tu fais de la transcription en temps réel dans un usage bureautique, vraisemblablement ça doit pouvoir marcher sans trop affecter le reste vu que c'est principalement ton GPU qui va bosser, et que celui-ci n'est sollicité par rien d'autre. Si tu avais en tête un usage dans le cadre d'un jeu vidéo ce sera une toute autre affaire. Même à supposer qu'il soit léger en termes de calculs (j'ai pas vérifié), plus de 8Go de VRAM réservés par le modèle ce sera pas indolore sur la plupart des cartes graphiques grand public.

linconnu

Le 6 février à 17h54

Pour les jeux vidéo et les films manque encore une fonctionnalité essentielle à enchainer : générer la voix en Français pour éviter de lire des sous-titres.

Liam

Le 6 février à 19h29

Ça s'appelle du doublage. Je préférerais que ce soit fait par des comédiens professionnels, c'est-à-dire des artistes, plutôt que par d'immondes voix IA. Suffit d'écouter ce que donne le doublage IA sur YouTube - où la tâche est généralement relativement simple - pour ne pas avoir envie de ça du tout dans ses jeux et films.

Et j'ai déjà eu l'occasion de le dire mais rien que la traduction par IA, c'est déjà une perte gigantesque de qualité, avant même de parler du voice acting.

guildem Premium

Le 7 février à 09h11

Sûrement pas. Doublage réels ou voix réelles + sous-titres. Pour des doublages automatiques par IA tu peux aller sur YouTube, et ressentir toute l'intensité des doublages 😂😂

guildem Premium

Le 7 février à 09h13

Merci pour ton retour. Mais donc quand ils parlent de temps réel, (200ms), c'est quand même par API alors ? Dommage, je pensais qu'ils parlais de modèles tels que whisper

Liam

Le 7 février à 11h13

Non je pense que le temps réel est tenable, mais seulement sur un PC un peu solide. Sur un smartphone effectivement ça me paraît difficilement envisageable. Ceci dit vu que le modèle est open-weights, tu peux très bien te louer un serveur puissant, l'installer dessus, et communiquer avec depuis ton téléphone, sans passer par l'API de Mistral. Mais sinon si tu veux du pur local, et sous réserve d'implémentation sous tel ou tel framework, une 4060Ti 16Go ou une 1080Ti ou même une Arc B580 12Go doivent pouvoir faire l'affaire pour du temps réel.

Une carte avec seulement 8Go de VRAM, comme une 5060, risque d'être un peu juste : le modèle devra être en partie placé en RAM centrale et ça a tendance à ralentir fortement les opérations. Quand tout le modèle tient dans la VRAM le gain de vitesse est vraiment substantiel.

guildem Premium

Le 8 février à 11h14

Ok donc pas de temps reel sans passer par les apis ou dédier une machine gamer ou equivalent pour ça. Sniff. Bon il restera quand même des applications possibles avec les apis mais ça limite mon excitation 😁

S'abonner à

Mistral sort des modèles pour de la traduction vocale vers le texte instantanée

Mistral lance sa nouvelle famille Mistral 3 et vante ses petits modèles

Commentaires (14)

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Signaler un commentaire