Mistral sort des modèles pour de la traduction vocale vers le texte instantanée
Le 05 février à 09h03
2 min
IA et algorithmes
IA
La startup française d’IA générative vient de sortir la version 2 de sa famille Voxtral Transcribe, des modèles pour faire de la traduction vocale vers le texte (speech-to-text).
Dans son annonce, Mistral mentionne en fait deux modèles :
- l’un en open source, Voxtral Mini 4B Realtime 2602, sous licence Apache 2.0, et via son API à 0,006 $ par minute ;
- l’autre, Voxtral Transcribe 2, est disponible seulement via API à 0,003 $ par minute et sur les services de Mistral comme Mistral Studio et Le Chat.
Voxtral Realtime est « conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, permettant l’utilisation d’agents vocaux et d’applications en temps réel », explique l’entreprise.
Quant à Voxtral Transcribe 2, il est plus fait pour transcrire des fichiers audio par lots.
Les deux modèles sont utilisables pour la traduction en treize langues : anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien et néerlandais.
Pierre Stock, le responsable R&D chez Mistral, met en avant la taille relativement petite des modèles de son entreprise comparée à ceux des leaders américains. «Franchement, trop de GPU vous rend paresseux », affirme-t-il à Wired. « Vous testez aveuglément beaucoup de choses, mais vous ne réfléchissez pas à la voie la plus courte vers le succès ». Cette taille des modèles de Mistral peut permettre de bâtir des outils de traduction qui s’exécutent directement sur les smartphones.
L’entreprise donne plus d’explications pour l’utilisation de ses modèles dans sa documentation.
Le 05 février à 09h03
Commentaires (14)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 05/02/2026 à 10h53
Pour le français, les variations sont moins importantes, mais ce serait intéressant de tester s'il arrive à transcrire le français de l'île de la Madeleine ou certains accents utilisés en Afrique. Bien sûr il y a d'autres accents, mais tout ses accents ont moins de chance de se retrouver dans des données d'entrainement.
Quoi qu'il en soit, le fait de développer des modèles moins gourmands en ressources va dans le bon sens.
Le 05/02/2026 à 11h03
Le 05/02/2026 à 11h19
Le 05/02/2026 à 13h17
Le 05/02/2026 à 17h52
En tous les cas, vive Handy https://handy.computer/
Le 06/02/2026 à 15h47
Sinon pour l'interprétariat il me semble effectivement que les modèles state-of-the-art ne passent pas par l'écrit, mais c'est peut-être plus lourd et compliqué et réservé à quelques très grosses boîtes de l'IA très en avance. Il est possible que pour l'instant passer par le texte, bien que plus lent et pas forcément aussi fiable, reste le seul moyen économique et facile à mettre en œuvre pour une boîte de taille standard.
Le 06/02/2026 à 09h45
Le 06/02/2026 à 15h36
Pour ce qui est des perfs en arrière-plan, ça dépend de quoi on parle. Si tu fais de la transcription en temps réel dans un usage bureautique, vraisemblablement ça doit pouvoir marcher sans trop affecter le reste vu que c'est principalement ton GPU qui va bosser, et que celui-ci n'est sollicité par rien d'autre. Si tu avais en tête un usage dans le cadre d'un jeu vidéo ce sera une toute autre affaire. Même à supposer qu'il soit léger en termes de calculs (j'ai pas vérifié), plus de 8Go de VRAM réservés par le modèle ce sera pas indolore sur la plupart des cartes graphiques grand public.
Le 06/02/2026 à 17h54
Le 06/02/2026 à 19h29
Et j'ai déjà eu l'occasion de le dire mais rien que la traduction par IA, c'est déjà une perte gigantesque de qualité, avant même de parler du voice acting.
Le 07/02/2026 à 09h11
Le 07/02/2026 à 09h13
Le 07/02/2026 à 11h13
Une carte avec seulement 8Go de VRAM, comme une 5060, risque d'être un peu juste : le modèle devra être en partie placé en RAM centrale et ça a tendance à ralentir fortement les opérations. Quand tout le modèle tient dans la VRAM le gain de vitesse est vraiment substantiel.
Le 08/02/2026 à 11h14
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?