Avec Voxtral, Mistral a son premier modèle audio open source
Le 16 juillet 2025 à 09h56
2 min
IA et algorithmes
IA
Mistral a présenté hier soir son Voxtral, premier modèle audio open source de l’entreprise française. Il entre directement en compétition avec des produits très installés, comme le fameux modèle Whisper d’OpenAI, déjà présent depuis plusieurs années.
Mistral veut essentiellement faire la différence sur deux aspects : le tarif et les performances. Mistral vante ainsi une solution efficace et commercialisée pour « moins de la moitié du prix » des solutions comparables.
Le modèle se décline en trois variantes. La première, Voxtral Small, embarque 24 milliards de paramètres et vise les grands déploiements. Elle est directement placée en face de Whisper et GPT-4o d’OpenAI, Scribe d’ElevenLabs et Gemini 2.5 Flash de Google. La seconde, Voxtral Mini, comprend 3 milliards de paramètres et vise les déploiements locaux et périphériques. Enfin, Voxtral Mini Transcribe est une version encore plus réduite, dédiée aux opérations de transcription.
Selon Mistral, Voxtral peut « comprendre » (grâce à Mistral Small 3.1) jusqu’à 40 min de contenu audio, permettant de poser des questions sur les informations qu’il renferme, de générer des contenus et autres fonctions que l’on attend aujourd’hui de ce type de traitement. La transcription peut se faire sur un maximum de 30 min (32 000 jetons). Voxtral est multilingue, prenant en charge le français, l’anglais, l’espagnol, le portugais, l’hindi, l’allemand, l’italien et le néerlandais.
Toujours selon l’entreprise française, l’API de Voxtral est accessible dès 0,001 dollar la minute de traitement, un tarif assez agressif. En outre, Voxtral sait « déclencher directement des fonctions de backend, des flux de travail ou des appels d’API en fonction des intentions de l’utilisateur, en transformant les interactions vocales en commandes système exploitables sans étapes d’analyse intermédiaires ».
Les modèles Voxtral (24B) et Voxtral Mini (3B) peuvent être téléchargés gratuitement depuis Hugging Face. Les fonctions vocales seront également déployées dans Le Chat pour l’ensemble des utilisateurs « au cours des prochaines semaines ».
Le 16 juillet 2025 à 09h56
Commentaires (1)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 16/07/2025 à 19h28
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?