Connexion Premium

Avec Voxtral, Mistral a son premier modèle audio open source

Le 16 juillet 2025 à 09h56

Mistral a présenté hier soir son Voxtral, premier modèle audio open source de l’entreprise française. Il entre directement en compétition avec des produits très installés, comme le fameux modèle Whisper d’OpenAI, déjà présent depuis plusieurs années.

Mistral veut essentiellement faire la différence sur deux aspects : le tarif et les performances. Mistral vante ainsi une solution efficace et commercialisée pour « moins de la moitié du prix » des solutions comparables.

Le modèle se décline en trois variantes. La première, Voxtral Small, embarque 24 milliards de paramètres et vise les grands déploiements. Elle est directement placée en face de Whisper et GPT-4o d’OpenAI, Scribe d’ElevenLabs et Gemini 2.5 Flash de Google. La seconde, Voxtral Mini, comprend 3 milliards de paramètres et vise les déploiements locaux et périphériques. Enfin, Voxtral Mini Transcribe est une version encore plus réduite, dédiée aux opérations de transcription.

Selon Mistral, Voxtral peut « comprendre » (grâce à Mistral Small 3.1) jusqu’à 40 min de contenu audio, permettant de poser des questions sur les informations qu’il renferme, de générer des contenus et autres fonctions que l’on attend aujourd’hui de ce type de traitement. La transcription peut se faire sur un maximum de 30 min (32 000 jetons). Voxtral est multilingue, prenant en charge le français, l’anglais, l’espagnol, le portugais, l’hindi, l’allemand, l’italien et le néerlandais.

Toujours selon l’entreprise française, l’API de Voxtral est accessible dès 0,001 dollar la minute de traitement, un tarif assez agressif. En outre, Voxtral sait « déclencher directement des fonctions de backend, des flux de travail ou des appels d’API en fonction des intentions de l’utilisateur, en transformant les interactions vocales en commandes système exploitables sans étapes d’analyse intermédiaires ».

Les modèles Voxtral (24B) et Voxtral Mini (3B) peuvent être téléchargés gratuitement depuis Hugging Face. Les fonctions vocales seront également déployées dans Le Chat pour l’ensemble des utilisateurs « au cours des prochaines semaines ».

Le 16 juillet 2025 à 09h56

Commentaires (1)

votre avatar
Bonne nouvelle

Avec Voxtral, Mistral a son premier modèle audio open source