Avec Voxtral, Mistral a son premier modèle audio open source

Le 16 juillet 2025 à 09h56

2 min

IA et algorithmes

Mistral a présenté hier soir son Voxtral, premier modèle audio open source de l’entreprise française. Il entre directement en compétition avec des produits très installés, comme le fameux modèle Whisper d’OpenAI, déjà présent depuis plusieurs années.

Mistral veut essentiellement faire la différence sur deux aspects : le tarif et les performances. Mistral vante ainsi une solution efficace et commercialisée pour « moins de la moitié du prix » des solutions comparables.

Le modèle se décline en trois variantes. La première, Voxtral Small, embarque 24 milliards de paramètres et vise les grands déploiements. Elle est directement placée en face de Whisper et GPT-4o d’OpenAI, Scribe d’ElevenLabs et Gemini 2.5 Flash de Google. La seconde, Voxtral Mini, comprend 3 milliards de paramètres et vise les déploiements locaux et périphériques. Enfin, Voxtral Mini Transcribe est une version encore plus réduite, dédiée aux opérations de transcription.

Selon Mistral, Voxtral peut « comprendre » (grâce à Mistral Small 3.1) jusqu’à 40 min de contenu audio, permettant de poser des questions sur les informations qu’il renferme, de générer des contenus et autres fonctions que l’on attend aujourd’hui de ce type de traitement. La transcription peut se faire sur un maximum de 30 min (32 000 jetons). Voxtral est multilingue, prenant en charge le français, l’anglais, l’espagnol, le portugais, l’hindi, l’allemand, l’italien et le néerlandais.

Toujours selon l’entreprise française, l’API de Voxtral est accessible dès 0,001 dollar la minute de traitement, un tarif assez agressif. En outre, Voxtral sait « déclencher directement des fonctions de backend, des flux de travail ou des appels d’API en fonction des intentions de l’utilisateur, en transformant les interactions vocales en commandes système exploitables sans étapes d’analyse intermédiaires ».

Les modèles Voxtral (24B) et Voxtral Mini (3B) peuvent être téléchargés gratuitement depuis Hugging Face. Les fonctions vocales seront également déployées dans Le Chat pour l’ensemble des utilisateurs « au cours des prochaines semaines ».

Vincent Hermann

Le 16 juillet 2025 à 09h56

Commentaires (1)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Justin64 Premium

Le 16/07/2025 à 19h28

Bonne nouvelle

S'abonner à

Avec Voxtral, Mistral a son premier modèle audio open source

Commentaires (1)

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Signaler un commentaire