Connexion Premium

Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles

Et si on distille une mixture ?

Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles

Illustration : Flock

Pour réduire la taille de son modèle GPT-5.4 et lancer des versions mini et nano, OpenAI utilise la distillation. Chez Mistral, l’approche n’est pas la même : le français passe par une « mixture » d’experts. Deux approches pour un même but : des modèles plus rapides et moins coûteux.

Le 18 mars à 17h13

Cette semaine, Mistral a annoncé son nouveau modèle Small 4. C’est, selon l’entreprise française, son « premier modèle à unifier les fonctionnalités de nos modèles phares : Magistral pour le raisonnement, Pixtral pour le multimodal et Devstral pour le code, en un seul modèle polyvalent ». Il est proposé en open source sous licence Apache 2.0, et l’entreprise en profite pour rejoindre la NVIDIA Nemotron Coalition.

Mistral Small 4 : 4 « experts » pour chaque token, sur 128 disponibles

Au niveau de l’architecture, Small 4 utilise une Mixture of Experts (MoE). Cette technique existe depuis longtemps et se base sur l’idée de « diviser pour régner ». Dans cette approche, « le modèle est composé de multiples modèles individuels appelés « experts », chacun se spécialisant dans un aspect des données. Le modèle inclut également une fonction de « gating » qui détermine quel expert ou combinaison d’experts consulter pour une entrée donnée », explique Orange.

Le modèle de base Small intègre 128 « experts », mais seulement 4 sont interrogés pour chaque token. Le modèle dispose au total de 119 milliards de paramètres, mais « seulement » 6 milliards sont actifs (8 milliards avec les couches d’intégration et de sortie) pour chaque token lors de l’inférence.

Il reste 77% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (6)

votre avatar
Intéressant, je me suis dit que j'allais tester le modèle de Mistral sur ma machine, mais au prix de DGX B200, je vais devoir choisir entre l'IA et une belle maison :fume:
votre avatar
Ho quand même 558,79… euros ça va non ? Ho Wait :ooo:
votre avatar
oui, tu oublies la TVA dessus :-D
votre avatar
je vais devoir choisir entre l'IA et une belle maison
Ou un 5m² à Paris ? :dd:
votre avatar
Duuuuur le prix !
votre avatar
On apprécie le témoignage de « NOM, FONCTION chez Hebbia » à propos de GPT-5.4 mini qui « a égalé ou dépassé Claude Haiku 4.5 ».
Toute ressemblance avec un sujet d'actualité politique ayant existé serait purement fortuit.