Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles

Et si on distille une mixture ?

Illustration : Flock

Sébastien Gavois

Le 18 mars à 17h13

Pour réduire la taille de son modèle GPT-5.4 et lancer des versions mini et nano, OpenAI utilise la distillation. Chez Mistral, l’approche n’est pas la même : le français passe par une « mixture » d’experts. Deux approches pour un même but : des modèles plus rapides et moins coûteux.

Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles

Et si on distille une mixture ?

Illustration : Flock

Sébastien Gavois

Le 18 mars à 17h13

IA et algorithmes

5 min

Cette semaine, Mistral a annoncé son nouveau modèle Small 4. C’est, selon l’entreprise française, son « premier modèle à unifier les fonctionnalités de nos modèles phares : Magistral pour le raisonnement, Pixtral pour le multimodal et Devstral pour le code, en un seul modèle polyvalent ». Il est proposé en open source sous licence Apache 2.0, et l’entreprise en profite pour rejoindre la NVIDIA Nemotron Coalition.

Économie

Pour Jensen Huang, la demande en puces IA va encore doubler d’ici 2027

Économie

Mardi 17 mars 2026 à 17h29 17/03/2026 17h29

4

Mistral Small 4 : 4 « experts » pour chaque token, sur 128 disponibles

Au niveau de l’architecture, Small 4 utilise une Mixture of Experts (MoE). Cette technique existe depuis longtemps et se base sur l’idée de « diviser pour régner ». Dans cette approche, « le modèle est composé de multiples modèles individuels appelés « experts », chacun se spécialisant dans un aspect des données. Le modèle inclut également une fonction de « gating » qui détermine quel expert ou combinaison d’experts consulter pour une entrée donnée », explique Orange.

Le modèle de base Small intègre 128 « experts », mais seulement 4 sont interrogés pour chaque token. Le modèle dispose au total de 119 milliards de paramètres, mais « seulement » 6 milliards sont actifs (8 milliards avec les couches d’intégration et de sortie) pour chaque token lors de l’inférence.

Il reste 77% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (6)

pamputt Premium

Modifié le 18 mars à 17h35

Intéressant, je me suis dit que j'allais tester le modèle de Mistral sur ma machine, mais au prix de DGX B200, je vais devoir choisir entre l'IA et une belle maison

Sébastien Gavois Équipe

Le 18 mars à 17h37

Ho quand même 558,79… euros ça va non ? Ho Wait

typhoe Premium

Le 19 mars à 10h26

oui, tu oublies la TVA dessus

SebGF Premium

Le 18 mars à 17h41

je vais devoir choisir entre l'IA et une belle maison

Ou un 5m² à Paris ?

Dimitri Goimbault Premium

Le 18 mars à 19h23

Duuuuur le prix !

MisterDams Premium

Modifié le 19 mars à 10h43

On apprécie le témoignage de « NOM, FONCTION chez Hebbia » à propos de GPT-5.4 mini qui « a égalé ou dépassé Claude Haiku 4.5 ».

Toute ressemblance avec un sujet d'actualité politique ayant existé serait purement fortuit.