Connexion Premium

#Nextquick MoE : c’est quoi cette mixture d’experts pour les IA génératives ?

À ne pas confondre avec une biture d’experts

#Nextquick MoE : c’est quoi cette mixture d’experts pour les IA génératives ?

Illustration : Flock

Cette semaine, Mistral a présenté son modèle Small 4 qui utilise une fonctionnalité baptisée Mixture of Experts (MoE). De quoi s’agit-il exactement ? Dans ce nouveau Nextquick, Next vous explique simplement et rapidement ce qu’il en est.

Le 20 mars à 11h47

Premier point important, la Mixture-of-Experts (MoE ou encore mélange d’experts) n’est pas nouvelle, elle a déjà plus de 30 ans (.pdf). Pour une fois, le nom représente bien l’idée générale : un mélange d’experts au sein d’un même modèle, avec chacun sa spécialité.

Mixture-of-Experts : c’est comme dans un hôpital avec des spécialistes

C’est un peu comme dans un hôpital : il y a 100 médecins, chacun avec sa spécialité. Quand un patient arrive, il est examiné par quelques médecins seulement, les plus aptes à l’aider en fonction de sa pathologie. Un modèle d’IA MoE fonctionne de la même manière : il sélectionne les meilleurs experts.

Quand une requête arrive, au lieu d’utiliser ses 100 milliards de paramètres, le modèle va en sélectionner une partie uniquement, les plus pertinents. Notez que des experts peuvent partager des paramètres entre eux. Quoi qu’il en soit, cette architecture implique d’avoir, comme à l’hôpital, un système de triage à l’entrée. Les experts (qui ont chacun leurs paramètres) ne sont pas choisis au hasard, mais via un « routeur  » entraîné en même temps que le modèle. Selon les cas, le nombre d’experts peut aller de quelques-uns à des milliers.

Un exemple avec Mixtral 8x7B : huit experts de… 5,6 milliards de paramètres

Un des premiers modèles open source à populariser cette mixture d’experts auprès du grand public était Mixtral 8x7B. Il dispose de huit experts de type Mistral 7B, plus exactement de huit experts avec le bloc FFN (feed-forward ou action directe) du modèle 7B. Il est depuis remplacé par Mixtral 8x22B.

Contrairement à ce que son nom (8x7B) pourrait laisser croire, il n’y a pas 56 (8×7) milliards de paramètres, mais 46,7 milliards. La raison est simple : chaque expert a 5,6 milliards de paramètres. Ils partagent ensuite les couches d’entrée et de sortie (embeddings), les couches d’attention (pour comprendre le contexte) et celles de normalisation ; ce qui explique la différence entre 56 et 46,7.

Il reste 72% de l'article à découvrir.

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (0)