Mistral sort la version 2 de son modèle « Large »

Alors que Meta a annoncé son modèle « frontière » Llama 3.1 mardi 23 juillet, Mistral sort de son côté la version 2 de son modèle Large.

Pour montrer les performances de la nouvelle version de son plus important modèle de langage qui a trois fois moins de paramètres que Llama 3.1, Mistral met en avant les comparaisons d'utilisation de Large 2 concernant la génération de code :

Performances au test MultiPL-E selon Mistral

L'entreprise sort la nouvelle version de son modèle dans les mêmes conditions que la version précédente : une licence permettant de l'utiliser pour de la recherche et des usages non commerciaux et l'obligation d'un accord avec elle en cas de projet commercial.

L'entreprise vante les performances de son modèle concernant le multilinguisme : « Il excelle notamment en anglais, français, allemand, espagnol, italien, portugais, néerlandais, russe, chinois, japonais, coréen, arabe et hindi », affirme-t-elle.

Mistral livre aussi des comparaisons flatteuses pour son modèle à ce sujet :

Mais Mistral ne communique que très peu d'autres informations concernant son modèle, comparé, par exemple, avec ce que peut faire Meta à propos de Llama 3.1, qui n'est pourtant pas si ouvert que ça.

Large 2 est déjà disponible sur les plateformes de cloud computing Google Vertex AI, Azure AI Studio, Amazon Bedrock et IBM watsonx.ai.

Commentaires (9)


Ce sont des pourcentages de quoi dans le tableau ? Sans explication, autant ne pas mettre ce tableau. Performance sans précision ne veut rien dire.
C'est le résultat de MultiPL-E. De ce que j'ai lu en diagonal sur leur page, ils demandent au modèle de générer une fonction, et applique des tests unitaire dessus. Le pourcentage étant alors le nombre de fonctions générées passant les tests unitaires.

tazvld

C'est le résultat de MultiPL-E. De ce que j'ai lu en diagonal sur leur page, ils demandent au modèle de générer une fonction, et applique des tests unitaire dessus. Le pourcentage étant alors le nombre de fonctions générées passant les tests unitaires.
Merci.

C'est quand même pas brillant comme résultat (tout système confondu). 75 % de moyenne au maximum.

Donc, ceci
Pour montrer les performances de la nouvelle version de son plus important modèle de langage qui a trois fois moins de paramètres que Llama 3.1, Mistral met en avant les comparaisons d'utilisation de Large 2 concernant la génération de code.


a peu de sens. En effet, on compare des résultats dans un domaine très spécialisé (la génération de code) en mettant en avant la quantité de paramètres (tout domaine confondu) que comprennent les modèles. Rien ne dit que le nombre de paramètres servant à la génération de code ait le même rapport de 3 entre les modèles.

fred42

Merci.

C'est quand même pas brillant comme résultat (tout système confondu). 75 % de moyenne au maximum.

Donc, ceci
Pour montrer les performances de la nouvelle version de son plus important modèle de langage qui a trois fois moins de paramètres que Llama 3.1, Mistral met en avant les comparaisons d'utilisation de Large 2 concernant la génération de code.


a peu de sens. En effet, on compare des résultats dans un domaine très spécialisé (la génération de code) en mettant en avant la quantité de paramètres (tout domaine confondu) que comprennent les modèles. Rien ne dit que le nombre de paramètres servant à la génération de code ait le même rapport de 3 entre les modèles.
Alors, si tu suis le lien dans l'article, il y a plus que ça comme bench. Ca couvre aussi des tests raisonnement, de code (ici), de capacité de suivre des instructions, de travailler dans différentes langues... Après il faut faire attention, ils se comparent plusieurs fois seulement à Llama 3.1, mais la version 70B et non la version 405B.

Sinon, si tu regardes bien les scores, ce qui plombe le plus c'est principalement Bash puis C# et une moindre mesure PHP.

Pour bash, il fait toujours mieux que moi.
S'ils se focalisent sur la génération de code pour leur présentation, pourquoi ne pas inclure Codestral dans la liste ?
Il y a un moyen de le tester, si possible gratuitement et si possible sans compte et si possible localement ?

Ma démarche: je comprends pas grand chose au systeme de classement des modèles, notamment sur huggingface.
J'ai donc essayé d'en télécharger un bien noté "au pif" avec LMStudio et lui demander de m'expliquer.
Bha c'est pas très claire et à une question posée en francais il répond une fois sur deux en anglais.


Après il faudrait que mon PC est les ressource suffisante pour le faire fonctionner.
Ça doit être possible à lancer via Ollama. Après, j'espère que tu as un bon GPU avec beaucoup de VRAM 😅

EDIT : lien vers le modèle sur le site d'Ollama --> https://www.ollama.com/library/mistral-large
Modifié le 25/07/2024 à 17h31

Historique des modifications :

Posté le 25/07/2024 à 17h30


Ça doit être possible à lancer via Ollama. Après, j'espère que tu as un bon GPU avec beaucoup de VRAM 😅

Freeben666

Ça doit être possible à lancer via Ollama. Après, j'espère que tu as un bon GPU avec beaucoup de VRAM 😅

EDIT : lien vers le modèle sur le site d'Ollama --> https://www.ollama.com/library/mistral-large
Merci pour le lien, je vais tester ca.

Pour le matos, nop pas vraiment, GTX 1080 et 16GO de RAM.
Mais ca permets de faire fonctionner certains des modèles.
Le "jeux" de cette après midi, demander de générer une fonction bash permettant de générer un pod Kubernetes de test. Ca fonctionne pas trop mal, mais il faut demander de corriger certaines erreurs (EOF non fermé par exemple)


M.Rhal

Merci pour le lien, je vais tester ca.

Pour le matos, nop pas vraiment, GTX 1080 et 16GO de RAM.
Mais ca permets de faire fonctionner certains des modèles.
Le "jeux" de cette après midi, demander de générer une fonction bash permettant de générer un pod Kubernetes de test. Ca fonctionne pas trop mal, mais il faut demander de corriger certaines erreurs (EOF non fermé par exemple)


J'ai testé hier soir. Vu comme ça a ramé sur ma RTX4090 + R9 5950X, j'ose pas imaginer sur ta machine 😱
Les 24GB de VRAM et les 64GB de RAM étaient pleins. En même temps, le modèle seul pèse 63GB !
Fermer