Connexion
Abonnez-vous

Pixtral 12B, le premier modèle multimodal de Mistral

Le 11 septembre à 16h00

Mistral rend disponible via un torrent Pixtral 12B, son premier modèle multimodal qui peut traiter des textes comme des images. L'entreprise a fait son annonce via un simple tweet incluant le lien magnet du torrent.

Elle donne un peu plus d'informations sur son compte GitHub sur lequel elle clame « vous pouvez désormais insérer des images et des URL dans le message de l'utilisateur en plus du texte ».

Vaibhav Srivastav, de Hugging Face, détaille sur X un peu plus les caractéristiques de Pixtral 12B. Entre autres, la structure du modèle concernant le texte reprend celle du modèle Mistral Nemo 12B auquel est ajouté un adaptateur de vision de 400M, la taille des images peut atteindre 1024 x 1024 pixels et les poids du modèle sont partagés sur Hugging Face.

Mistral ne communique pas clairement sur la licence choisie pour l'utilisation de ce modèle.

Selon Sophia Yang, qui travaille chez Mistral, le modèle devrait être disponible bientôt sur la plateforme de l'entreprise et dans la liste de modèles utilisables via son chatbot.

Le 11 septembre à 16h00

Commentaires (4)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Je ne peux pas télécharger le torrent. Quelqu'un peut m'indiquer ce qu'il y a dedans svp ?
votre avatar
je télécharge pas car inutile pour moi, mais t'a un dossier contenant:
- consolidated.safetensors (23.62Gio)
- params.json (453o)
- RELEASE (10.2kio)
- tekken.json (18.3Mio)
votre avatar
Ca se positionne en face des modèles VISION de OpenAI / MS ?
votre avatar
Ma première pensée à la lecture du titre: tiens un nouveau smartphone modulaire. Raté :mdr:

Pixtral 12B, le premier modèle multimodal de Mistral

Fermer