Des textes partent de trois groupes de personnes pour en faire un quatrième au-dessus d'eux.Yasmine Boudiaf & LOTI / Better Images of AI / CC-BY 4.0

Google annonce la sortie de Gemini 1.5

Des textes partent de trois groupes de personnes pour en faire un quatrième au-dessus d'eux.Yasmine Boudiaf & LOTI / Better Images of AI / CC-BY 4.0

Une semaine après avoir annoncé avoir rebaptisé toute sa panoplie d'outils d'IA générative du nom de Gemini, Google lui ajoute une « nouvelle génération » de modèles : Gemini 1.5.

Le CEO de DeepMind, Demis Hassabis, explique qu' « Il s'agit d'un changement radical de notre approche, qui s'appuie sur des innovations en matière de recherche et d'ingénierie dans presque tous les domaines du développement et de l'infrastructure de notre modèle de base. Gemini 1.5 est notamment plus efficace en termes de formation et de service, grâce à une nouvelle architecture de Mélange d'experts (MoE) [ndlr : un réseau de neurones s'appuyant sur plusieurs autres plus petits] ».

Google propose pour chaque génération trois tailles : Ultra pour les tâches très complexes, Pro pour des performances importantes et un déploiement à grande échelle, et Nano pour les applications sur appareils.

Selon le CEO de l'entreprise, Sundar Pichai, Gemini « 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul ».

1.5 Pro est le premier modèle de la génération à être disponible. Il est utilisable avec une fenêtre contextuelle standard de 128 000 jetons (la génération 1.0 en avait une de 32 000). Google explique qu'un groupe limité de développeurs et d'entreprise peuvent accéder à une version avec une fenêtre contextuelle d'un million de tokens.

Commentaires (13)


1.5 Pro est le premier modèle de la génération à être disponible. Il est utilisable avec une fenêtre contextuelle standard de 128 000 jetons (la génération 1.0 en avait une de 32 000).


Au même niveau que GPT-4 Turbo chez OpenAI/Microsoft en gros.

Pendant ce temps là, j'ai testé ce week-end (vu que j'y ai eu l'accès) le Mixtral proposé par Infomaniak et c'est pas dégueux. Je pense que ce doit être Mixtral-8x7B derrière - qui semble d'ailleurs avoir le même type d'architecture que Gemini - j'ai demandé au support s'ils pouvaient me le confirmer (avec au passage les limites d'usage, c'était pas spécialement indiqué). Les temps de réponse sont encore assez longs, mais après une bonne série d'étapes de tests j'ai pu avoir un system prompt qui retournait ce que j'attendais, le tout emballé dans un front web bricolé maison (avec estimation du coût de la requête). L'offre propose 1 millions de tokens en démarrage avant de facturer, valables jusque fin mars me concernant. Avec tous mes essais du wenk-end (dont des prompts à 12k), je suis à 850k restants, autant dire que j'ai encore de la marge. En limitations j'ai parfois noté qu'il avait tendance à rebasculer en anglais malgré un prompt (voire system prompt) en français.

Mais plus j'ai avancé, plus j'ai de moins en moins envie de renew l'abo ChatGPT Plus. J'ai fait quelques comparaisons entre GPT-4 et Mixtral proposé via kChat, notamment pour l'assistance à la génération de code, et c'était relativement proche. L'API permet de générer pas mal de params pour tuner le comportement du modèle. J'ai pas fait le calcul de combien la limite de 20€/mois de dépense que j'ai fixé (minimum syndical autorisé) me reviendrait, mais je pense que ça sera rentable.

Les acteurs européens ont besoin de plus de visibilité !
J'ai testé le même modèle en local et je confirme le ressenti :
- tendance à rebasculer en anglais sans raison particulière
- bluffé par les performances !

ogodei

J'ai testé le même modèle en local et je confirme le ressenti :
- tendance à rebasculer en anglais sans raison particulière
- bluffé par les performances !
Yep les perfs sont vraiment bonnes. De mon côté c'est surtout de la latence avec Infomaniak qui doit avoir une capacité limitée (ils doivent ajouter du GPU pour permettre de l'entraînement prochainement), mais je n'ai eu que 3 ou 4 gateway timeout sur une quarantaine d'essais.

Après mes premiers tests ont été bourrins, j'ai voulu expérimenter mon use-case sur des prompts à 10k tokens :transpi:

ogodei

J'ai testé le même modèle en local et je confirme le ressenti :
- tendance à rebasculer en anglais sans raison particulière
- bluffé par les performances !
C'est obligatoire d'avoir du GPU nvidia sur Linux, ou un macos M1-M2-M3 pour le faire tourner correctement en local ? Ou il tourne bien en mode CPU aussi ?

guildem

C'est obligatoire d'avoir du GPU nvidia sur Linux, ou un macos M1-M2-M3 pour le faire tourner correctement en local ? Ou il tourne bien en mode CPU aussi ?
Moi c'était sur GPU Nvidia, je n'ai pas testé sur CPU uniquement mais je ne pense pas que ça passe. Il est tout de même gourmand.

ogodei

Moi c'était sur GPU Nvidia, je n'ai pas testé sur CPU uniquement mais je ne pense pas que ça passe. Il est tout de même gourmand.
Arf merci tant pis pour moi !

guildem

C'est obligatoire d'avoir du GPU nvidia sur Linux, ou un macos M1-M2-M3 pour le faire tourner correctement en local ? Ou il tourne bien en mode CPU aussi ?
J'ai cru voir passer des articles de personnes ayant fait tourner le modèle sur du M1 Apple avec 16GB de RAM. Mais je pense qu'il s'agissait de Mistral et non de Mixtral.

Mais apparemment les perfs en CPU-only sont dégueulasses.

SebGF

J'ai cru voir passer des articles de personnes ayant fait tourner le modèle sur du M1 Apple avec 16GB de RAM. Mais je pense qu'il s'agissait de Mistral et non de Mixtral.

Mais apparemment les perfs en CPU-only sont dégueulasses.
Je regarderai si je peux faire tourner Mixtral sur mon M2 alors, je vais devoir retourner sur Nvidia sinon (et je pense pas que ma 1080 suffira)

guildem

Je regarderai si je peux faire tourner Mixtral sur mon M2 alors, je vais devoir retourner sur Nvidia sinon (et je pense pas que ma 1080 suffira)
Non ça je confirme, LLaMA sur ma 1080 c'était déjà très difficile. Ces modèles demandent plus de ressources que du Stable Diffusion pour la génération d'image.
Je pense que ce doit être Mixtral-8x7B derrière


Réponse reçue du support, c'est bien le modèle utilisé par Infomaniak.
J'ai hâte de pouvoir utiliser le NPU de ma 4080 avec ce genre de modèle.
Je trouve intéressant le marketing qu'on commence a mettre en place pour comparer/valoriser les IA.

On a commencé par des nombres de paramètres, de neurones/synapses, ....
Maintenant on met des numéros de version avec décimal, des suffixes pro/ultra/entreprise, ...
Bientôt des benchmark standardise avec des scores...
Le bot est totalement vérolé par les woke. A jeter.
Fermer