Connexion Premium

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

J’ai ma IA en local

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

Juste avant le week-end prolongé de Pâques, Google a lancé son nouveau modèle Gemma 4, en open source avec une licence relativement permissive : Apache 2.0. Il est proposé en quatre variantes, de 2,3 à 30,7 milliards de paramètres ; de quoi tourner sur une large gamme de terminaux.

Le 07 avril à 14h37

C’est une annonce importante dans le monde des grands modèles de langage open source (y compris les poids) : Gemma 4 de Google (DeepMind). Ce n’est pas la première fois qu’un modèle open source sous licence Apache 2.0 est publié, mais c’est un mouvement intéressant de Google dans le secteur.

De 2,3 à 30,7 milliards de paramètres, avec une « mixture »

Quatre modèles Gemma 4 sont disponibles : E2B, E4B, 26B A4B et 31B. Ils proposent respectivement 2,3, 4,5 , 25,2 et 30,7 milliards de paramètres. A4B est un modèle Mixture of Experts (MoE) avec seulement 3,8 milliards de paramètres actifs pour chaque token.

Ils sont multimodaux, c’est-à-dire qu’ils « traitent les entrées de texte et d’image (l’audio est pris en charge sur les petits modèles) et génèrent des sorties de texte ».

Un MoE est un grand modèle dont seulement une partie est utilisée en inférence, réduisant les besoins en puissance de calcul. Afin de distinguer facilement les modèles, Google utilise une nomenclature spéciale au début du nom en fonction du nombre de paramètres : E pour effectifs, A pour actifs.

Les deux petits modèles de 2,3 et 4,5 milliards de paramètres ont une largeur de contexte de 128 000 jetons, contre 256 000 pour les deux autres. Gemma 4 dispose d‘un « mode de raisonnement intégré qui permet au modèle de réfléchir étape par étape avant de répondre ». La taille du dictionnaire est de 262 000 mots.

Il est capable d’analyser des images et des vidéos, propose une prise « en charge native de l’utilisation structurée des outils, permettant des workflows d’agent » et, c’est dans l’air du temps, la « génération, complétion et correction de code ». E2B et E4B disposent aussi d’une fonction de reconnaissance vocale.

Tous les détails se trouvent par ici. Google propose aussi des résultats de benchmarks maison et compare ses quatre modèles Gemma 4 à la version 27B (27 milliards de paramètres, sans raisonnement) de Gemma 3. Cette annonce intervient au moment même ou Anthropic a décidé de revoir sa gestion des comptes payants, avec le passage obligatoire via l’API pour les applications tierces.

Gemma 4 en open source passe sous licence Apache 2.0

Google propose ses modèles sous la licence Apache 2.0. Comme le rappelle Wikipédia, elle est « considérée comme permissive car elle accorde des droits étendus aux utilisateurs, tout en imposant relativement peu de restrictions […] D’autoriser la modification et la distribution du code sous toute forme (libre ou propriétaire, gratuit ou commercial) et, d’autre part, d’obliger le maintien du copyright lors de toute modification ».

Pour ses précédents modèles, Google utilisait une licence maison baptisée « Gemma Terms of Use ». Elle précise notamment « que Google se réserve le droit de restreindre l’utilisation de tout service Gemma que Google estime raisonnablement être en violation du présent accord ».

Google rejoint ainsi Mistral et son modèle 7B (septembre 2023), OpenAI avec gpt-oss-120b, ainsi que Qwen d’Alibaba, qui sont sous licence Apache 2.0. Avec ses modèles LLaM, Meta propose une « licence limitée », avec des restrictions.

Google met largement en avant le côté open source de Gemma 4 : « les modèles ouverts sont des systèmes d’IA dont les poids du modèle sont publiquement disponibles pour que n’importe qui puisse les télécharger, les étudier, les affiner et les utiliser sur son propre matériel (téléphones, ordinateurs, etc.) ». Un des avantages des modèles ouverts est en effet de pouvoir les faire tourner en local sur votre ordinateur, sans envoyer aucune donnée en ligne.

En fonction de la précision, la taille occupée en mémoire pour les modèles varie de 3,2 à près de 60 Go, laissant en effet entrevoir une large gamme d’appareils compatibles. Nous reviendrons prochainement avec quelques tutos pour installer des IA génératives en local.

Commentaires (17)

votre avatar
Merci, j'en avais entendu parler et j'étais curieux du matériel nécessaire pour faire tourner ces modèles en local.
Mais vu le tableau il faut quand même une sacré config pour avoir un truc performant.

D'ailleurs quel est l'incidence sur le nombre de bits ? (BF16, SPF8, ....)
C'est la vitesse d'exécution qui change ?
votre avatar
Indirectement oui. Mais c'est surtout la précision du modèle qui est inpacté. En gros on stock des floats en int pour gagner de la place et on utilise des algorythmes pour les retranformer en float lors de l'usage. Il y a forcement une petite perte. Pour un usage local, Une quantization sur 4 bits suffit la plupart du temps.
votre avatar
Si jamais ça peut aider, une build optimisée pour un gpu avec "seulement" 16Gb de vram :

https://huggingface.co/prithivMLmods/gemma-4-26B-A4B-it-F32-GGUF/blob/main/GGUF/gemma-4-26B-A4B-it.mmproj-q8_0.gguf

Sujet avec de multiples infos de configuration : reddit.com Reddit
votre avatar
J'ai pas réussi à la faire marcher celle-là. Il s'enfonce systématiquement dans un token-looping totalement dénué de sens.
votre avatar
Oui, 4 bits, ça peut passer. Mais j'avais fait quelques tests en local avec des petits modèles, la qualité était vraiment pas terrible il y a 6 mois. Les phrases étaient grammaticalement correctes mais ça répondait trop souvent à côté de la plaque. Donc si tu as assez de VRAM, je te conseille quand même au moins 8 bits.

https://cosmo-games.com/comfyui-format-bf16-fp16-fp8-gguf-choisir/
votre avatar
J'ai testé Mistral small 4 119B MoE en IQ2 (2bits mais "compressé" de manière "intelligente") et ça tournait a 17 tokens / seconde sur mes RTX 4080 super(16Go) + 3060 ti(8Go) + 32 Go de RAM( avec un 9950X3D) avec des plutôt bon résultat en code
votre avatar
De mon côté j'ai testé gemma-4-26B-A4B-it-UD-Q3_K_M.gguf et google_gemma-4-26B-A4B-it-Q4_K_M.gguf , et les résultats sont impressionnants pour ces modèles, j'ai deux GPU, une RX 9060 XT avec 16Gb de Vram (pcie 4.0 16x), et une Geforce 1650 avec 4Gb de Vram (via oculink sur port nvme avec un adaptateur), tout fonctionne via Vulkan, pas de Rocm ni cuda.
Avec llama, en équilibrant la charge de vram à 90% pour l'AMD et 10% sur la Geforce , j'obtiens en moyenne 140 à 280 tokens/seconde en entrée en Q3 et moitié moins environ en Q4 mode thinking activé. (Et en sortie, c'est pas dégueux) :

Q4 (taille de contexte : 48000) :
prompt eval time = 1260.11 ms / 113 tokens ( 11.15 ms per token, 89.67 tokens per second)
eval time = 14739.23 ms / 396 tokens ( 37.22 ms per token, 26.87 tokens per second)
total time = 15999.33 ms / 509 tokens

Q3 (taille de contexte 64000) :
prompt eval time = 1176.97 ms / 181 tokens ( 6.50 ms per token, 153.78 tokens per second)
eval time = 1883.21 ms / 73 tokens ( 25.80 ms per token, 38.76 tokens per second)
total time = 3060.18 ms / 254 tokens


Là où c'est étonnant notamment pour ce que j'en ai constaté jusqu'ici c'est au niveau du français. Jamais je n'avais observé jusque là une telle précision sur de petits modèles, j'envisage même de me faire un petit outil pour me passer de google translate et deepl en faisant tout en local sur mon serveur proxmox.

Avec Claude j'avais d'ailleurs pu bosser sur le reverse engeenering d'un jeu japonais, mais la partie traduction était folle... Ça ouvre des perspective.

Avec llama on peut aussi profiter d'un endpoint compatible openAI, donc avec vscode et kilocode, ça roule.

Et je n'ai même pas besoin de taper dans la ram de la machine du coup.
votre avatar
Merci a tous pour vos réponse.
Je ne suis donc pas prêt a investir un matos correct pour tester :D
votre avatar
Financièrement, de vieux GPU ouvrent malgré tout des perspectives, en les combinant.
Typiquement 4 GTX 1080 avec 8Gb de vram, ça offre quand même 32Gb de vram... Mais c'est clair que la conso, derrière...
votre avatar
Ma 4080 fait tourner le 27,

Ça prend 50% de ma RAM en tous (j’ai 64GB)
votre avatar
(j’ai 64GB)
Wow, un tiers du PIB national !
votre avatar
Vivement le Gemma Aterton.




(j'ai déjà fui au loin)
votre avatar
Rappel pour les deux du fond qui ont pas suivi... si les données d'entrainement ne sont pas libres, le modèle n'est pas libre.

Ca serait quand même bien que Next fasse la distinction et rappelle que chacun de ses modèle est entrainé sur des données fermées (i.e. on les connait pas), propriétaires (i.e. la boite prétend que c'est à elle), le plus souvent volées (avec toute l'hypocrisie qu'on connait vu les politiques de ces boites), ou scrappées sur le net (en imposant un coût faramineux aux hébergeurs de sites).
votre avatar
ah et puis ça commet des horreurs comme ça aussi...
votre avatar
ah et puis ça commet des horreurs comme ça aussi...
votre avatar
Je viens de tester gemma-4-26B-A4B-it-Q4_K_M avec LMStudio, et ça marche bien. Bon, c'est un peu lent sur ma Intel B570 pas vraiment prévue pour l'IA, mais ça tourne, et même un peu lent, si c'est illimité, ça ouvre des perspectives.
Avec les modèles qui réfléchissent, en général je n'avais pas trop vu l'intérêt jusque là, ok l'IA fait un brouillon puis met au propre. Mais là, on le voit clairement mettre toutes ses idées en vrac, faire des erreurs, corriger ses erreurs. Marrant.
votre avatar
Le sujet est complexe. Les GPU sont extrêmement performants sur des types de données qui ne sont pas natifs sur CPU (FP16, INT4 - oui, je sais certains sont pris en charge en AVX mais seulement si on a bien compilé avec les bonnes options aux petits oignons frits)
Par contre, sur des modèles Bitnet, les CPU se débrouillent bien.

Concernant le serveur de la gavcav, une question est importante: la bande passante mémoire. Quand on teste des IA en local, CPU, iGPU saturent à priori le bus mémoire: le CPU est à 70% mais plus rien ne passe (ou dans le cas de l'iGPU, le CPU à 15% et l'iGPU à 70%, mais plus rien ne bouge: la RAM n'est plus dispo).

C'est assez impressionnant d'ailleurs, je n'avais jamais saturé le bus mémoire avec quoique ce soit d'autre.

Pour tenter de gagner quelques % (espérons 25 en tout), je suis sur plusieurs tests:

  • Re quantification + ONNX

  • Microsoft DirectML sur CPU avec extension NPU

  • Sous Linux: démarrer un ordi en mode monouser, pas de gestion de droits ou d'utilisateur, tout en root, hugepages activées (ou si je trouve comment: virer les sécu mémoire) et transformer l'ordi en device LLM (communication sur port série)



Vulkan n'est pas une option très répandue, j'ai abandonné de chercher à l'utiliser.