Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
J’ai ma IA en local
Le 07 avril à 14h37
Juste avant le week-end prolongé de Pâques, Google a lancé son nouveau modèle Gemma 4, en open source avec une licence relativement permissive : Apache 2.0. Il est proposé en quatre variantes, de 2,3 à 30,7 milliards de paramètres ; de quoi tourner sur une large gamme de terminaux.
Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
J’ai ma IA en local
Juste avant le week-end prolongé de Pâques, Google a lancé son nouveau modèle Gemma 4, en open source avec une licence relativement permissive : Apache 2.0. Il est proposé en quatre variantes, de 2,3 à 30,7 milliards de paramètres ; de quoi tourner sur une large gamme de terminaux.
Le 07 avril à 14h37
IA et algorithmes
IA
4 min
C’est une annonce importante dans le monde des grands modèles de langage open source (y compris les poids) : Gemma 4 de Google (DeepMind). Ce n’est pas la première fois qu’un modèle open source sous licence Apache 2.0 est publié, mais c’est un mouvement intéressant de Google dans le secteur.
De 2,3 à 30,7 milliards de paramètres, avec une « mixture »
Quatre modèles Gemma 4 sont disponibles : E2B, E4B, 26B A4B et 31B. Ils proposent respectivement 2,3, 4,5 , 25,2 et 30,7 milliards de paramètres. A4B est un modèle Mixture of Experts (MoE) avec seulement 3,8 milliards de paramètres actifs pour chaque token.
Ils sont multimodaux, c’est-à-dire qu’ils « traitent les entrées de texte et d’image (l’audio est pris en charge sur les petits modèles) et génèrent des sorties de texte ».
Un MoE est un grand modèle dont seulement une partie est utilisée en inférence, réduisant les besoins en puissance de calcul. Afin de distinguer facilement les modèles, Google utilise une nomenclature spéciale au début du nom en fonction du nombre de paramètres : E pour effectifs, A pour actifs.
-
Vendredi 20 mars 2026 à 11h47 20/03/2026 11h47
Les deux petits modèles de 2,3 et 4,5 milliards de paramètres ont une largeur de contexte de 128 000 jetons, contre 256 000 pour les deux autres. Gemma 4 dispose d‘un « mode de raisonnement intégré qui permet au modèle de réfléchir étape par étape avant de répondre ». La taille du dictionnaire est de 262 000 mots.
Il est capable d’analyser des images et des vidéos, propose une prise « en charge native de l’utilisation structurée des outils, permettant des workflows d’agent » et, c’est dans l’air du temps, la « génération, complétion et correction de code ». E2B et E4B disposent aussi d’une fonction de reconnaissance vocale.
Tous les détails se trouvent par ici. Google propose aussi des résultats de benchmarks maison et compare ses quatre modèles Gemma 4 à la version 27B (27 milliards de paramètres, sans raisonnement) de Gemma 3. Cette annonce intervient au moment même ou Anthropic a décidé de revoir sa gestion des comptes payants, avec le passage obligatoire via l’API pour les applications tierces.
Gemma 4 en open source passe sous licence Apache 2.0
Google propose ses modèles sous la licence Apache 2.0. Comme le rappelle Wikipédia, elle est « considérée comme permissive car elle accorde des droits étendus aux utilisateurs, tout en imposant relativement peu de restrictions […] D’autoriser la modification et la distribution du code sous toute forme (libre ou propriétaire, gratuit ou commercial) et, d’autre part, d’obliger le maintien du copyright lors de toute modification ».
Pour ses précédents modèles, Google utilisait une licence maison baptisée « Gemma Terms of Use ». Elle précise notamment « que Google se réserve le droit de restreindre l’utilisation de tout service Gemma que Google estime raisonnablement être en violation du présent accord ».
Google rejoint ainsi Mistral et son modèle 7B (septembre 2023), OpenAI avec gpt-oss-120b, ainsi que Qwen d’Alibaba, qui sont sous licence Apache 2.0. Avec ses modèles LLaM, Meta propose une « licence limitée », avec des restrictions.
Google met largement en avant le côté open source de Gemma 4 : « les modèles ouverts sont des systèmes d’IA dont les poids du modèle sont publiquement disponibles pour que n’importe qui puisse les télécharger, les étudier, les affiner et les utiliser sur son propre matériel (téléphones, ordinateurs, etc.) ». Un des avantages des modèles ouverts est en effet de pouvoir les faire tourner en local sur votre ordinateur, sans envoyer aucune donnée en ligne.
En fonction de la précision, la taille occupée en mémoire pour les modèles varie de 3,2 à près de 60 Go, laissant en effet entrevoir une large gamme d’appareils compatibles. Nous reviendrons prochainement avec quelques tutos pour installer des IA génératives en local.
Commentaires (17)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 7 avril à 15h12
Mais vu le tableau il faut quand même une sacré config pour avoir un truc performant.
D'ailleurs quel est l'incidence sur le nombre de bits ? (BF16, SPF8, ....)
C'est la vitesse d'exécution qui change ?
Modifié le 7 avril à 15h22
Le 7 avril à 15h25
https://huggingface.co/prithivMLmods/gemma-4-26B-A4B-it-F32-GGUF/blob/main/GGUF/gemma-4-26B-A4B-it.mmproj-q8_0.gguf
Sujet avec de multiples infos de configuration :
Le 8 avril à 14h40
Le 7 avril à 16h21
https://cosmo-games.com/comfyui-format-bf16-fp16-fp8-gguf-choisir/
Modifié le 7 avril à 20h44
Modifié le 8 avril à 07h48
Avec llama, en équilibrant la charge de vram à 90% pour l'AMD et 10% sur la Geforce , j'obtiens en moyenne 140 à 280 tokens/seconde en entrée en Q3 et moitié moins environ en Q4 mode thinking activé. (Et en sortie, c'est pas dégueux) :
Q4 (taille de contexte : 48000) :
prompt eval time = 1260.11 ms / 113 tokens ( 11.15 ms per token, 89.67 tokens per second)
eval time = 14739.23 ms / 396 tokens ( 37.22 ms per token, 26.87 tokens per second)
total time = 15999.33 ms / 509 tokens
Q3 (taille de contexte 64000) :
prompt eval time = 1176.97 ms / 181 tokens ( 6.50 ms per token, 153.78 tokens per second)
eval time = 1883.21 ms / 73 tokens ( 25.80 ms per token, 38.76 tokens per second)
total time = 3060.18 ms / 254 tokens
Là où c'est étonnant notamment pour ce que j'en ai constaté jusqu'ici c'est au niveau du français. Jamais je n'avais observé jusque là une telle précision sur de petits modèles, j'envisage même de me faire un petit outil pour me passer de google translate et deepl en faisant tout en local sur mon serveur proxmox.
Avec Claude j'avais d'ailleurs pu bosser sur le reverse engeenering d'un jeu japonais, mais la partie traduction était folle... Ça ouvre des perspective.
Avec llama on peut aussi profiter d'un endpoint compatible openAI, donc avec vscode et kilocode, ça roule.
Et je n'ai même pas besoin de taper dans la ram de la machine du coup.
Le 8 avril à 09h28
Je ne suis donc pas prêt a investir un matos correct pour tester
Le 8 avril à 17h21
Typiquement 4 GTX 1080 avec 8Gb de vram, ça offre quand même 32Gb de vram... Mais c'est clair que la conso, derrière...
Le 7 avril à 15h35
Ça prend 50% de ma RAM en tous (j’ai 64GB)
Le 7 avril à 19h02
Le 7 avril à 17h05
(j'ai déjà fui au loin)
Le 7 avril à 17h12
Ca serait quand même bien que Next fasse la distinction et rappelle que chacun de ses modèle est entrainé sur des données fermées (i.e. on les connait pas), propriétaires (i.e. la boite prétend que c'est à elle), le plus souvent volées (avec toute l'hypocrisie qu'on connait vu les politiques de ces boites), ou scrappées sur le net (en imposant un coût faramineux aux hébergeurs de sites).
Le 7 avril à 17h44
Le 7 avril à 17h45
Le 8 avril à 09h41
Avec les modèles qui réfléchissent, en général je n'avais pas trop vu l'intérêt jusque là, ok l'IA fait un brouillon puis met au propre. Mais là, on le voit clairement mettre toutes ses idées en vrac, faire des erreurs, corriger ses erreurs. Marrant.
Le 10 avril à 14h28
Par contre, sur des modèles Bitnet, les CPU se débrouillent bien.
Concernant le serveur de la gavcav, une question est importante: la bande passante mémoire. Quand on teste des IA en local, CPU, iGPU saturent à priori le bus mémoire: le CPU est à 70% mais plus rien ne passe (ou dans le cas de l'iGPU, le CPU à 15% et l'iGPU à 70%, mais plus rien ne bouge: la RAM n'est plus dispo).
C'est assez impressionnant d'ailleurs, je n'avais jamais saturé le bus mémoire avec quoique ce soit d'autre.
Pour tenter de gagner quelques % (espérons 25 en tout), je suis sur plusieurs tests:
Vulkan n'est pas une option très répandue, j'ai abandonné de chercher à l'utiliser.
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?