Ce que Google a réellement annoncé
Gemma 4 n’est pas un modèle unique — c’est une famille de quatre modèles conçus pour couvrir le continuum complet de déploiement, du smartphone au workstation. Sorti le 2 avril 2026 sous licence Apache 2.0, les quatre variantes sont :
- E2B (Effectif 2B) : optimisé pour les appareils mobiles et edge
- E4B (Effectif 4B) : matériel edge et grand public
- 26B MoE : 26 milliards de paramètres totaux, activant environ 3,8 milliards par token via le routage Mixture-of-Experts
- 31B Dense : qualité maximale, conçu pour le déploiement sur workstation et serveur
La convention de nommage est importante. L’« Effectif » dans E2B et E4B reflète une philosophie de conception : ces modèles sont conçus pour offrir une capacité utile par paramètre plutôt que de considérer le nombre de paramètres comme signal de qualité. Les 3,8B paramètres actifs du 26B MoE le rendent directement comparable à un modèle dense de 4B au moment de l’inférence — déployable sur un GPU grand public avec 12–16 Go de VRAM, tout en portant la structure de connaissances d’une architecture 26B.
Sur le classement Arena AI — qui agrège les évaluations de préférence humaine sur des milliers de comparaisons à l’aveugle — le Gemma 4 31B occupe la 3e place parmi les modèles open-weight. Le 26B MoE se situe en 6e position. Ces classements sont significatifs car les préférences Arena AI corrèlent mieux avec les performances réelles que de nombreux benchmarks académiques, qui peuvent être influencés par un entraînement ciblé.
La comparaison de référence est avec Llama 4 Scout, le modèle MoE de Meta à 109 milliards de paramètres totaux (17B paramètres actifs). Sur GPQA Diamond — un benchmark de raisonnement scientifique de niveau doctoral conçu pour résister à la mémorisation — Gemma 4 31B obtient 84,3 % contre 74,3 % pour Llama 4 Scout. Sur MMLU Pro, le 31B obtient 85,2 %. Sur AIME 2026 (concours de mathématiques avancées), il obtient 89,2 %. Ces différences ne sont pas marginales ; elles représentent un écart de capacité de raisonnement significatif en faveur d’un modèle qui représente environ un tiers du nombre total de paramètres de son concurrent.
Google rapporte également que les développeurs ont téléchargé les modèles Gemma plus de 400 millions de fois à travers toutes les générations, avec plus de 100 000 variantes communautaires créées dans l’écosystème Gemmaverse. Cette profondeur communautaire est un différenciateur pratique : un modèle avec 100 000 variantes affinées couvrant des domaines, langues et types de tâches spécifiques ne repart pas de zéro quand une entreprise a besoin d’une version spécialisée.
Pourquoi la licence Apache 2.0 est la vraie histoire
Les chiffres des benchmarks sont impressionnants, mais ils sont temporaires. La suprématie dans les benchmarks des modèles open-weight évolue environ tous les 90 jours à mesure que de nouvelles versions arrivent. Ce qui ne change pas rapidement, c’est la structure des licences — et Apache 2.0 est la licence la plus permissive sur le plan commercial parmi celles couramment utilisées pour les grands modèles.
Apache 2.0 autorise :
- L’utilisation commerciale sans redevances ni frais de licence
- La modification de l’architecture et des poids du modèle
- L’affinage sur des données propriétaires
- Le déploiement on-premises sans obligations de rapport
- L’intégration dans des produits commerciaux vendus à des clients
- La sous-licence des œuvres dérivées
Les seules obligations : conserver l’avis de droit d’auteur original et inclure une copie de la licence dans les œuvres distribuées. Pour les équipes juridiques des entreprises, cela supprime le cycle d’examen de 4 à 8 semaines requis par des licences open-weight plus restrictives. Pour les startups construisant des produits IA, cela élimine le risque qu’un changement de licence ne mette en péril un produit construit sur un modèle publié sous licence permissive (comme cela s’est produit avec certains dérivés de Llama 2 quand Meta a modifié les conditions d’utilisation).
Le choix d’Apache 2.0 est également un signal concurrentiel. Google positionne explicitement Gemma 4 comme la réponse au passage de Meta à des versions closed-source pour ses modèles phares. En offrant le modèle open-weight entièrement permissif le plus performant disponible au moment de sa sortie, Google fait un pari à long terme : la fidélité de l’écosystème développeur construite grâce à l’ouverture crée plus de valeur pour l’entreprise que des revenus à court terme issus de modèles fermés.
Pour les équipes IA en entreprise évaluant des modèles open-weight, la combinaison Apache 2.0 + performance compétitive sur les benchmarks + plus de 400M de téléchargements (validation communautaire) réduit le risque d’adoption à son minimum. Un modèle avec un écosystème d’affinage établi et une licence permissive peut être adopté sans risque d’être abandonné suite à une décision du fournisseur.
Publicité
Ce que les équipes entreprise et développement devraient faire
1. Utiliser la variante 26B MoE comme point de départ par défaut
Les 3,8 milliards de paramètres actifs par token du 26B MoE le rendent déployable sur du matériel grand public et prosumer que la plupart des équipes en entreprise possèdent déjà — un GPU de workstation avec 16–24 Go de VRAM peut faire fonctionner ce modèle localement. À cette taille, le modèle est suffisamment rapide pour les applications interactives et suffisamment économique pour l’affinage sur un nœud GPU unique sur un week-end. Commencez ici plutôt qu’avec le 31B dense, sauf si votre cas d’usage nécessite spécifiquement une précision maximale et que vous disposez du matériel correspondant. Le classement Arena AI #6 du 26B MoE reflète l’utilité dans le monde réel, pas seulement l’optimisation des benchmarks.
2. Tester sur des tâches de type GPQA si la qualité du raisonnement importe
Le benchmark GPQA Diamond est spécifiquement conçu pour résister à la mémorisation des ensembles d’entraînement — il teste le raisonnement authentique plutôt que les réponses mémorisées. Si votre cas d’usage implique des analyses en plusieurs étapes, du raisonnement scientifique ou technique, ou une aide à la décision complexe, les performances GPQA Diamond sont un prédicteur plus fiable que MMLU (qui présente des problèmes de contamination connus). L’écart de 13,5 points du Gemma 4 31B sur GPQA Diamond (84,3 % contre 74,3 % pour Llama 4 Scout) est plus important que la différence de taille des modèles ne le laisserait supposer.
Pour les cas d’usage agentiques — où le modèle doit planifier une tâche en plusieurs étapes, utiliser des outils et se remettre d’erreurs — les performances de raisonnement de type GPQA corrèlent plus fortement avec le succès du déploiement que les performances des benchmarks de chat. Construisez une suite d’évaluation spécifique à votre cas d’usage avant de finaliser le choix du modèle.
3. Exploiter le Gemmaverse pour des points de départ spécifiques au domaine
Avec plus de 100 000 variantes Gemma créées par la communauté sur Hugging Face et des dépôts similaires, il y a une probabilité raisonnable qu’une version affinée de Gemma 4 existe déjà pour votre domaine cible. Avant d’investir dans un affinage personnalisé, recherchez dans l’écosystème communautaire des modèles spécifiques au domaine dans votre secteur (médical, juridique, code, spécifique à une langue). Un affinage communautaire couvrant 80 % de votre cas d’usage et nécessitant 20 % d’affinage supplémentaire est bien moins coûteux à déployer qu’un affinage complet depuis le modèle de base.
4. Planifier le chemin de déploiement on-premises pour les industries réglementées
Les équipes en entreprise dans les industries réglementées (services financiers, santé, gouvernement) ont des exigences de résidence des données qui empêchent l’acheminement de données sensibles via des API externes. La licence Apache 2.0 de Gemma 4 et la disponibilité des poids du modèle sur Hugging Face rendent le chemin on-premises juridiquement et techniquement simple. La liste de contrôle d’implémentation : télécharger les poids depuis huggingface.co/google/gemma-4-31b-it, déployer sur un serveur d’inférence (vLLM, TGI, ou Ollama pour les variantes plus petites), configurer les contrôles d’accès et intégrer avec votre pipeline de données.
Où cela s’inscrit dans l’écosystème des modèles open en 2026
La sortie de Gemma 4 marque le deuxième point d’inflexion dans le paysage des modèles open-weight en 2026, après la sortie de DeepSeek-V4-Flash le 23 avril. Le schéma est désormais clair : des modèles open-weight compétitifs avec des licences permissives sortent à un rythme plus rapide que les cycles d’adoption en entreprise. La contrainte sur le déploiement de modèles open n’est plus la capacité du modèle ou l’accessibilité des licences — c’est la capacité organisationnelle à évaluer, affiner et gouverner des modèles qui changent tous les 90 jours.
Cela crée une pression sélective vers un type spécifique d’équipe IA en entreprise : une équipe qui a construit un pipeline robuste d’évaluation de modèles capable d’évaluer rapidement les nouvelles sorties, une infrastructure d’affinage pouvant adapter les modèles de base aux données propriétaires en quelques jours plutôt qu’en semaines, et un cadre de gouvernance pouvant intégrer de nouvelles versions de modèles sans cycle de réapprobation complet.
Le pari de Google avec Gemma 4 — meilleures performances, licence la plus permissive, support de 140+ langues, function-calling natif pour les agents — est essentiellement un pari que la fidélité de l’écosystème développeur construite grâce à l’ouverture survivra au prochain saut de capacité des concurrents closed-source. Avec plus de 100 000 variantes communautaires dans le Gemmaverse et plus de 400M de téléchargements, il existe déjà des preuves substantielles que ce pari fonctionne.
Questions Fréquemment Posées
Quelles sont les quatre variantes du modèle Gemma 4 et quel matériel nécessitent-elles ?
Gemma 4 se décline en quatre tailles : E2B (effectif 2B, mobile/edge), E4B (effectif 4B, matériel grand public), 26B MoE (3,8B paramètres actifs par token, déployable sur un GPU avec 16–24 Go de VRAM) et 31B Dense (serveur ou workstation avec 4× GPU haute mémoire). La variante 26B MoE est le meilleur compromis pour la plupart des équipes en entreprise — performances de raisonnement compétitives avec des exigences matérielles grand public.
Comment Gemma 4 se compare-t-il à Llama 4 Scout sur les benchmarks de raisonnement ?
Gemma 4 31B obtient 84,3 % sur GPQA Diamond (raisonnement scientifique de niveau doctoral), contre 74,3 % pour Llama 4 Scout — un écart de 13,5 points malgré les 109 milliards de paramètres totaux de Llama 4 Scout contre 31 milliards pour Gemma 4. Gemma 4 31B obtient également 85,2 % sur MMLU Pro et 89,2 % sur AIME 2026. Sur le classement Arena AI, qui utilise des évaluations de préférence humaine, Gemma 4 31B occupe la 3e place parmi tous les modèles open-weight au niveau mondial.
Que permet la licence Apache 2.0 aux entreprises avec Gemma 4 ?
Apache 2.0 permet l’utilisation commerciale complète sans redevances, la modification des poids et de l’architecture, l’affinage sur des données propriétaires, le déploiement on-premises, l’intégration dans des produits commerciaux et la sous-licence des œuvres dérivées. Les seules exigences sont de conserver l’avis de droit d’auteur et d’inclure le texte de la licence dans les distributions. Cela supprime le cycle de révision juridique requis pour des licences plus restrictives et élimine le risque qu’un changement de licence du fournisseur ne compromette un produit construit sur le modèle.
—
Sources et lectures complémentaires
- Gemma 4 : octet par octet, les modèles open les plus performants — Blog Google
- Gemma 4 — Google DeepMind
- Fiche technique Gemma 4 — Google AI for Developers
- Bienvenue Gemma 4 : Intelligence multimodale de pointe — Blog Hugging Face
- Revue Gemma 4 : le modèle open 31B de Google bat des rivaux à 600B — TokenMix
- Actualités IA mai 2026 : modèles, articles, open source — DevFlokers
















