Le modèle ouvert qui frappe 20 fois au-dessus de sa catégorie
Google DeepMind a publié Gemma 4 le 2 avril 2026, et les benchmarks parlent d’eux-mêmes. La variante dense 31B obtient 1452 sur le classement texte Arena AI, se positionnant en n°3 parmi tous les modèles ouverts au monde. La variante Mixture-of-Experts 26B, plus compacte, décroche la 6e place en n’activant que 3,8 milliards de paramètres par passe avant — ce qui en fait le moteur de raisonnement le plus efficient en paramètres publiquement disponible.
Ce qui rend ces chiffres remarquables, c’est le contexte. Llama 4 Maverick de Meta déploie 400 milliards de paramètres MoE pour rivaliser dans la même catégorie. Gemma 4 obtient des résultats comparables ou supérieurs avec une fraction de la puissance de calcul. Sur le benchmark GPQA Diamond pour le raisonnement scientifique de niveau graduate, Gemma 4 31B atteint 84,3 % contre 74,3 % pour Llama 4 Scout. Sur le benchmark mathématique AIME 2026, il atteint 89,2 % — une amélioration quadruple par rapport à son prédécesseur Gemma 3 27B, qui n’obtenait que 20,8 %.
Construit sur la même base de recherche que Gemini 3, l’ensemble de la famille Gemma 4 est nativement multimodal : texte, images, vidéo, et pour les plus petits modèles, entrée audio via un encodeur conformer de type USM prenant en charge jusqu’à 30 secondes par requête.
Apache 2.0 change l’équation commerciale
Les versions précédentes de Gemma étaient distribuées sous une licence spécifique à Google qui créait des frictions pour l’adoption en entreprise. Gemma 4 supprime toutes les restrictions en passant à Apache 2.0 — la même licence permissive utilisée par Kubernetes, TensorFlow et la majeure partie de l’écosystème cloud-native.
La différence pratique est significative. Les entreprises peuvent affiner Gemma 4 sur des données propriétaires, déployer des modèles dérivés commercialement et distribuer des poids modifiés sans surcharge de licence. Il n’y a aucun plafond d’utilisateurs actifs mensuels — contrairement à la licence communautaire de Llama 4, qui exige un accord séparé dès qu’une application dépasse 700 millions d’utilisateurs mensuels.
Pour les startups et les entreprises de taille moyenne en particulier, cela élimine l’incertitude juridique. Une équipe développant un assistant IA interne ou un agent orienté client peut passer en production sans jamais contacter l’équipe de licences de Google.
Publicité
Appel de fonctions et flux agentiques intégrés
Gemma 4 n’est pas seulement un meilleur chatbot — il est conçu pour les architectures d’agents autonomes. L’appel de fonctions a été entraîné dans le modèle dès la conception, optimisé pour les flux agentiques multi-tours impliquant plusieurs outils simultanément. Le modèle prend en charge la sortie JSON structurée et les instructions système natives, permettant aux développeurs de construire des agents qui interagissent avec des API, exécutent des flux de travail en plusieurs étapes et maintiennent un état cohérent au fil de conversations prolongées.
Sur le benchmark d’utilisation d’outils agentiques tau2-bench, Gemma 4 31B obtient 86,4 %, confirmant sa capacité à planifier, appeler des outils et agir sur les résultats dans des scénarios réalistes. C’est la différence entre un modèle capable de répondre à des questions et un modèle capable de travailler — réserver une réunion, interroger une base de données, rédiger un rapport, puis résumer le résultat.
La fenêtre de contexte de 256K tokens ajoute une autre dimension. Les agents traitant de longs documents, des bases de code ou des historiques de conversation étendus peuvent maintenir la cohérence sur des centaines de pages de contexte sans troncature ni artifices de résumé.
L’IA en périphérie devient réalité, plus théorie
La partie la plus significative de Gemma 4 réside peut-être dans les plus petits modèles. La variante E2B, conçue pour une efficacité mémoire maximale, fonctionne avec moins de 1,5 Go de RAM en utilisant des poids quantifiés à 2 et 4 bits avec des embeddings par couche mappés en mémoire. Sur un Raspberry Pi 5, il atteint 7,6 tokens décodés par seconde sur CPU seul. Le NPU Dragonwing IQ8 de Qualcomm pousse ce chiffre à 31 tokens par seconde — suffisamment rapide pour l’IA conversationnelle en temps réel sans connectivité cloud.
Google a collaboré avec NVIDIA, Qualcomm, MediaTek, ARM, Intel et AMD pour une optimisation matérielle dès le premier jour. Le NVIDIA Jetson Orin Nano (8 Go) exécute les modèles E2B et E4B avec l’accélération TensorRT-LLM. Le modèle E2B sert également de base à Gemini Nano 4, qui alimente les fonctionnalités d’IA embarquées sur Android.
Le framework de déploiement LiteRT-LM fournit un runtime unifié sur l’ensemble du spectre matériel — des téléphones aux cartes Raspberry Pi en passant par les modules edge NVIDIA Jetson. Les modèles fonctionnent entièrement hors ligne, ce qui compte pour l’IoT industriel, les dispositifs de santé et les régions où l’accès cloud fiable est peu fiable ou interdit.
Ce que cela signifie pour le paysage des modèles ouverts
Gemma 4 comprime l’écart de performance entre modèles ouverts et propriétaires à une marge que de nombreuses applications de production ne remarqueront pas. Un modèle de 31B se classant dans la même catégorie que des systèmes de 400B+ modifie le calcul de coût pour chaque organisation évaluant un déploiement IA. La licence Apache 2.0 supprime le dernier point de friction majeur qui retenait les entreprises prudentes sur les API propriétaires.
L’aspect edge est tout aussi important. Un modèle multimodal agentique fonctionnant sur un ordinateur monocarte à 35 $ ouvre les capacités IA aux systèmes embarqués, aux environnements hors ligne et aux marchés à ressources limitées que les architectures dépendantes du cloud ne peuvent servir. Pour le prochain milliard d’applications IA — capteurs agricoles, terminaux de point de vente, dispositifs médicaux dans les cliniques rurales — l’inférence sur appareil n’est pas optionnelle. C’est la seule architecture viable.
La stratégie à quatre variantes (E2B, E4B, 26B MoE, 31B dense) garantit que les développeurs choisissent le bon compromis entre capacité et coût, des applications mobiles aux charges de travail en data center. Disponible dès aujourd’hui sur Hugging Face, Kaggle et Ollama, Gemma 4 est déjà déployable — la question n’est plus de savoir si les modèles ouverts peuvent rivaliser, mais si les API propriétaires peuvent justifier leur surcoût.
Questions Fréquemment Posées
Qu’est-ce qui distingue Gemma 4 des précédents modèles IA ouverts ?
Gemma 4 est le premier modèle ouvert à combiner trois capacités simultanément : des performances de benchmark de premier plan (classé n°3 mondial sur Arena AI avec 31B paramètres), une licence Apache 2.0 entièrement permissive sans restriction d’usage, et un appel de fonctions agentique natif entraîné dans le modèle dès la conception. Les modèles ouverts précédents manquaient soit de performance, portaient des licences restrictives, ou nécessitaient des outils externes pour les flux d’agents.
Gemma 4 peut-il réellement fonctionner sur des appareils edge comme les téléphones et Raspberry Pi ?
Oui. La variante E2B fonctionne avec moins de 1,5 Go de RAM en utilisant des poids quantifiés et atteint 7,6 tokens décodés par seconde sur un CPU de Raspberry Pi 5. Avec le NPU Dragonwing IQ8 de Qualcomm, les vitesses d’inférence atteignent 31 tokens par seconde — suffisant pour l’IA conversationnelle en temps réel. Google a optimisé ces modèles avec NVIDIA, Qualcomm, MediaTek et ARM pour un déploiement edge dès le premier jour, et ils fonctionnent entièrement hors ligne sans connectivité cloud.
Comment la licence Apache 2.0 de Gemma 4 se compare-t-elle à celle de Llama 4 ?
Apache 2.0 n’impose aucune restriction sur l’utilisation commerciale, la modification ou la distribution. Llama 4 utilise la licence communautaire de Meta, qui exige un accord de licence séparé dès qu’une application dépasse 700 millions d’utilisateurs actifs mensuels. Pour les startups et les entreprises, Apache 2.0 élimine les frais de révision juridique — les équipes peuvent affiner Gemma 4 sur des données propriétaires et déployer commercialement sans contacter Google.
Sources et lectures complémentaires
- Gemma 4: Byte for Byte, the Most Capable Open Models — Google Blog
- Bring State-of-the-Art Agentic Skills to the Edge with Gemma 4 — Google Developers Blog
- Bringing AI Closer to the Edge and On-Device with Gemma 4 — NVIDIA Technical Blog
- Google Releases Gemma 4 Under Apache 2.0 — VentureBeat
- Gemma 4 Model Card — Google AI for Developers
- Gemma 4 — Google DeepMind
















