La réponse de Meta à l’avance des modèles fermés
Quand OpenAI, Google et Anthropic ont pris de l’avance avec GPT-5, Gemini 3.1 Pro et Claude Opus 4.6, la communauté open-weight s’est retrouvée avec de solides options de milieu de gamme mais sans véritable pair de pointe. La sortie en avril 2025 du troupeau Llama 4 par Meta — Scout, Maverick et le Behemoth de 2 trillions de paramètres en aperçu — était conçue pour combler ce fossé. Un an plus tard, Llama 4 Maverick reste le modèle open-weight le plus capable qu’une entreprise puisse légalement déployer sur sa propre infrastructure.
Maverick embarque 400 milliards de paramètres au total, dont seulement 17 milliards sont actifs par token grâce à une architecture native Mixture-of-Experts (MoE) avec 128 experts. Cette conception est la clé de la rentabilité économique : le modèle a la capacité de connaissance d’un modèle dense de 400 Md tout en coûtant à peu près autant à exécuter qu’un modèle de 17 Md. Il a été pré-entraîné sur environ 22 trillions de tokens de données multimodales couvrant texte, images et vidéo.
Fenêtres de contexte : Maverick à 1 M, Scout à 10 M
Un point de confusion fréquent : Llama 4 Maverick prend en charge une fenêtre de contexte de 1 million de tokens — assez large pour des bases de code entières et l’analyse de longs documents — tandis que son petit frère Llama 4 Scout (109 Md total / 17 Md actifs / 16 experts) pousse jusqu’à une fenêtre de contexte de 10 millions de tokens, la plus grande de tout modèle publiquement disponible. Scout tient sur un seul GPU H100 et c’est le choix pratique lorsque la charge de travail est à contexte long plutôt qu’à raisonnement lourd.
La division du travail est intentionnelle. Maverick est le poids lourd de Meta en raisonnement et codage, conçu pour concurrencer GPT-4o et Claude 3.7 Sonnet. Scout est la bête de somme à long contexte, un choix direct pour les pipelines lourds en récupération, les bases de connaissances d’entreprise et les fils de conversation de plusieurs jours. Le futur Behemoth (2 T au total, 288 Md actifs) est le modèle enseignant distillé dans les deux — encore en aperçu au moment de l’écriture.
Performance de benchmark face aux pairs fermés
Maverick a atteint 1 417 ELO sur Chatbot Arena au lancement, surpassant GPT-4o et échangeant des coups avec Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks STEM dont MATH-500 et GPQA Diamond. L’évaluation indépendante sur Artificial Analysis confirme qu’il s’agit du modèle open-weight le plus puissant en raisonnement et du meilleur choix open-weight pour les tâches multimodales avec entrées visuelles.
Là où il est en retrait : les benchmarks de codage. Bien qu’il soit environ 13 fois plus grand en nombre total de paramètres que des rivaux comme Gemma 4 31B, Maverick sous-performe sur le codage agentique et les évaluations d’utilisation d’outils, ce qui a poussé de nombreux acheteurs orientés développeurs à déployer en double avec un modèle spécialisé plus petit.
Pour les entreprises, la comparaison qui vaut la peine d’être faite est Maverick face à la famille Gemma 4 de Google et à Qwen 3.5 — les deux autres options open-weight sérieuses en 2026. Gemma 4 31B se classe n°3 sur LMArena au global, obtient 85,2 % sur MMLU Pro et n’active que 3,8 Md de paramètres par token. Pour la plupart des charges de développement, le plus petit Gemma 4 ou Qwen 3.5 sera plus rapide et moins cher à héberger.
Publicité
La question de la licence — et pourquoi elle compte
C’est ici que le paysage open-weight se complique. Llama 4 Maverick n’est pas sous licence Apache 2.0 — il est distribué sous la Llama 4 Community License de Meta, qui porte deux restrictions conséquentes :
- Clause des 700 M d’utilisateurs actifs mensuels. Tout service dépassant 700 millions d’utilisateurs actifs mensuels doit obtenir une autorisation écrite séparée de Meta avant d’utiliser le modèle commercialement. En pratique, cela exclut par défaut Amazon, Microsoft, Google, ByteDance et une poignée d’autres.
- Interdiction de distillation. Les sorties des modèles Llama 4 ne peuvent être utilisées pour entraîner ou améliorer des modèles qui concurrenceraient ceux de Meta. C’est la clause qui compte pour les startups de modèles de fondation et les entreprises envisageant leurs propres variantes distillées.
À l’inverse, Gemma 4 utilise Apache 2.0 — pas de plafond d’utilisateurs, pas de restriction de distillation. GLM-5.1 utilise la licence MIT encore plus permissive. Pour les entreprises régulées et les acheteurs gouvernementaux en Europe, au Moyen-Orient et en Afrique du Nord, Gemma 4 et GLM-5.1 sont devenus les choix open-weight privilégiés précisément parce que les termes de licence sont compatibles avec les auditeurs.
Réalités matérielles et de déploiement
Exécuter Maverick en production est un exercice différent de l’exécution de Scout. Le nombre total de 400 Md de paramètres signifie que les poids occupent environ 750 Go en FP16, plaçant l’inférence clairement en territoire multi-GPU — typiquement des nœuds 8x H100 ou 4x H200 pour un débit de production. NVIDIA a publié des travaux d’optimisation visant spécifiquement Llama 4 Scout et Maverick avec des noyaux TensorRT-LLM qui améliorent matériellement le débit, et la version Hugging Face est livrée avec la prise en charge de vLLM.
Le coût au service sur matériel auto-hébergé se situe près de 0,50 $ par million de tokens d’entrée à utilisation stabilisée sur un nœud 8xH100, ce qui est compétitif avec la tarification API de GPT-4o-mini mais considérablement plus que Gemma 4 27B auto-hébergé. Pour les organisations disposant d’une capacité GPU existante et d’exigences de conformité qui imposent une inférence sur site, Maverick s’avère rentable. Pour les déploiements purement économiques, des options moins chères gagnent.
Implications pour l’entreprise
- L’IA souveraine devient réelle. Les pays et les secteurs régulés qui exigent que les poids des modèles restent à l’intérieur des frontières nationales disposent désormais d’un modèle de raisonnement de classe 400 Md et d’un modèle de long document à 10 M de contexte qu’ils peuvent légalement auto-héberger. Attendez-vous à une activité d’achat de la défense, de la santé et de la finance.
- Les pipelines RAG sont à réécrire. Le contexte de 10 M de Scout élimine une grande partie du besoin de récupération complexe pour des corpus de taille moyenne. Une fenêtre de 10 M contient environ 7 500 pages de texte — assez pour que la plupart des bases juridiques, de politique ou de produits d’une entreprise tiennent dans une seule requête.
- Surveillez les petits caractères de licence. La clause des 700 M d’utilisateurs actifs mensuels est une mine pour les applications grand public à fort trafic. Si votre produit a un chemin vers une échelle significative, Gemma 4 ou Qwen 3.5 peut être le pari à long terme plus sûr.
- Le Behemoth arrive. Le modèle enseignant de 2 T paramètres en aperçu de Meta, s’il est publié ouvertement, renverserait l’équilibre des forces entre laboratoires de modèles fermés et ouverts. Ses termes de licence seront l’annonce la plus surveillée du second semestre 2026.
La vue d’ensemble
Pour la première fois depuis l’arrivée de Llama 2 en 2023, l’écosystème open-weight dispose d’un véritable modèle de raisonnement de classe frontière et d’un modèle à long contexte record, publiés ensemble. Cela donne aux entreprises une véritable seconde source face à chaque fournisseur fermé — un levier de négociation qui manquait au cycle d’achat 2024-2025.
L’ironie est que la licence restrictive de Meta elle-même garantit que le centre de gravité de l’écosystème se déplace vers des alternatives véritablement ouvertes. Gemma 4 sous Apache 2.0, Qwen 3.5 sous Apache 2.0 et GLM-5.1 sous MIT absorbent la demande que les termes de Meta excluent. Llama 4 Maverick est peut-être le modèle open-weight le plus capable de 2026. Mais il n’est de plus en plus pas celui que la plupart des développeurs déploient réellement.
Questions Fréquemment Posées
Quelle est la différence entre Llama 4 Maverick et Scout?
Maverick est le poids lourd du raisonnement et du codage — 400 Md de paramètres au total, 17 Md actifs, 128 experts, contexte de 1 M de tokens, conçu pour concurrencer GPT-4o et Claude Sonnet. Scout est la bête de somme à long contexte — 109 Md de paramètres au total, 17 Md actifs, 16 experts et une fenêtre de contexte record de 10 M de tokens. Scout tient sur un seul GPU H100 ; Maverick nécessite des nœuds 8x H100 ou 4x H200 pour un débit de production.
Puis-je utiliser Llama 4 Maverick commercialement sans payer Meta?
Oui, mais avec des restrictions. La Llama 4 Community License autorise l’usage commercial en dessous de 700 millions d’utilisateurs actifs mensuels et interdit l’utilisation des sorties du modèle pour entraîner des modèles concurrents. Pour une entreprise typique, aucune des deux clauses n’est bloquante. Pour une startup dont le produit pourrait dépasser 700 M d’utilisateurs actifs mensuels ou pour un laboratoire de modèles de fondation, les clauses comptent — et Gemma 4 (Apache 2.0) ou GLM-5.1 (MIT) sont des paris à long terme plus sûrs.
La fenêtre de contexte de 10 M de tokens remplace-t-elle mon pipeline RAG?
Pour les corpus de taille moyenne, souvent oui. Une fenêtre de 10 M contient environ 7 500 pages de texte — assez pour que la plupart des bases juridiques, de politique ou de produits complètes d’une entreprise tiennent dans une seule requête. Pour des ensembles de documents d’entreprise plus grands (centaines de milliers de pages) ou des charges avec des exigences strictes de fraîcheur, RAG gagne encore sur le coût et la latence. Le contexte de 10 M de Scout est mieux utilisé comme « simplificateur direct » pour les problèmes de récupération de complexité moyenne.
Sources et lectures complémentaires
- The Llama 4 herd: multimodal AI innovation — Meta AI
- Llama 4 Maverick Model Card — Hugging Face
- NVIDIA Accelerates Inference on Llama 4 Scout and Maverick — NVIDIA
- Gemma 4 vs Qwen 3.5 vs Llama 4: Open Model Comparison 2026 — Botmonster
- Meta Llama 4 Open-Weights Release: Scout vs Maverick — Royfactory






