Le chiffre qui a lancé mille communiqués de presse
Lorsqu’un nouveau modèle de langage est lancé en 2026, l’annonce suit une formule prévisible : un article de blog, un rapport technique et un tableau de scores de benchmarks conçu pour montrer que ce modèle surpasse la concurrence. GPT-5 contre Claude Opus 4.6 contre Gemini 3.1 Pro contre Llama 4 405B — chacun revendique la supériorité, chacun cite des benchmarks différents, et chacun sélectionne les métriques où il l’emporte.
L’industrie de l’IA a un problème de mesure. Des benchmarks conçus pour suivre le progrès scientifique sont devenus des outils marketing. Des scores censés identifier les faiblesses des modèles servent à la place à déclarer des vainqueurs. Et les milliards de dollars investis dans les décisions de déploiement de l’IA sont influencés par des positions dans les classements qui mesurent souvent les mauvaises choses.
Comprendre pourquoi les benchmarks sont défaillants — et quoi utiliser à la place — est désormais une compétence essentielle pour toute organisation évaluant des systèmes d’IA.
Les benchmarks majeurs : guide pratique
MMLU et MMLU-Pro
Le benchmark Massive Multitask Language Understanding (MMLU), introduit en 2020 par Dan Hendrycks et al. et publié à ICLR 2021, est devenu le standard de facto pour mesurer l’intelligence des LLM. Il comprend 15 908 questions à choix multiples réparties sur 57 matières académiques, des mathématiques élémentaires au droit et à la médecine professionnels.
MMLU est effectivement saturé en 2026. GPT-5 obtient environ 91 %, Claude Opus 4.6 environ 91 %, et Gemini 3 Pro environ 92 %. Tous les modèles de premier plan se regroupent au-dessus de 90 %, avec des différences dans la marge de bruit — rendant les scores MMLU quasi insignifiants pour la comparaison des modèles. MMLU-Pro, une variante plus difficile avec plus de 12 000 questions et 10 options de réponse au lieu de 4, a été introduite à NeurIPS 2024 pour prolonger la durée de vie utile du benchmark, mais même MMLU-Pro montre des effets de plafonnement début 2026, avec les meilleurs modèles dépassant 85 % — dont Gemini 3 Pro et Claude Opus 4.5 (Reasoning) atteignant environ 89-90 %.
LMSYS Chatbot Arena
Le LMSYS Chatbot Arena, développé par LMSYS et des chercheurs de UC Berkeley SkyLab et lancé en mai 2023, utilise une approche différente : des votants humains comparent des réponses anonymes de modèles côte à côte et votent pour celle qui est meilleure. Un système de notation Bradley-Terry — conceptuellement similaire aux classements Elo aux échecs — classe les modèles sur la base de milliers de comparaisons par paires.
L’Arena est ce qui se rapproche le plus d’un benchmark « réel », car il mesure la préférence humaine sur des tâches ouvertes plutôt que la précision aux choix multiples. Cependant, il présente des limitations significatives : la démographie des votants penche vers les passionnés de technologie anglophones, les tâches soumises sont biaisées vers l’écriture créative et le code (pas les cas d’usage entreprise), et le système est vulnérable à la manipulation — les fournisseurs de modèles peuvent optimiser spécifiquement pour les types de prompts courants sur l’Arena.
HumanEval et SWE-bench
Pour la génération de code, HumanEval (164 problèmes de programmation Python) et SWE-bench (de vrais tickets GitHub nécessitant des modifications de code multi-fichiers) sont les benchmarks standards. HumanEval est saturé — les meilleurs modèles réussissent plus de 95 % des problèmes, avec les modèles O1 atteignant 96,3 %. SWE-bench Verified, qui exige que les modèles résolvent de véritables problèmes d’ingénierie logicielle issus de dépôts open-source, reste véritablement exigeant mais est rapidement conquis : les meilleurs agents résolvent désormais environ 75-80 % des problèmes vérifiés en février 2026, contre environ 50 % un an plus tôt. Le rythme d’amélioration signifie que même SWE-bench Verified pourrait bientôt subir une pression de saturation.
GPQA (Graduate-Level Google-Proof Q&A)
GPQA comprend 448 questions de niveau expert en biologie, physique et chimie, conçues pour être si difficiles que même les experts du domaine n’atteignent que ~65 % de précision lorsqu’ils répondent à des questions hors de leur spécialité. GPQA Diamond, un sous-ensemble de 198 questions de haute qualité, a connu des progrès extraordinaires : les meilleurs LLM obtiennent désormais plus de 90 % — Gemini 3.1 Pro atteignant 94,1 % — ayant dépassé la précision des experts humains. Cela représente un bond spectaculaire depuis seulement 39 % fin 2023, faisant de GPQA Diamond un autre benchmark approchant la saturation bien plus vite que prévu.
ARC-AGI
Le Abstraction and Reasoning Corpus (ARC) de François Chollet teste le type d’intelligence fluide et de reconnaissance de motifs nouveaux avec lesquels les LLM ont historiquement eu du mal. Contrairement aux benchmarks linguistiques, ARC présente des puzzles visuels qui nécessitent d’inférer des règles abstraites à partir de quelques exemples. Début 2026, les meilleurs systèmes d’IA obtiennent environ 25-40 % sur ARC-AGI-2 (avec Claude Opus 4.5 atteignant 37,6 % comme meilleur modèle commercial vérifié), contre environ 60-77 % pour les participants humains moyens — faisant d’ARC-AGI-2 l’un des écarts les plus significatifs restants entre l’intelligence humaine et machine.
Pourquoi les benchmarks échouent : cinq problèmes systémiques
1. Contamination et fuites de données
Le problème le plus corrosif dans le benchmarking de l’IA est la contamination des données d’entraînement : les questions de benchmark qui s’infiltrent dans les données d’entraînement des modèles. Si un modèle a vu les questions du test pendant l’entraînement, son score de benchmark mesure la mémorisation, pas la capacité.
L’ampleur de la contamination est stupéfiante. Des recherches de AI2 et de l’Université de Washington, présentées à EMNLP 2025, ont révélé que les principaux benchmarks d’évaluation des LLM sont fortement contaminés dans les corpus d’entraînement Internet — avec des taux de contamination atteignant 74 % dans certains jeux de données (comme GSM8K) et 40 % dans d’autres (comme AIME-2024). Comme pratiquement tous les modèles de pointe s’entraînent sur des données extraites du web, cette contamination affecte indirectement toutes les familles de modèles majeures.
Les fournisseurs de modèles reconnaissent le problème en principe mais ont une capacité limitée à le prévenir, étant donné que les jeux de données d’entraînement contiennent souvent des milliers de milliards de tokens récupérés sur l’ensemble d’Internet. Le résultat est que les scores de benchmark sont gonflés d’un montant inconnu, et la comparaison entre modèles entraînés sur des données différentes est fondamentalement peu fiable.
2. Saturation des benchmarks
Lorsque les meilleurs modèles obtiennent plus de 90 % sur un benchmark, celui-ci cesse de fournir un signal utile. La différence entre 91 % et 93 % sur MMLU ne dit presque rien sur quel modèle est meilleur pour une tâche pratique. Pourtant, les communiqués de presse et la couverture médiatique traitent ces différences fractionnaires comme des victoires significatives.
Le domaine a répondu en créant des benchmarks plus difficiles (MMLU-Pro, GPQA, ARC-AGI), mais le cycle se répète : chaque nouveau benchmark est utile pendant 12 à 18 mois avant que les meilleurs modèles ne le saturent. Même les benchmarks conçus pour être « à l’épreuve du futur » tombent plus vite que prévu — GPQA Diamond est passé d’un véritable défi à une quasi-saturation en moins de deux ans.
3. Optimisation pour le test, pas pour la compétence
La loi de Goodhart — « Quand une mesure devient un objectif, elle cesse d’être une bonne mesure » — s’applique pleinement aux benchmarks d’IA. Les développeurs de modèles optimisent explicitement les performances aux benchmarks pendant l’entraînement et le fine-tuning. Cela inclut l’entraînement sur des formats de questions similaires, le fine-tuning sur les domaines que les benchmarks privilégient, et des choix architecturaux qui favorisent la précision aux choix multiples plutôt que le raisonnement ouvert.
Le résultat : des modèles qui sont d’excellents passeurs de tests mais parfois décevants en pratique. Une entreprise déployant un LLM pour la revue de contrats ou le service client ne se soucie pas de savoir s’il peut répondre à des questions de culture générale sur l’histoire ancienne — mais MMLU teste cela, et le score influence les décisions d’achat.
4. Réductionnisme du score unique
Réduire les capacités d’un modèle à une seule position dans un classement (ou même à une poignée de scores de benchmark) oblitère des nuances essentielles. Deux modèles avec des scores MMLU identiques peuvent avoir des forces radicalement différentes : l’un peut exceller en raisonnement mathématique mais peiner en écriture créative ; un autre peut être exceptionnel en génération de code mais faible en suivi d’instructions complexes.
Les cas d’usage entreprise sont spécifiques. Un établissement de santé a besoin d’un modèle qui gère la terminologie médicale et les longs documents cliniques. Un cabinet d’avocats a besoin d’un modèle qui suit les conventions de citation et raisonne sur la jurisprudence. Un centre de service client a besoin d’un modèle qui maintient un persona cohérent et désescalade les utilisateurs frustrés. Aucun score de benchmark unique ne capture l’adéquation pour ces tâches spécifiques.
5. La crise de reproductibilité
Les scores de benchmark ne sont souvent pas reproductibles entre différents cadres d’évaluation, formats de prompts et configurations d’inférence. Un modèle qui obtient 88 % sur MMLU avec un template de prompt peut obtenir 84 % avec un autre. Les paramètres de température, les prompts système, les exemples few-shot et même l’ordre des options à choix multiples peuvent faire varier les scores de plusieurs points de pourcentage.
Cela signifie que les scores de benchmark rapportés par les fournisseurs de modèles (qui optimisent leur configuration d’évaluation) et les scores mesurés par des évaluateurs indépendants divergent fréquemment. Sans protocoles d’évaluation standardisés, les comparaisons de benchmarks entre fournisseurs sont peu fiables.
Advertisement
Ce qui compte vraiment : l’évaluation au niveau entreprise
Les organisations prenant de vraies décisions de déploiement en 2026 ignorent de plus en plus les benchmarks publics et construisent leurs propres cadres d’évaluation. La meilleure pratique émergente est un empilement d’évaluation à trois couches :
Couche 1 — Évaluations spécifiques au domaine. Construisez un jeu de test de 200 à 500 exemples tirés de votre cas d’usage réel. Si vous déployez une IA pour la revue de contrats, votre jeu d’évaluation devrait contenir de vrais contrats avec des analyses correctes connues. Si vous déployez pour le support client, votre jeu d’évaluation devrait contenir de vraies conversations clients avec des réponses idéales notées par des experts. C’est l’évaluation la plus prédictive du succès de déploiement.
Couche 2 — Red-teaming et analyse des modes de défaillance. Au lieu de mesurer à quelle fréquence un modèle donne la bonne réponse, mesurez comment il échoue. Hallucine-t-il avec confiance ? Refuse-t-il des requêtes appropriées ? Suit-il les consignes de sécurité de manière cohérente ? Gère-t-il les entrées adversariales avec élégance ? Les modes de défaillance d’un modèle importent plus que ses taux de réussite pour les déploiements critiques.
Couche 3 — Évaluation de la préférence humaine. Pour les tâches où la qualité est subjective (rédaction, résumé, conversation), la comparaison aveugle par paires par des experts du domaine — similaire à la méthodologie du LMSYS Arena, mais sur vos tâches spécifiques avec vos évaluateurs spécifiques — fournit le signal le plus fiable.
Les standards émergents : vers une meilleure mesure
La communauté d’évaluation de l’IA n’est pas inactive. Plusieurs initiatives travaillent à corriger la crise du benchmarking :
HELM (Holistic Evaluation of Language Models) du Center for Research on Foundation Models de Stanford évalue les modèles à travers des dizaines de scénarios avec des protocoles standardisés, mesurant non seulement la précision mais aussi la calibration, l’équité, la robustesse et l’efficacité. La méthodologie transparente et la configuration reproductible de HELM en font le cadre d’évaluation publique le plus rigoureux disponible. Il s’est étendu à VHELM pour les modèles vision-langage et HEIM pour l’évaluation texte-vers-image.
SEAL Leaderboards de Scale AI fournissent des benchmarks privés, régulièrement actualisés, où les questions de test ne sont pas publiquement disponibles — répondant directement au problème de contamination. SEAL couvre le code, les mathématiques/raisonnement, le suivi d’instructions, l’utilisation d’outils, la performance réelle et l’évaluation de la sécurité à travers des jeux de données privés sélectionnés. Parce que le jeu de test est caché, les modèles ne peuvent pas être entraînés dessus, et les scores reflètent plus fidèlement les capacités réelles.
L’AI Security Institute (AISI) au Royaume-Uni (renommé depuis AI Safety Institute en février 2025) et son homologue américain développent des cadres d’évaluation soutenus par les gouvernements, axés sur les capacités critiques pour la sécurité : la tromperie, la manipulation, la planification autonome et les connaissances à double usage. L’AISI a rendu open source Inspect, un outil d’évaluation désormais utilisé par les gouvernements, les entreprises et les universitaires à travers le monde, et a récemment publié ControlArena pour les évaluations de contrôle.
BIG-Bench Hard (BBH) se concentre spécifiquement sur les tâches où les LLM performaient auparavant en dessous du niveau humain moyen — arithmétique multi-étapes, raisonnement causal, raisonnement temporel et désambiguïsation. Cependant, BBH est désormais largement saturé, les modèles de pointe atteignant des scores quasi parfaits sur nombre de ses 23 tâches. Google DeepMind a introduit BIG-Bench Extra Hard (BBEH), publié à ACL 2025, comme un successeur significativement plus difficile — poursuivant le cycle d’escalade des benchmarks.
L’impact marché : les benchmarks comme armes concurrentielles
Les enjeux financiers du positionnement dans les benchmarks sont énormes. Les clients entreprise utilisent les scores de benchmark comme filtres préliminaires lors de l’évaluation des fournisseurs d’IA. Un modèle qui domine le LMSYS Arena ou revendique le score MMLU le plus élevé accède à davantage de conversations d’achat. Les investisseurs utilisent la performance aux benchmarks comme proxy du progrès technique, influençant les valorisations et les levées de fonds.
Cela crée des incitations perverses. Les fournisseurs de modèles allouent des ressources d’ingénierie significatives à l’optimisation des benchmarks — des ressources qui pourraient être consacrées à la fiabilité, la sécurité, la latence ou la performance spécifique au domaine. La course aux armements des benchmarks ralentit peut-être le progrès pratique de l’IA en redirigeant les efforts vers la manipulation des mesures plutôt que vers l’amélioration réelle des capacités.
Le signe le plus sain dans le paysage de l’IA en 2026 est le nombre croissant d’entreprises qui ont cessé de demander « Quel modèle a le score de benchmark le plus élevé ? » pour demander « Quel modèle fonctionne le mieux sur notre tâche spécifique, avec nos données, dans notre environnement de déploiement ? » Cette question ne peut pas être répondue par un classement.
Advertisement
Radar de Décision (Algeria Lens)
| Pertinence pour l’Algérie | Élevée — Les entreprises et agences gouvernementales algériennes évaluant des systèmes d’IA doivent comprendre que les scores de benchmark sont des proxys peu fiables de la performance réelle ; la sélection de fournisseurs basée uniquement sur la position dans les classements mène à de mauvais résultats |
| Infrastructure prête ? | N/A — Il s’agit d’un enjeu de connaissance et de capacité d’évaluation, pas d’infrastructure |
| Compétences disponibles ? | Limitées — Peu d’organisations algériennes disposent d’une expertise interne en évaluation d’IA ; la dépendance aux benchmarks rapportés par les fournisseurs est la norme |
| Calendrier d’action | Immédiat — Toute organisation achetant des systèmes d’IA devrait construire des jeux d’évaluation spécifiques au domaine avant de sélectionner un fournisseur |
| Parties prenantes clés | DSI évaluant des fournisseurs d’IA, équipes de transformation numérique gouvernementales, laboratoires de recherche en IA universitaires, fondateurs de startups développant des produits basés sur l’IA |
| Type de décision | Opérationnel — Une méthodologie d’évaluation concrète peut être adoptée immédiatement pour toute décision d’achat d’IA |
Sources et lectures complémentaires
- MMLU — Measuring Massive Multitask Language Understanding, Hendrycks et al.
- MMLU-Pro — A More Robust and Challenging Benchmark
- LMSYS Chatbot Arena
- SWE-bench — Resolved Real-World GitHub Issues
- GPQA — Graduate-Level Google-Proof Q&A
- ARC-AGI — Abstraction and Reasoning Corpus
- HELM — Holistic Evaluation of Language Models, Stanford CRFM
- SEAL Leaderboards — Scale AI
- UK AI Security Institute — Evaluation Framework
- BIG-Bench Extra Hard (BBEH) — Google DeepMind
- Benchmark Contamination in Internet Corpora — EMNLP 2025
- Goodhart’s Law and AI Benchmarks — Research Overview
Advertisement