Le verdict des benchmarks
L’économie de l’intelligence artificielle a basculé lorsque Google DeepMind a dévoilé Gemini 3.1 Pro le 19 février 2026. Le modèle a atteint un score vérifié de 77,1 % sur ARC-AGI-2, soit plus du double des performances de raisonnement de son prédécesseur Gemini 3 Pro (31,1 %). Sur GPQA Diamond, un benchmark scientifique de niveau doctoral, il a enregistré 94,3 % — le score le plus élevé jamais rapporté. Son classement Elo LiveCodeBench Pro de 2 887 le place nettement devant les 2 393 de GPT-5.2.
GPT-5.4 d’OpenAI, publié le 5 mars 2026, contre-attaque sur des fronts spécifiques. Il a obtenu 73,3 % sur ARC-AGI-2, comblant l’écart par rapport aux modèles antérieurs de la série GPT-5. Son score de 75 % sur OSWorld, un benchmark d’utilisation informatique au niveau du système d’exploitation, dépasse le seuil de référence des experts humains de 72,4 % — ce qui en fait le seul modèle à franchir ce cap. GPT-5.4 obtient 57,7 % sur SWE-bench Pro, le successeur plus exigeant de SWE-bench Verified, les deux modèles prenant en charge des fenêtres de contexte d’un million de tokens.
Le point crucial : l’écart de performance entre ces deux modèles de pointe se mesure désormais en points de pourcentage à un seul chiffre sur la plupart des tâches. L’époque où un seul fournisseur détenait un avantage qualitatif décisif est révolue.
L’écart de prix qui change tout
Si les performances convergent, le prix devient le facteur de différenciation. Google s’est positionné de manière agressive.
Gemini 3.1 Pro est proposé à 2,00 $ par million de tokens d’entrée et 12,00 $ par million de tokens de sortie. GPT-5.4 standard coûte 2,50 $ par million de tokens d’entrée et 15,00 $ par million de tokens de sortie. Cela représente une prime de 20 à 25 % pour le modèle phare d’OpenAI, avant même de prendre en compte la mise en cache de contexte de Google, qui réduit les coûts d’entrée à environ 0,50 $ par million de tokens pour les contextes répétés — un schéma courant dans les applications en production.
En pratique, les entreprises exécutant des charges de travail à fort volume avec la mise en cache de contexte constatent des différences de coût effectives approchant un facteur 3 en faveur de Google.
Les gammes économiques racontent une histoire encore plus spectaculaire. Gemini 3.1 Flash Lite de Google ne coûte que 0,25 $ par million de tokens d’entrée et 1,50 $ par million de tokens de sortie. GPT-5.4 Nano d’OpenAI répond à 0,20 $ par million de tokens d’entrée et 1,25 $ par million de tokens de sortie. À ces niveaux de prix, l’inférence IA capable coûte moins qu’une erreur d’arrondi dans la plupart des budgets logiciels.
Pour mettre les choses en perspective : des modèles qui coûtaient 20 $ par million de tokens au niveau de qualité de GPT-3.5 en novembre 2022 ont désormais des successeurs disponibles à 0,07 $ par million de tokens — une réduction de 280x en environ 18 mois.
La guerre des prix à cinq acteurs
Ce n’est pas un jeu à deux. Le marché des modèles d’IA compte désormais au moins cinq fournisseurs crédibles de modèles de pointe : OpenAI, Google, Anthropic, Meta (open source) et DeepSeek (open source, Chine). Chaque baisse de prix de l’un oblige les autres à réagir.
Anthropic a réduit les prix de Claude Opus 4.5 de 67 %, passant de 15 $/75 $ à 5 $/25 $ par million de tokens. Google a positionné Gemini 3.1 Pro de manière agressive à 2 $/12 $ par million de tokens. Le modèle V3 de DeepSeek fonctionne à seulement 0,27 $ par million de tokens d’entrée et 1,10 $ par million de tokens de sortie.
La pression financière est réelle. En 2024, OpenAI a généré environ 3,7 milliards de dollars de revenus tout en perdant environ 5 milliards, dépensant environ 1,69 $ pour chaque dollar gagné. Fin 2025, le revenu annualisé d’OpenAI avait dépassé les 20 milliards de dollars, mais les coûts d’exploitation ont évolué en proportion. Tous les grands fournisseurs tarifent l’inférence en dessous du coût de revient pour capter des parts de marché, pariant que l’échelle finira par générer des marges.
Publicité
Accélération matérielle : Vera Rubin change la donne
La guerre des prix est sur le point de s’intensifier davantage. NVIDIA Vera Rubin NVL72, annoncé au CES 2026 et entrant en production au second semestre, promet jusqu’à 5x de performances d’inférence supplémentaires et un coût par token 10x inférieur par rapport à la plateforme Blackwell actuelle.
NVIDIA a mesuré ces gains avec le modèle Kimi-K2-Thinking à des longueurs de séquence de 32K entrée/8K sortie, démontrant un coût par million de tokens dix fois moindre pour l’inférence de modèles à mélange d’experts (MoE). Pour les modèles denses à contextes plus courts, les analystes du secteur anticipent des gains plus réalistes de 2 à 3x — suffisants néanmoins pour remodeler fondamentalement la structure de coûts de chaque fournisseur d’IA.
Les principales entreprises d’optimisation d’inférence — Baseten, DeepInfra, Fireworks AI et Together AI — ont déjà démontré des réductions de coûts allant jusqu’à 10x en utilisant des piles d’inférence optimisées sur le matériel Blackwell actuel. Ces gains se cumulent à chaque génération de matériel.
Le paradoxe de Jevons appliqué à l’IA
Gartner a prédit en mars 2026 que d’ici 2030, l’inférence sur un LLM de mille milliards de paramètres coûtera aux fournisseurs d’IA générative plus de 90 % de moins qu’en 2025. Mais le paradoxe est évident : les dépenses des entreprises en IA augmentent, et non l’inverse.
Malgré la chute vertigineuse du coût par token, l’utilisation a crû encore plus rapidement. Les workflows d’IA agentique consomment 5 à 30x plus de tokens par tâche qu’une interaction standard avec un chatbot. Gartner prévoit que 40 % des applications d’entreprise intégreront des agents IA d’ici fin 2026, contre moins de 5 % en 2025. L’inférence représente désormais environ 85 % du budget IA des entreprises.
Le schéma est un cas d’école du paradoxe de Jevons : lorsque le coût unitaire d’une ressource baisse, la consommation totale augmente si drastiquement que les dépenses globales progressent. Le budget IA moyen des entreprises est passé de 1,2 million de dollars par an en 2024 à 7 millions en 2026, porté par l’intégration de l’IA dans les produits destinés aux clients, les workflows internes et les systèmes de prise de décision automatisée.
Ce que cela signifie pour les développeurs
Les implications stratégiques sont claires :
Les architectures multi-fournisseurs sont désormais indispensables. S’enfermer avec un seul fournisseur d’IA constitue un risque tarifaire. Les organisations doivent abstraire leurs appels IA derrière des couches de routage capables de basculer entre Gemini, GPT, Claude et des modèles open source en fonction du coût, de la latence et des exigences de la tâche.
Le niveau « suffisamment bon » est transformationnel. Les modèles Flash Lite et de classe Nano à 0,20-1,50 $ par million de tokens rendent possibles des cas d’usage économiquement impensables il y a 18 mois : traitement de documents en temps réel, revue de code continue, agents clients permanents et assistants IA personnalisés.
L’optimisation de l’inférence est une compétence fondamentale. Des techniques comme la quantification, le décodage spéculatif, l’optimisation du cache KV et l’efficacité du traitement par lots offrent 3 à 5x plus de débit pour un même modèle. Les entreprises qui maîtrisent ces techniques obtiennent un avantage durable en termes de coûts.
Les cycles matériels continueront de comprimer les marges. Vera Rubin fin 2026 n’est que la prochaine étape. Chaque génération de GPU apporte une amélioration d’un ordre de grandeur supplémentaire du coût par token, rendant la tarification actuelle obsolète en 12 mois.
L’ère de l’intelligence banalisée
L’industrie de l’IA est entrée dans sa phase de commodité bien plus vite que presque quiconque l’avait prédit. Lorsque deux modèles de pointe se rejoignent à quelques points de pourcentage près sur la plupart des benchmarks, la compétition passe de « qui a le meilleur modèle » à « qui peut le fournir au moindre coût ». Google, avec son infrastructure TPU propriétaire, sa flotte massive de data centers et sa volonté de tarifer agressivement, détient des avantages structurels dans cette bataille. OpenAI conserve une avance dans les capacités d’utilisation informatique et la fidélité de son écosystème de développeurs. Mais la marge entre eux — tant en performance qu’en prix — se réduit à chaque cycle de publication.
Pour l’écosystème technologique mondial, c’est une nouvelle indiscutablement positive. Le coût de l’intelligence baisse plus vite que celui du calcul n’a jamais baissé pendant la révolution du cloud. Les organisations qui se positionnent le plus rapidement sur cette courbe déflationniste définiront la prochaine décennie technologique.
Questions Fréquemment Posées
Comment Gemini 3.1 Pro se compare-t-il à GPT-5.4 sur les benchmarks ?
Gemini 3.1 Pro domine la plupart des benchmarks de raisonnement général, avec un score de 77,1 % sur ARC-AGI-2 contre 73,3 % pour GPT-5.4, et détient le score GPQA Diamond le plus élevé jamais enregistré à 94,3 %. Cependant, GPT-5.4 excelle dans les tâches d’utilisation informatique avec un score OSWorld de 75 % qui dépasse les seuils de référence des experts humains. Les deux modèles se situent à quelques points de pourcentage près sur la plupart des tâches, rendant le coût et l’adéquation au cas d’usage plus importants que les classements globaux.
NVIDIA Vera Rubin va-t-il vraiment offrir une inférence 10x moins chère ?
La réduction de 10x du coût par token annoncée par NVIDIA est mesurée spécifiquement sur des modèles à mélange d’experts (MoE) comme Kimi-K2-Thinking à des longueurs de séquence de 32K/8K. Pour les modèles denses à contextes plus courts, les analystes du secteur anticipent des améliorations de 2 à 3x dans les déploiements de production typiques. Le facteur 10x complet est atteignable dans des scénarios d’IA agentique optimisés utilisant des architectures MoE. Vera Rubin entre en production au S2 2026, et des benchmarks indépendants confirmeront ces résultats d’ici la fin de l’année.
Si les tokens d’IA deviennent moins chers, pourquoi les budgets IA des entreprises augmentent-ils ?
C’est le paradoxe de Jevons en action. Alors que les coûts par token ont chuté d’environ 280x en 18 mois, l’utilisation croît encore plus vite. Les workflows d’IA agentique consomment 5 à 30x plus de tokens par tâche que les interactions simples avec un chatbot, et Gartner prévoit que 40 % des applications d’entreprise intégreront des agents IA d’ici fin 2026. Le budget IA moyen des entreprises est passé de 1,2 million de dollars en 2024 à 7 millions en 2026, à mesure que les organisations déploient l’IA dans davantage de produits et de workflows.
Sources et lectures complémentaires
- Gemini 3.1 Pro: A Smarter Model for Your Most Complex Tasks — Google Blog
- Introducing GPT-5.4 — OpenAI
- NVIDIA Launches Vera Rubin NVL72 AI Supercomputer at CES — Tom’s Hardware
- Gartner Predicts 90% Drop in LLM Inference Costs by 2030 — Gartner Newsroom
- Leading Inference Providers Cut AI Costs by up to 10x on NVIDIA Blackwell — NVIDIA Blog
- Gartner Predicts 40% of Enterprise Apps Will Feature AI Agents by 2026 — Gartner Newsroom
- OpenAI Sees $5 Billion Loss on $3.7 Billion in Revenue — CNBC
- Anthropic’s Claude Opus 4.5 Pricing Cut Signals Enterprise AI Shift — InfoWorld
- AI Inference’s 280x Slide: 18-Month Cost Optimization Explained — AI CERTs






