Une sortie ciblée sur les agents, pas le chat
Anthropic a livré Claude Opus 4.7 le 16 avril 2026, environ deux mois après Opus 4.6. Le cadrage en une phrase est explicite : c’est un modèle optimisé pour les workflows d’agents de longue durée, pas pour le chat. Le langage de positionnement de l’entreprise — « le travail qui nécessitait auparavant une supervision étroite peut désormais être confié en toute confiance » — vise directement le marché des agents d’entreprise que se disputent désormais OpenAI, Google et Anthropic.
La tarification reste à 5 $ par million de tokens d’entrée et 25 $ par million de tokens de sortie, inchangée par rapport à Opus 4.6. Cette stabilité compte : les équipes achats d’entreprise se soucient de la prévisibilité tarifaire, et tenir la ligne tout en livrant des gains de capacité mesurables est le type de mouvement qui empêche les gros contrats de glisser.
Le tableau des benchmarks
Sur les benchmarks qui comptent le plus pour les workflows d’agents, Opus 4.7 reprend de peu la première place parmi les modèles frontière disponibles au grand public.
- SWE-bench Verified : 87,6 % — un bond depuis les 80,8 % d’Opus 4.6 et devant Gemini 3.1 Pro à 80,6 %
- SWE-bench Pro (la variante multi-langage plus difficile) : 64,3 % — devant GPT-5.4 à 57,7 % et Gemini 3.1 Pro à 54,2 %
- OSWorld-Verified (benchmark d’agent computer-use) : 78,0 %, en hausse par rapport aux 72,7 % d’Opus 4.6 et devant GPT-5.4 à 75,0 %
- GPQA Diamond (raisonnement de niveau doctorat) : 94,2 %, effectivement à égalité avec Gemini 3.1 Pro (94,3 %) et GPT-5.4 Pro (94,4 %) — ce benchmark approche de la saturation au niveau frontière
- Raisonnement agentique multi-étapes : une amélioration déclarée de 14 % par rapport à Opus 4.6, avec environ un tiers du taux d’erreur d’utilisation d’outils
Le seul domaine où Opus 4.7 est visiblement à la traîne : BrowseComp (recherche sur le web ouvert) est passé de 83,7 % sur Opus 4.6 à 79,3 %, derrière Gemini 3.1 Pro à 85,9 % et GPT-5.4 Pro à 89,3 %. Pour les workflows d’agents qui s’appuient fortement sur la recherche web ouverte (deep research, veille concurrentielle), Gemini ou GPT peuvent rester les meilleurs choix.
Publicité
Ce que « longue durée » signifie réellement
Le pitch « agent longue durée » d’Anthropic repose sur trois revendications de capacité, chacune correspondant à un résultat produit mesurable.
Résistance aux boucles. Les modèles d’agents plus anciens dégénéraient souvent en actions répétitives lorsqu’ils rencontraient une ambiguïté ou une erreur d’outil. Opus 4.7 réduirait ce mode de défaillance, ce qui permet à un agent de poursuivre une tâche de plusieurs heures au lieu de caler et de brûler des tokens dans une boucle.
Récupération d’erreur. Lorsqu’un appel d’outil échoue ou renvoie une sortie inattendue, le comportement du modèle détermine si la tâche échoue ou trouve un détour. La revendication d’Anthropic d’un tiers des erreurs d’utilisation d’outils améliore directement la probabilité qu’une séquence longue aboutisse.
Vision en haute résolution. Opus 4.7 prend en charge des images jusqu’à 2 576 pixels sur le bord le plus long — plus du triple de la limite précédente. Pour les agents computer-use qui analysent des captures d’écran complètes, cela se traduit par une meilleure détection des éléments d’interface et moins d’erreurs de transcription, et cela explique le grand bond sur OSWorld-Verified (de 72,7 % à 98,5 % sur les sous-scores d’acuité visuelle).
La combinaison explique pourquoi Anthropic décrit Opus 4.7 comme un modèle qui peut « travailler de manière cohérente pendant des heures » — non pas parce qu’une seule capacité est transformatrice, mais parce que le taux d’erreur composé sur une longue chaîne d’agent est désormais nettement plus bas.
Nouveaux contrôles : xhigh, budgets de tâches, revue de code
Trois fonctionnalités opérationnelles ont été livrées avec le modèle et comptent pour les acheteurs d’entreprise.
Premièrement, Anthropic a introduit un niveau d’effort « xhigh » qui se situe entre les réglages existants « high » et « max » — un levier plus fin sur le compromis coût-précision pour les problèmes difficiles. Les équipes qui oscillaient auparavant entre capacité agressive et dépassements de budget ont maintenant un réglage intermédiaire.
Deuxièmement, les budgets de tâches permettent aux opérateurs de plafonner la dépense en raisonnement et en appels d’outils par exécution d’agent. C’est une réponse directe à un mode de défaillance courant en production d’agents : une seule tâche incontrôlée consomme silencieusement des milliers de dollars de tokens avant que quiconque s’en aperçoive.
Troisièmement, Anthropic a intégré de nouveaux outils de revue Claude Code destinés à examiner les pull requests générées par des agents IA — un workflow devenu central pour les équipes d’ingénierie qui utilisent Claude Code en production.
Le cadre concurrentiel
Le timing d’Opus 4.7 n’est pas un hasard. La plateforme d’entreprise Frontier d’OpenAI (lancée en février 2026) et le protocole A2A de Google plus Workspace Studio (annoncés à Google Cloud Next 2026) sont arrivés dans le même trimestre. Les trois fournisseurs défendent maintenant la même thèse : la prochaine phase de revenus de l’IA repose sur les workflows multi-outils, multi-agents, de longue durée — pas sur les tours de chat.
L’avantage d’Anthropic dans ce cadre est la crédibilité sur la fiabilité des agents. Opus 4.6 avait déjà établi Claude comme modèle par défaut pour les agents de codage et les workflows computer-use dans de nombreuses stacks d’entreprise, et 4.7 étend cette avance sur les benchmarks qui correspondent le plus directement à ces cas d’usage. Son désavantage est la distribution à l’échelle : OpenAI et Google ont des moteurs commerciaux entreprise plus importants et une intégration plus serrée avec les suites productivité existantes, et la croissance entreprise d’Anthropic dépend encore beaucoup des canaux partenaires comme AWS Bedrock, Google Vertex AI et Microsoft Foundry — qui distribuent tous Opus 4.7 dès le premier jour.
Pour les architectes d’entreprise qui cartographient une stratégie modèle 2026, l’implication pratique est que « quel modèle est le meilleur » devient de plus en plus spécifique au workflow. Codage longue durée, automatisation computer-use et tâches back-office SaaS agentiques favorisent désormais Opus 4.7. La recherche web ouverte et les très grandes fenêtres de contexte peuvent encore favoriser Gemini 3.1 Pro. Les déploiements grand public à forte concurrence avec des budgets de latence serrés peuvent favoriser GPT-5.4. Le pari mono-fournisseur est plus difficile à défendre qu’il y a un an.
Questions fréquentes
Pour quoi Claude Opus 4.7 est-il optimisé ?
Les workflows d’agents de longue durée — tâches multi-heures, multi-outils, multi-étapes comme les agents d’ingénierie logicielle et l’automatisation computer-use. La revendication d’Anthropic est qu’Opus 4.7 résiste aux boucles, récupère des erreurs d’outils plus fiablement, et peut « travailler de manière cohérente pendant des heures » sur des problèmes prolongés.
Comment Opus 4.7 se compare-t-il à GPT-5.4 et Gemini 3.1 Pro ?
Sur SWE-bench Pro, Opus 4.7 atteint 64,3 % contre GPT-5.4 à 57,7 % et Gemini 3.1 Pro à 54,2 %. Sur OSWorld-Verified (computer use), Opus 4.7 atteint 78,0 % contre 75,0 % pour GPT-5.4. Les benchmarks de raisonnement comme GPQA Diamond sont effectivement à égalité entre les trois. Sur la recherche web ouverte (BrowseComp), Opus 4.7 est à la traîne des deux concurrents.
Que doivent faire les équipes d'entreprise ensuite ?
Exécutez des évaluations côte à côte sur les workflows d’agents spécifiques qui génèrent le plus de coûts ou de douleur de fiabilité, utilisez les nouveaux contrôles de budget de tâche pour plafonner les dépenses incontrôlées, et traitez « meilleur modèle » comme spécifique au workflow plutôt que spécifique au fournisseur. Opus 4.7 est disponible dès aujourd’hui via l’API Anthropic, AWS Bedrock, Google Vertex AI et Microsoft Foundry.
Sources et lectures complémentaires
- Introducing Claude Opus 4.7 — Anthropic
- Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM — VentureBeat
- Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web
- Claude Opus 4.7 Benchmarks Explained — Vellum AI
- Anthropic releases Claude Opus 4.7, a less risky model than Mythos — CNBC






