إصدار يستهدف الوكلاء لا الدردشة
أطلقت Anthropic إصدار Claude Opus 4.7 في 16 أبريل 2026، بعد نحو شهرين من Opus 4.6. كان التأطير الرئيسي صريحاً: هذا نموذج مُحسَّن لسير عمل الوكلاء طويلة الأمد، لا للدردشة. لغة التموضع لدى الشركة — “العمل الذي كان يتطلب إشرافاً دقيقاً يمكن الآن تسليمه بثقة” — تستهدف مباشرة سوق وكلاء المؤسسات الذي يتنازع عليه الآن كل من OpenAI وGoogle وAnthropic.
يظل التسعير عند 5 دولارات لكل مليون رمز إدخال و25 دولاراً لكل مليون رمز إخراج، دون تغيير عن Opus 4.6. هذا الاستقرار مهم: تهتم فرق المشتريات في الشركات بإمكانية التنبؤ في التسعير، والحفاظ على الخط مع تقديم مكاسب قدرة قابلة للقياس هو نوع الحركة التي تمنع العقود الكبيرة من الانزلاق.
صورة المعايير المرجعية
في المعايير المرجعية الأهم لسير عمل الوكلاء، يستعيد Opus 4.7 بفارق ضيق المركز الأول بين نماذج الذكاء الاصطناعي المتقدمة المتاحة عموماً.
- SWE-bench Verified: 87.6% — قفزة من 80.8% في Opus 4.6 ومتقدماً على Gemini 3.1 Pro عند 80.6%
- SWE-bench Pro (النسخة متعددة اللغات الأصعب): 64.3% — متقدماً على GPT-5.4 عند 57.7% وGemini 3.1 Pro عند 54.2%
- OSWorld-Verified (معيار وكيل computer-use): 78.0%، ارتفاعاً من 72.7% في Opus 4.6 ومتقدماً على GPT-5.4 عند 75.0%
- GPQA Diamond (استدلال مستوى الدراسات العليا): 94.2%، وهو فعلياً على قدم المساواة مع Gemini 3.1 Pro (94.3%) وGPT-5.4 Pro (94.4%) — هذا المعيار يقترب من التشبع على مستوى الحدود
- الاستدلال العميل متعدد الخطوات: تحسّن مُعلَن بنسبة 14% مقارنة بـOpus 4.6، مع نحو ثلث معدل خطأ استخدام الأدوات
المجال الوحيد الذي يتراجع فيه Opus 4.7 بشكل ملحوظ: BrowseComp (بحث الويب المفتوح) انخفض من 83.7% في Opus 4.6 إلى 79.3%، خلف Gemini 3.1 Pro عند 85.9% وGPT-5.4 Pro عند 89.3%. لسير عمل الوكلاء المعتمد بشكل كبير على بحث الويب المفتوح (البحث العميق، مراقبة المنافسين)، قد يظل Gemini أو GPT الخيار الأقوى.
إعلان
ماذا يعني “طويل الأمد” فعلياً
يرتكز خطاب “الوكيل طويل الأمد” من Anthropic على ثلاث ادعاءات للقدرة، يرتبط كل منها بنتيجة منتج قابلة للقياس.
مقاومة الحلقات. كانت نماذج الوكلاء الأقدم كثيراً ما تتدهور إلى إجراءات متكررة عند مواجهة الغموض أو خطأ في أداة. يُقلّل Opus 4.7 ـ كما يُذكر ـ من وضع الفشل هذا، مما يسمح للوكيل بمواصلة مهمة تستغرق عدة ساعات بدلاً من التوقف وحرق الرموز في حلقة.
استرداد الخطأ. عندما يفشل استدعاء أداة أو يُعيد إخراجاً غير متوقع، يُحدد سلوك النموذج ما إذا كانت المهمة ستفشل كلياً أو تُعيد التوجيه حول العقبة. ادعاء Anthropic بثلث أخطاء استخدام الأدوات يُحسّن مباشرةً احتمال اكتمال سلسلة طويلة.
رؤية بدقة أعلى. يدعم Opus 4.7 صوراً تصل إلى 2,576 بكسل على الحافة الطويلة — أكثر من ثلاثة أضعاف الحد السابق. بالنسبة لوكلاء computer-use الذين يُحللون لقطات الشاشة الكاملة، يُترجم هذا إلى اكتشاف أفضل لعناصر الواجهة وأخطاء نسخ أقل، ويُفسّر القفزة الكبيرة على OSWorld-Verified (من 72.7% إلى 98.5% على درجات حدة البصر الفرعية).
هذا المزيج هو السبب في وصف Anthropic لـOpus 4.7 كنموذج يمكنه “العمل بشكل متماسك لساعات” — ليس لأن قدرة واحدة تحويلية، ولكن لأن معدل الخطأ المُركَّب عبر سلسلة وكيل طويلة أصبح الآن أقل بشكل ملحوظ.
ضوابط جديدة: xhigh، ميزانيات المهام، مراجعة الكود
ثلاث ميزات تشغيلية شُحنت مع النموذج وتهم المشترين من المؤسسات.
أولاً، قدّمت Anthropic مستوى جهد “xhigh” يقع بين إعدادَي “high” و”max” الموجودين — رافعة أدق على المقايضة بين التكلفة والدقة للمشاكل الصعبة. الفرق التي كانت تتنقل سابقاً بين السعة العدوانية وتجاوزات الميزانية، لديها الآن إعداد وسط.
ثانياً، تسمح ميزانيات المهام للمشغّلين بتحديد سقف إنفاق الاستدلال واستدعاء الأدوات لكل تشغيل وكيل. هذه استجابة مباشرة لوضع فشل شائع في وكلاء الإنتاج: مهمة واحدة جامحة تستهلك بصمت آلاف الدولارات في الرموز قبل أن يلاحظ أحد.
ثالثاً، جمعت Anthropic أدوات مراجعة Claude Code جديدة تهدف إلى مراجعة طلبات السحب التي يُنشئها وكلاء الذكاء الاصطناعي — سير عمل أصبح مركزياً لفرق الهندسة التي تستخدم Claude Code في الإنتاج.
الإطار التنافسي
توقيت Opus 4.7 ليس صدفة. منصة Frontier الخاصة بالمؤسسات من OpenAI (أُطلقت في فبراير 2026) وبروتوكول A2A من Google بالإضافة إلى Workspace Studio (أُعلن عنهما في Google Cloud Next 2026) وصلا في الربع نفسه. يدفع المزودون الثلاثة الآن نفس الأطروحة: المرحلة التالية من إيرادات الذكاء الاصطناعي تقوم على سير العمل طويل الأمد، متعدد الأدوات، متعدد الوكلاء — لا على أدوار الدردشة.
ميزة Anthropic في هذا الإطار هي المصداقية في موثوقية الوكلاء. كان Opus 4.6 قد رسّخ بالفعل Claude كنموذج افتراضي لوكلاء الترميز وسير عمل computer-use في كثير من منظومات المؤسسات، ويُمدّد 4.7 هذا التقدم على المعايير الأكثر ارتباطاً بهذه الاستخدامات. عيبه هو التوزيع على نطاق واسع: تمتلك OpenAI وGoogle محركات مبيعات مؤسسات أكبر وتكاملاً أوثق مع منظومات الإنتاجية القائمة، ونمو Anthropic في المؤسسات لا يزال يعتمد بشدة على قنوات الشركاء مثل AWS Bedrock وGoogle Vertex AI وMicrosoft Foundry — وجميعها تحمل Opus 4.7 من اليوم الأول.
بالنسبة لمعماري المؤسسات الذين يرسمون استراتيجية نماذج 2026، التداعيات العملية هي أن “أي نموذج أفضل” أصبح بشكل متزايد محدداً بسير العمل. فالترميز طويل الأمد، وأتمتة computer-use، ومهام SaaS الخلفية العميلة تُفضّل الآن Opus 4.7. بحث الويب المفتوح ونوافذ السياق الكبيرة جداً قد تُفضّل Gemini 3.1 Pro. عمليات النشر الاستهلاكية عالية التزامن بميزانيات زمن استجابة ضيقة قد تُفضّل GPT-5.4. الرهان على بائع واحد أصعب دفاعاً مما كان قبل عام.
الأسئلة الشائعة
لأي غرض تم تحسين Claude Opus 4.7؟
لسير عمل الوكلاء طويلة الأمد — مهام متعددة الساعات، متعددة الأدوات، متعددة الخطوات مثل وكلاء هندسة البرمجيات وأتمتة computer-use. ادعاء Anthropic هو أن Opus 4.7 يُقاوم الحلقات، ويتعافى من أخطاء الأدوات بشكل أكثر موثوقية، ويمكنه “العمل بشكل متماسك لساعات” على المشكلات الممتدة.
كيف يُقارَن Opus 4.7 بـGPT-5.4 وGemini 3.1 Pro؟
على SWE-bench Pro، يُسجّل Opus 4.7 64.3% مقابل GPT-5.4 عند 57.7% وGemini 3.1 Pro عند 54.2%. على OSWorld-Verified (computer use)، يصل Opus 4.7 إلى 78.0% مقابل 75.0% لـGPT-5.4. معايير الاستدلال مثل GPQA Diamond متعادلة فعلياً بين الثلاثة. على بحث الويب المفتوح (BrowseComp)، يتأخر Opus 4.7 عن كلا المنافسَين.
ماذا ينبغي على فرق المؤسسات فعله تالياً؟
أجرِ تقييمات متوازية على سير عمل الوكلاء المحدد الذي يُولّد معظم التكلفة أو آلام الموثوقية، واستخدم ضوابط ميزانية المهام الجديدة لوضع سقف للإنفاق الجامح، وتعامل مع “أفضل نموذج” باعتباره محدداً بسير العمل لا بالبائع. Opus 4.7 متاح اليوم عبر واجهة Anthropic API وAWS Bedrock وGoogle Vertex AI وMicrosoft Foundry.
المصادر والقراءات الإضافية
- Introducing Claude Opus 4.7 — Anthropic
- Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM — VentureBeat
- Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web
- Claude Opus 4.7 Benchmarks Explained — Vellum AI
- Anthropic releases Claude Opus 4.7, a less risky model than Mythos — CNBC






