إصدار يستهدف الوكلاء لا الدردشة
أطلقت Anthropic إصدار Claude Opus 4.7 في 16 أبريل 2026، بعد نحو شهرين من Opus 4.6. كان التأطير الرئيسي صريحاً: هذا نموذج مُحسَّن لسير عمل الوكلاء طويلة الأمد، لا للدردشة. لغة التموضع لدى الشركة — “العمل الذي كان يتطلب إشرافاً دقيقاً يمكن الآن تسليمه بثقة” — تستهدف مباشرة سوق وكلاء المؤسسات الذي يتنازع عليه الآن كل من OpenAI وGoogle وAnthropic.
يظل التسعير عند 5 دولارات لكل مليون رمز إدخال و25 دولاراً لكل مليون رمز إخراج، دون تغيير عن Opus 4.6. هذا الاستقرار مهم: تهتم فرق المشتريات في الشركات بإمكانية التنبؤ في التسعير، والحفاظ على الخط مع تقديم مكاسب قدرة قابلة للقياس هو نوع الحركة التي تمنع العقود الكبيرة من الانزلاق.
صورة المعايير المرجعية
في المعايير المرجعية الأهم لسير عمل الوكلاء، يستعيد Opus 4.7 بفارق ضيق المركز الأول بين نماذج الذكاء الاصطناعي المتقدمة المتاحة عموماً.
- SWE-bench Verified: 87.6% — قفزة من 80.8% في Opus 4.6 ومتقدماً على Gemini 3.1 Pro عند 80.6%
- SWE-bench Pro (النسخة متعددة اللغات الأصعب): 64.3% — متقدماً على GPT-5.4 عند 57.7% وGemini 3.1 Pro عند 54.2%
- OSWorld-Verified (معيار وكيل computer-use): 78.0%، ارتفاعاً من 72.7% في Opus 4.6 ومتقدماً على GPT-5.4 عند 75.0%
- GPQA Diamond (استدلال مستوى الدراسات العليا): 94.2%، وهو فعلياً على قدم المساواة مع Gemini 3.1 Pro (94.3%) وGPT-5.4 Pro (94.4%) — هذا المعيار يقترب من التشبع على مستوى الحدود
- الاستدلال العميل متعدد الخطوات: تحسّن مُعلَن بنسبة 14% مقارنة بـOpus 4.6، مع نحو ثلث معدل خطأ استخدام الأدوات
المجال الوحيد الذي يتراجع فيه Opus 4.7 بشكل ملحوظ: BrowseComp (بحث الويب المفتوح) انخفض من 83.7% في Opus 4.6 إلى 79.3%، خلف Gemini 3.1 Pro عند 85.9% وGPT-5.4 Pro عند 89.3%. لسير عمل الوكلاء المعتمد بشكل كبير على بحث الويب المفتوح (البحث العميق، مراقبة المنافسين)، قد يظل Gemini أو GPT الخيار الأقوى.
ماذا يعني “طويل الأمد” فعلياً
يرتكز خطاب “الوكيل طويل الأمد” من Anthropic على ثلاث ادعاءات للقدرة، يرتبط كل منها بنتيجة منتج قابلة للقياس.
مقاومة الحلقات. كانت نماذج الوكلاء الأقدم كثيراً ما تتدهور إلى إجراءات متكررة عند مواجهة الغموض أو خطأ في أداة. يُقلّل Opus 4.7 ـ كما يُذكر ـ من وضع الفشل هذا، مما يسمح للوكيل بمواصلة مهمة تستغرق عدة ساعات بدلاً من التوقف وحرق الرموز في حلقة.
استرداد الخطأ. عندما يفشل استدعاء أداة أو يُعيد إخراجاً غير متوقع، يُحدد سلوك النموذج ما إذا كانت المهمة ستفشل كلياً أو تُعيد التوجيه حول العقبة. ادعاء Anthropic بثلث أخطاء استخدام الأدوات يُحسّن مباشرةً احتمال اكتمال سلسلة طويلة.
رؤية بدقة أعلى. يدعم Opus 4.7 صوراً تصل إلى 2,576 بكسل على الحافة الطويلة — أكثر من ثلاثة أضعاف الحد السابق. بالنسبة لوكلاء computer-use الذين يُحللون لقطات الشاشة الكاملة، يُترجم هذا إلى اكتشاف أفضل لعناصر الواجهة وأخطاء نسخ أقل، ويُفسّر القفزة الكبيرة على OSWorld-Verified (من 72.7% إلى 98.5% على درجات حدة البصر الفرعية).
هذا المزيج هو السبب في وصف Anthropic لـOpus 4.7 كنموذج يمكنه “العمل بشكل متماسك لساعات” — ليس لأن قدرة واحدة تحويلية، ولكن لأن معدل الخطأ المُركَّب عبر سلسلة وكيل طويلة أصبح الآن أقل بشكل ملحوظ.
إعلان
ضوابط جديدة: xhigh، ميزانيات المهام، مراجعة الكود
ثلاث ميزات تشغيلية شُحنت مع النموذج وتهم المشترين من المؤسسات.
أولاً، قدّمت Anthropic مستوى جهد “xhigh” يقع بين إعدادَي “high” و”max” الموجودين — رافعة أدق على المقايضة بين التكلفة والدقة للمشاكل الصعبة. الفرق التي كانت تتنقل سابقاً بين السعة العدوانية وتجاوزات الميزانية، لديها الآن إعداد وسط.
ثانياً، تسمح ميزانيات المهام للمشغّلين بتحديد سقف إنفاق الاستدلال واستدعاء الأدوات لكل تشغيل وكيل. هذه استجابة مباشرة لوضع فشل شائع في وكلاء الإنتاج: مهمة واحدة جامحة تستهلك بصمت آلاف الدولارات في الرموز قبل أن يلاحظ أحد.
ثالثاً، جمعت Anthropic أدوات مراجعة Claude Code جديدة تهدف إلى مراجعة طلبات السحب التي يُنشئها وكلاء الذكاء الاصطناعي — سير عمل أصبح مركزياً لفرق الهندسة التي تستخدم Claude Code في الإنتاج.
الإطار التنافسي
توقيت Opus 4.7 ليس صدفة. منصة Frontier الخاصة بالمؤسسات من OpenAI (أُطلقت في فبراير 2026) وبروتوكول A2A من Google بالإضافة إلى Workspace Studio (أُعلن عنهما في Google Cloud Next 2026) وصلا في الربع نفسه. يدفع المزودون الثلاثة الآن نفس الأطروحة: المرحلة التالية من إيرادات الذكاء الاصطناعي تقوم على سير العمل طويل الأمد، متعدد الأدوات، متعدد الوكلاء — لا على أدوار الدردشة.
ميزة Anthropic في هذا الإطار هي المصداقية في موثوقية الوكلاء. كان Opus 4.6 قد رسّخ بالفعل Claude كنموذج افتراضي لوكلاء الترميز وسير عمل computer-use في كثير من منظومات المؤسسات، ويُمدّد 4.7 هذا التقدم على المعايير الأكثر ارتباطاً بهذه الاستخدامات. عيبه هو التوزيع على نطاق واسع: تمتلك OpenAI وGoogle محركات مبيعات مؤسسات أكبر وتكاملاً أوثق مع منظومات الإنتاجية القائمة، ونمو Anthropic في المؤسسات لا يزال يعتمد بشدة على قنوات الشركاء مثل AWS Bedrock وGoogle Vertex AI وMicrosoft Foundry — وجميعها تحمل Opus 4.7 من اليوم الأول.
بالنسبة لمعماري المؤسسات الذين يرسمون استراتيجية نماذج 2026، التداعيات العملية هي أن “أي نموذج أفضل” أصبح بشكل متزايد محدداً بسير العمل. فالترميز طويل الأمد، وأتمتة computer-use، ومهام SaaS الخلفية العميلة تُفضّل الآن Opus 4.7. بحث الويب المفتوح ونوافذ السياق الكبيرة جداً قد تُفضّل Gemini 3.1 Pro. عمليات النشر الاستهلاكية عالية التزامن بميزانيات زمن استجابة ضيقة قد تُفضّل GPT-5.4. الرهان على بائع واحد أصعب دفاعاً مما كان قبل عام.
ما الذي ينبغي لمعماري المؤسسات فعله مع Opus 4.7
1. أجرِ تقييمات متوازية على أكثر سير عمل الوكلاء تكلفةً في السبرينت الحالي
ابدأ بسير العمل الأطول تشغيلاً والأعلى معدلات فشل — فهي الأرجح أن يُحسّن فيها Opus 4.7 الموثوقية بشكل قابل للقياس. أنشئ مجموعة تقييم بسيطة: سجّل معدلات الاكتمال، وعدد استدعاءات الأدوات لكل مهمة، والتكلفة الإجمالية لكل نتيجة. قارن Opus 4.7 بإعداد Opus 4.6 أو GPT-5.4 الحالي على المدخلات ذاتها تماماً. إذا تأكّد انخفاض معدل الخطأ بمقدار الثلث على بياناتك الفعلية، فإن تحليل التكلفة والفائدة يتوسع بشكل كبير عما تشير إليه المعايير المرجعية العامة.
2. فعّل ميزانيات المهام فوراً — حتى قبل تغيير النموذج
ميزانيات المهام هي الحاجز الواقي الأكثر أثراً الذي تضمّنه هذا الإصدار، بغض النظر عن النموذج المستخدم. وكيل واحد بلا قيود يمكنه صمتاً استهلاك آلاف الدولارات في الرموز قبل أن يُطلق أي تنبيه. حدّد سقوفاً لكل سير عمل اليوم — ابدأ باحتياط بضعف متوسط التكلفة المُلاحظ لكل مهمة — وعدّل للأعلى فقط حين تُظهر التقييمات أن مهاماً مشروعة تقترب من الحد. يحميك هذا الإجراء من الحلقات غير المتوقعة بصرف النظر عن LLM الذي يعمل.
3. وجّه حسب سير العمل لا حسب النموذج — Opus 4.7 للترميز وcomputer-use، وGemini أو GPT للبحث
القرار المعماري الأعلى أثراً ليس اختيار نموذج واحد — بل رسم خريطة أنواع سير العمل على النماذج المُحسَّنة لتلك الأنواع. يُظهر Opus 4.7 الآن ثغرات موثّقة على BrowseComp (79.3% مقابل 89.3% لـGPT-5.4 Pro) مما يجعل التوجيه الهجين مُبرَّراً من الناحية التقنية. أنشئ طبقة توجيه خفيفة ترسل مهام الترميز طويل الأمد وcomputer-use إلى Opus 4.7، وسير عمل التحقيق المفتوح على الويب إلى Gemini 3.1 Pro أو GPT-5.4، والمهام السريعة لاسترجاع الحقائق إلى النموذج ذي أقل تأخير في منظومتك. هكذا تُدير فرق الهندسة المتقدمة عدة موردي نماذج في 2026.
مكانة هذا في منظومة نماذج الذكاء الاصطناعي لعام 2026
يصل Claude Opus 4.7 في لحظة يُجري فيها سوق الذكاء الاصطناعي للمؤسسات أول محاولة جدية للانتقال من العرض التجريبي إلى النشر الواسع. تمثّل منصة Frontier من OpenAI وبروتوكول A2A من Google وراهن Anthropic على الوكلاء طويلة الأمد جميعها متغيرات لأطروحة واحدة: مرحلة الإيرادات القادمة للذكاء الاصطناعي ليست أدوار المحادثة، بل سير عمل متعددة الساعات ومتعددة الأدوات تُنفّذ العمليات التجارية بحد أدنى من الإشراف البشري. المنافسة في المعايير — SWE-bench وOSWorld وGPQA Diamond — وسيلة لهذه الأطروحة لا الأطروحة نفسها.
الدلالة العملية لمعماريي المؤسسات أن 2026 هو العام الذي يُصبح فيه اختيار النموذج خاصاً بسير العمل لا بالمورّد. الرهان على مورّد واحد — الالتزام بعائلة نماذج وتطبيقها على كل حالة استخدام — كان منطقياً حين كانت فوارق القدرة بين النماذج الرائدة كبيرة وتكاليف التبديل مرتفعة. اليوم، مع تصدر Opus 4.7 على وكلاء الترميز وGemini 3.1 Pro على بحث الويب المفتوح وGPT-5.4 Pro على تطبيقات المستهلك عالية التزامن، قرار التوجيه قابل للقياس وتكلفة التبديل عبر AWS Bedrock أو Google Vertex AI منخفضة. المنظمات التي تُقيّم حسب سير العمل لا حسب المورّد ستستخرج أداءً وتكلفة أفضل قياساً لكل مهمة مُكتملة.
السؤال الهيكلي بعيد المدى هو ما إذا كانت موثوقية الذكاء الاصطناعي الوكيل تتحسن بالسرعة الكافية لتبرير أطر الحوكمة — ميزانيات المهام ومسارات التدقيق وقواعد التصعيد البشري — التي تبدأ لجان مخاطر المؤسسات في اشتراطها. تقليص Opus 4.7 لمعدل أخطاء استدعاء الأدوات بمقدار الثلث تقدّمٌ؛ لكنه لم يبلغ بعد مستوى الموثوقية الذي يُتيح نشر وكلاء غير مُشرَف عليهم كلياً لعمليات تجارية ذات أثر.
الأسئلة الشائعة
لأي غرض تم تحسين Claude Opus 4.7؟
لسير عمل الوكلاء طويلة الأمد — مهام متعددة الساعات، متعددة الأدوات، متعددة الخطوات مثل وكلاء هندسة البرمجيات وأتمتة computer-use. ادعاء Anthropic هو أن Opus 4.7 يُقاوم الحلقات، ويتعافى من أخطاء الأدوات بشكل أكثر موثوقية، ويمكنه “العمل بشكل متماسك لساعات” على المشكلات الممتدة.
كيف يُقارَن Opus 4.7 بـGPT-5.4 وGemini 3.1 Pro؟
على SWE-bench Pro، يُسجّل Opus 4.7 64.3% مقابل GPT-5.4 عند 57.7% وGemini 3.1 Pro عند 54.2%. على OSWorld-Verified (computer use)، يصل Opus 4.7 إلى 78.0% مقابل 75.0% لـGPT-5.4. معايير الاستدلال مثل GPQA Diamond متعادلة فعلياً بين الثلاثة. على بحث الويب المفتوح (BrowseComp)، يتأخر Opus 4.7 عن كلا المنافسَين.
ماذا ينبغي على فرق المؤسسات فعله تالياً؟
أجرِ تقييمات متوازية على سير عمل الوكلاء المحدد الذي يُولّد معظم التكلفة أو آلام الموثوقية، واستخدم ضوابط ميزانية المهام الجديدة لوضع سقف للإنفاق الجامح، وتعامل مع “أفضل نموذج” باعتباره محدداً بسير العمل لا بالبائع. Opus 4.7 متاح اليوم عبر واجهة Anthropic API وAWS Bedrock وGoogle Vertex AI وMicrosoft Foundry.
المصادر والقراءات الإضافية
- Introducing Claude Opus 4.7 — Anthropic
- Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM — VentureBeat
- Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web
- Claude Opus 4.7 Benchmarks Explained — Vellum AI
- Anthropic releases Claude Opus 4.7, a less risky model than Mythos — CNBC














