نسب 92–97 % نجاحاً في اختراق نماذج LLM متعدد الجولات

نُشر في مايو 28, 2026 · بواسطة ALGERIATECH Editorial

⚡ أبرز النقاط

دراستان مستقلتان لعام 2026 — Cisco تختبر 8 نماذج LLM مفتوحة الأوزان، وورقة بحثية في Nature Communications بقلم Hagendorff وآخرين — تُثبتان أن هجمات الاختراق متعددة الجولات تنجح بنسبة 92–97 % ضد النماذج الكبرى frontier ومفتوحة الأوزان، مقارنة بنسب شبه معدومة على معايير الجولة الواحدة.

الخلاصة: لم تعد درجات الأمان أحادية الجولة معايير تحقق كافية. يجب على المؤسسات طلب الإفصاح عن معدلات نجاح الهجمات متعددة الجولات من موردي الذكاء الاصطناعي، وتطبيق ضمانات على مستوى المحادثة، ومراجعة تكوينات نشرها المحددة — لا الاكتفاء بمعايير النموذج الأساسي.

اقرأ التحليل الكامل ↓

🧭 رادار القرار

الأهمية بالنسبة للجزائر
عالي
▾

تواجه المؤسسات والبنوك والجهات الحكومية الجزائرية التي تتبنى أدوات قائمة على نماذج اللغة الكبيرة ذات سطح الهجوم متعدد الجولات الذي يواجهه نظراؤها في العالم، مع موارد أقل من الاختبار الأحمر المتخصص

البنية التحتية جاهزة؟
جزئي
▾

واجهات برمجة تطبيقات (API) اللغة الكبيرة المستضافة على السحابة متاحة؛ لكن أدوات الاختبار الأحمر متعدد الجولات المتخصصة والخبرة المحلية في أمن الذكاء الاصطناعي لا تزال شحيحة

المهارات متوفرة؟
جزئي
▾

يتوفر كفاءات في الأمن السيبراني (منظومة ASSI وDZ-CERT)، لكن الاختبار الخصومي متعدد الجولات لنماذج اللغة الكبيرة تخصص دقيق للغاية لا يُدرَّس أو يُمارَس بصورة منهجية بعد

الجدول الزمني للعمل
فوري
▾

يجب مراجعة أي نموذج لغة كبير قيد الإنتاج حالياً في مواجهة سيناريوهات الهجوم متعدد الجولات قبل دورة الشراء أو التكامل القادمة

أصحاب المصلحة الرئيسيون
كبار مسؤولي أمن المعلومات ومسؤولو الذكاء الاصطناعي في البنوك والاتصالات والفرق التقنية في القطاع العام بالجزائر؛ ASSI وDZ-CERT للتوجيهات الوطنية؛ لجان شراء تقنية المعلومات في الوزارات التي تتبنى مساعدين يعتمدون الذكاء الاصطناعي

نوع القرار
استراتيجي
▾

Assessment: استراتيجي. Review the full article for detailed context and recommendations.

خلاصة سريعة: يجب على المؤسسات الجزائرية التي تنشر أي نموذج لغة كبير تجاري — سواء عبر واجهة برمجية (API) أو محلياً — أن تعامل مرونة الهجمات متعددة الجولات كمتطلب شراء وكالتزام برصد ما بعد النشر. تؤكد نتائج Cisco وNature أن درجات الأمان أحادية الجولة معايير فحص غير كافية. ريثما تنضج القدرة المحلية على الاختبار الأحمر، يُعدّ التعاقد مع موردين يمتلكون أرقام ASR متعددة الجولات موثّقة، وطلب تكوينات لاحقة الأمان الثابتة، أبرز إجرائين يمكن اتخاذهما قريباً.

الفجوة بين أمان الجولة الواحدة وواقع الجولات المتعددة

كل معيار لأمان نماذج اللغة الكبيرة يستحق الاستشهاد به مبني على تفاعلات أحادية الجولة: طلب واحد، استجابة واحدة، حكم واحد. كان لهذا المنهج مسوّغه التشغيلي عام 2022 حين كانت روبوتات المحادثة مجرد ظاهرة ناشئة. في عام 2026، باتت هذه النماذج ذاتها مدمجة في خطوط أنابيب دعم العملاء، ووكلاء مراجعة الأكواد، والمساعدين الصحيين، وأدوات سير العمل المستقلة — وهي أنظمة تحتفظ بالسياق عبر عشرات أو مئات الجولات. ولم يواكب نموذج الاختبار أحادي الجولة هذا التطور.

نشر فريق Cisco AI Defense أوضح دليل تجريبي على هذه الفجوة مطلع عام 2026. باختبار ثمانية نماذج لغة كبيرة مفتوحة الأوزان بتكوين صندوق أسود — دون معرفة مسبقة ببنية الحماية لكل نموذج — نفّذوا نحو 30,000 طلباً أحادي الجولة إلى جانب 7,000 تسلسل هجوم متعدد الجولات تغطي أكثر من 1,400 محادثة. النتيجة: فشل Mistral Large-2 في صد 92.78 % من الهجمات متعددة الجولات، وهو الأعلى في المجموعة؛ فيما سجّل Google Gemma-3-1B-IT الأدنى بنسبة 25.86 %. وأظهر كل نموذج في المجموعة معدلات نجاح هجوم متعدد الجولات أعلى بمرتين إلى عشر مرات من الخطوط الأساسية للهجمات أحادية الجولة.

شملت النماذج المُقيَّمة: Alibaba Qwen3-32B، وDeepSeek v3.1، وGoogle Gemma-3-1B-IT، وMeta Llama 3.3-70B-Instruct، وMicrosoft Phi-4، وMistral Large-2، وOpenAI GPT-OSS-20b، وZhipu AI GLM 4.5-Air — وهي مجموعة تمثيلية لما تنشره فرق المؤسسات حالياً.

وجاءت دراسة Cisco منفصلة في مايو 2026 تغطي 15 نموذجاً frontier مغلقاً من OpenAI وAnthropic وGoogle وAmazon وxAI لتعزز هذه النتيجة على مستوى النماذج المتقدمة. إذ بلغ معدل نجاح هجمات Grok 4.1 Fast متعددة الجولات 88 %. وقفز Gemini 3 Pro من نحو 18 % فشلاً في الجولة الواحدة إلى 73 % في الجولات المتعددة — فارق 55 نقطة. بل إن أفضل المتصدين، عائلة Claude من Anthropic، سجّلت معدلات فشل متعددة الجولات تراوحت بين 11 % و16 % رغم انكشافها شبه المعدوم في الجولة الواحدة. وأظهر أكثر من نصف النماذج الخمسة عشر فجوة مطلقة تتجاوز 15 نقطة مئوية بين نظامَي الاختبار.

نماذج التفكير كعوامل اختراق مستقلة

تعاملت أبحاث Cisco مع المهاجم بوصفه إنساناً — متخصصاً في الاختبار الأحمر يستخدم تبني الأدوار والغموض السياقي وإعادة صياغة الرفض وتكتيكات التصعيد. أما دراسة نشرتها Nature Communications بقلم Hagendorff وآخرين في الوقت ذاته، فقد طرحت سؤالاً أشد إثارة للقلق: ماذا يحدث حين يكون المهاجم ذاته نموذج تفكير كبيراً؟

منحت الدراسة أربعة نماذج تفكير كبيرة — DeepSeek-R1 وGemini 2.5 Flash وGrok 3 Mini وQwen3 235B — طلباً واحداً للنظام يوجّهها إلى “التخطيط لعمليات الاختراق وتنفيذها دون إشراف إضافي”. وأجرى كل نموذج محادثات من عشر جولات ضد تسعة نماذج مستهدفة عبر 70 طلباً ضاراً يغطي سبع فئات حساسة: من تركيب الأسلحة إلى التلاعب الاجتماعي. قيّم ثلاثة قضاة من نماذج اللغة الكبيرة جميع الاستجابات على مقياس من 0 إلى 5 للضرر، مولّدين 25,200 طلباً إجمالياً لنماذج الهدف للتحليل.

بلغ معدل نجاح الاختراق الإجمالي عبر جميع توليفات المهاجم والهدف 97.14 %. وتباينت أداءات المهاجمين الأفراد تبايناً ملحوظاً: حقق DeepSeek-R1 أعلى درجة ضرر بنسبة 90 %؛ وبلغ Grok 3 Mini 87.14 %؛ وحقق Gemini 2.5 Flash 71.43 %؛ فيما جاء Qwen3 235B استثناءً بنسبة 12.86 %. على صعيد الدفاع، أظهر Claude 4 Sonnet مقاومة أعلى نسبياً، بينما تبيّن أن DeepSeek-V3 أكثر قابلية للاختراق. وشمل مجموعة النماذج المستهدفة: GPT-4o وClaude 4 Sonnet وDeepSeek-V3 وLlama 3.1 70B وLlama 4 Maverick وo4-mini وGemini 2.5 Flash وGrok 3 وQwen3 30B.

الاستنتاج البنيوي الرئيسي: لا تحتاج نماذج التفكير إلى مكتبات اختراق، ولا قوالب طلبات، ولا خبرة بشرية. تتيح لها قدراتها الموسّعة في التفكير السلسلي التكيّف الديناميكي مع استراتيجيات الهجوم أثناء المحادثة، وتشخيص أنماط الرفض، والانتقال إلى زوايا جديدة — وهو بالضبط النوع من السلوك الذي يُفكك تدريب السلامة أحادي الجولة.

ما يجب على فرق الأمن والذكاء الاصطناعي فعله

تستدعي الدراستان معاً استجابة تشغيلية ملموسة. التهديد ليس نظرياً: يمكن للمهاجمين الذين يستخدمون نماذج تفكير متاحة مجاناً أن يستخرجوا اليوم مخرجات ضارة من النماذج المتقدمة التي تستخدمها مؤسستك.

1. استبدال معايير الجولة الواحدة بالاختبار الأحمر متعدد الجولات كشرط للنشر

لا ينبغي أن يدخل أي نموذج الإنتاج دون وجود معدلات موثّقة لنجاح الهجمات متعددة الجولات مختبَرة على التدفقات المحادثاتية التي يتيحها حالة الاستخدام المحددة. تُشكّل منهجية Cisco — 7,000 تسلسل متعدد الجولات عبر 1,400+ محادثة — الآن حداً مرجعياً معقولاً للاختبار الأحمر في المؤسسات. على فرق الأمن طلب هذه البيانات من الموردين قبل أي عملية شراء، وبناء قدرة اختبار داخلية لكل نسخة مضبوطة دقيقة.

تحديداً، توصي Cisco بأن تشترط المؤسسات نشر النماذج على غياب أي تراجع في عائلات الإجراءات الهجومية الثلاث الأولى (باستخدام عتبة 3 نقاط)، وأن تُعلّم أي نموذج يُظهر فجوة بين النظامين تتجاوز 15 نقطة للمراجعة اليدوية الإلزامية قبل إقرار الإنتاج.

2. تطبيق ضمانات أمنية واعية بالسياق تتابع تاريخ المحادثة

تستغل تقنيات هجوم Cisco — تبني الأدوار والغموض السياقي وإعادة صياغة الرفض وتحليل المعلومات وتكتيكات التصعيد — جميعها حقيقةَ أن معظم أنظمة الحماية تُقيّم كل رسالة بمعزل عن غيرها. رسالة تبدو حميدة في الجولة السادسة من محادثة قد تكون مختلفة جوهرياً حين تُقرأ في ضوء الجولات من الأولى إلى الخامسة.

تحتاج المؤسسات التي تنشر نماذج اللغة الكبيرة في سياقات عاملية أو جلسات طويلة إلى ضمانات تحتفظ بنموذج تهديد على مستوى المحادثة: تتابع الانجراف الدلالي عبر الجولات، وتُنذر بأنماط التصعيد التدريجي، وتُطلق إيقافات صارمة — لا مجرد رفض — حين تتجاوز محادثة ما عتبة مخاطرة معينة. هذه مشكلة هندسية مختلفة جوهرياً عن بناء مصنّف محتوى يعمل على طلب واحد.

3. اختبار تكوين نشرك المحدد — لا النموذج الأساسي فقط

من أكثر نتائج دراسة Cisco على النماذج المتقدمة أهمية عملية تأثير أعلام التكوين على معدلات نجاح الهجمات. وصل Grok 4.1 Fast في وضع عدم التفكير إلى 88 % من معدل نجاح الهجمات متعددة الجولات. وانخفض النموذج ذاته مع تفعيل وضع التفكير إلى نحو 44 % — انخفاض 40 نقطة بمجرد تغيير إعداد التكوين. وهذا يعني أن المرونة أمام الهجمات متعددة الجولات ليست خاصية ثابتة لإصدار نموذج معين؛ بل هي دالة تعتمد على كيفية تكوين النموذج ونشره.

على فرق الأمن اختبار تكوين الإنتاج الفعلي — طلب النظام ومعاملات نافذة السياق وإعدادات استخدام الأدوات وأعلام وضع التفكير — لا الاعتماد على نتائج المعايير المنشورة من الموردين. كما تُشير نتيجة Hagendorff وآخرين بأن إلحاق لاحقة أمان ثابتة بكل رسالة واردة قلّل من فعالية الهجمات التي يقودها النماذج الكبيرة، مما يُقترح تجريبه كإجراء تخفيف عملي.

المشكلة البنيوية التي لا يحلّها التوافق وحده

نسبة النجاح البالغة 92–97 % ليست تصريحاً بأن نموذجاً بعينه سيئ التوافق. GPT-4o وClaude 4 Sonnet وGemini — ثلاثة من أكثر النماذج تدريباً دقيقاً على السلامة في النشر التجاري — يظهرون جميعاً ضمن المجموعة المستهدفة في دراسة Nature Communications، وجميعهم واجهوا معدلات نجاح اختراق معتبرة عبر تسلسلات الهجوم التي امتدت عشر جولات.

الاستبصار البنيوي هو أن تدريب التوافق الأمني يُجرى بصورة رئيسية على بيانات أحادية الجولة وثابتة. حين يُكرر نموذج تفكير قادر عبر عشر جولات، مُكيّفاً متجه هجومه بناءً على كل رفض، فهو يعمل في توزيع لم تشهده معظم تدريبات السلامة قط. ليس هذا فشلاً في الجهد أو النية — بل عدم تطابق بين منهجية التدريب وواقع النشر.

سيتطلب سد هذه الفجوة أن يتبنّى القطاع التدريب الخصومي متعدد الجولات على نطاق واسع، ويفرض الإفصاح عن السلامة متعددة الجولات في بطاقات النماذج، ويُطوّر معايير موحّدة تعكس السياق المحادثاتي في الإنتاج. على المختصين في الأمن، الخلاصة الآنية واضحة: درجة الأمان في بطاقة النموذج تُخبرك بأدائه حين يستسلم المهاجم بعد محاولة واحدة. في عام 2026، لا يستسلم المهاجمون — بشراً كانوا أم آلات — بعد محاولة واحدة.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn

تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

الأسئلة الشائعة

ما هو هجوم الاختراق متعدد الجولات ولماذا هو أخطر من هجوم الجولة الواحدة؟

الاختراق متعدد الجولات هو تسلسل من الرسائل المحادثاتية يوجّه نموذج اللغة الكبير تدريجياً نحو إنتاج مخرجات ضارة أو تنتهك السياسات. على عكس الهجوم أحادي الجولة — حيث يُرسل المهاجم طلباً واحداً مُصاغاً — يستغل الهجوم متعدد الجولات ذاكرة النموذج للجولات المحادثاتية السابقة، مستخدماً تقنيات كتصعيد الأدوار وإعادة صياغة الرفض والتلاعب السياقي التدريجي. وهو أخطر لأن معظم التوافق الأمني مُدرَّب على بيانات أحادية الجولة، مما يتركهما دون دفاعات كافية ضد التسلسلات الخصومية التي تتراكم عبر عشر جولات أو أكثر.

ما النماذج المحددة التي أظهرت أعلى مقاومة وأدناها للهجمات متعددة الجولات؟

في دراسة Cisco للنماذج مفتوحة الأوزان، كان Mistral Large-2 الأكثر عرضة للاختراق بمعدل 92.78 %؛ فيما كان Google Gemma-3-1B-IT الأقل بنسبة 25.86 %. وفي دراسة Cisco للنماذج المتقدمة، سجّلت عائلة Claude من Anthropic أدنى معدلات فشل متعددة الجولات (11–16 %)، بينما بلغ Grok 4.1 Fast في وضع عدم التفكير الأعلى بنسبة 88 %. وفي دراسة Nature Communications، كان Qwen3 235B الأقل فعالية كعامل مهاجم مستقل بنسبة 12.86 %، في حين كان DeepSeek-R1 الأكثر فعالية بنسبة أقصى ضرر بلغت 90 %.

ما الخطوة الأكثر تأثيراً التي يمكن للمؤسسة اتخاذها الآن لتقليل مخاطر الاختراق متعدد الجولات؟

تطبيق ضمانات أمنية على مستوى المحادثة بدلاً من مرشّحات المحتوى لكل رسالة على حدة. إذ تفتقر الأدوات التي تُقيّم كل رسالة بمعزل إلى رصد أنماط التصعيد التي تستغلها الهجمات متعددة الجولات. ويُكمّل ذلك إجراء تدقيق على التكوين — التحقق من أن أوضاع التفكير ولاحقات الأمان مضبوطة بصورة صحيحة لحالة نشرك المحددة — للتعامل مع النتيجة التي تفيد بأن التكوين وحده قد يُحوّل معدلات نجاح الهجمات بمقدار 40 نقطة مئوية أو أكثر.