المقدمة
اسأل مطوراً أن يقيّم ما إذا كانت مخرجات أداة الذكاء الاصطناعي الخاصة به “جيدة”، وستحصل على هزة كتفين وربما وإجابة تتغير حسب اليوم. اسأله ما إذا كانت المخرجات تحتوي على أقل من 300 كلمة، وستحصل على نعم أو لا قاطعة.
هذا التمييز بين الحكم الذاتي والقياس الثنائي هو أحد أهم المفاهيم في ضمان جودة الذكاء الاصطناعي اليوم. وهو أيضاً المفهوم الذي تتجاهله تماماً معظم الفرق التي تبني تطبيقات مدعومة بالذكاء الاصطناعي.
التأكيدات الثنائية هي اختبارات بسيطة صحيح/خطأ تُطبَّق على مخرجات الذكاء الاصطناعي. هل يحتوي النص على تنسيق معين؟ هل السطر الأول جملة مستقلة؟ هل تتضمن الإجابة إحصائية واحدة على الأقل؟ هل عدد الكلمات أقل من الحد المطلوب؟ كل سؤال له إجابة واحدة فقط: نعم أو لا. نجاح أو فشل.
هذه البساطة هي الهدف بالتحديد. عندما يكون كل معيار جودة ثنائياً، تصبح الجودة رقماً. وعندما تصبح الجودة رقماً، يمكن تتبعها ومقارنتها وتحسينها بشكل منهجي.
المفهوم ليس نظرياً فحسب. فقد بنت أطر عمل مفتوحة المصدر مثل Promptfoo وDeepEval أنظمة تقييم كاملة حول التأكيدات الحتمية، مما يوفر لفرق التطوير أدوات جاهزة للإنتاج. وفي الوقت نفسه، تُظهر أبحاث مشروع DSPy من Stanford أنه عندما تغذي التأكيدات حلقات التحسين الآلية، يمكن لأنظمة النماذج اللغوية الكبيرة تحسين أدائها دون تدخل بشري.
مشكلة التقييم الذاتي
تقيّم معظم الفرق مخرجات الذكاء الاصطناعي بنفس الطريقة التي تقيّم بها طعام المطعم: “هذا يبدو صحيحاً” أو “هذا لا يبدو صحيحاً تماماً”. هذا النهج يعاني من ثلاثة عيوب جوهرية.
نتائج غير حتمية
اعرض نفس مخرجات الذكاء الاصطناعي على نفس المقيّم في يومين مختلفين وستحصل غالباً على تقييمات مختلفة. اعرضها على مقيّمين مختلفين وسيتسع التباين أكثر. أظهرت الأبحاث في مجال تقييم النماذج اللغوية الكبيرة باستمرار أن المقيّمين البشريين يُظهرون تبايناً كبيراً بين المقيّمين عند تسجيل جودة النصوص المفتوحة. عندما لا يكون القياس متسقاً، يصبح التحسين مستحيلاً لأنك لا تستطيع تحديد ما إذا كان التغيير قد ساعد أم أن مزاج المقيّم قد تغير.
عملية غير قابلة للأتمتة
يتطلب التقييم الذاتي أن يقرأ إنسان كل مخرجات. هذا يخلق اختناقاً يمنع التكرار السريع. إذا كان تحسين موجّه يتطلب 50 دورة اختبار، وكل دورة تتطلب تقييماً بشرياً، فإن التحسين يستغرق أسابيع. إذا كان التقييم آلياً، يمكن تنفيذ تلك الدورات الخمسين خلال الليل.
هذا هو السبب تحديداً في تبني مجتمع اختبار النماذج اللغوية الكبيرة لأنواع التأكيدات الحتمية. يوفر Promptfoo، أحد أكثر أدوات التقييم مفتوحة المصدر اعتماداً، أنواع تأكيدات مثل contains وregex وequals ودوال JavaScript مخصصة تنتج نتائج ثنائية نجاح/فشل دون أي تدخل بشري. يتبنى DeepEval نهجاً مماثلاً مع دالته assert_test()، المستوحاة من Pytest لكنها متخصصة لتطبيقات النماذج اللغوية الكبيرة.
تغذية راجعة غير قابلة للتنفيذ
“هذه المخرجات تستحق 6 من 10” لا تخبر النظام بأي شيء عما يجب تغييره. أي جانب حصل على الـ 6؟ البنية؟ الطول؟ النبرة؟ التنسيق؟ بدون تغذية راجعة محددة وموجهة، لا يمكن للنظام إلا إجراء تغييرات عشوائية على أمل أن يحسّن أحدها النتيجة.
تحل التأكيدات الثنائية هذه المشكلة بتحليل الجودة إلى معايير فردية مسماة. عندما يفشل التأكيد رقم 14 (“عدد الكلمات أقل من 300”) بينما تنجح التأكيدات من 1 إلى 13، يعرف كل من المطور وأي حلقة تحسين آلية بالضبط ما يجب إصلاحه.
كيف تبدو التأكيدات الثنائية عملياً
تختبر التأكيدات الثنائية معياراً واحداً محدداً وقابلاً للقياس لكل تأكيد. فيما يلي أمثلة عبر مجالات مختلفة تستخدمها الفرق في الإنتاج اليوم.
توليد المحتوى
| التأكيد | ما يختبره |
|---|---|
| السطر الأول جملة مستقلة (ليس جزءاً من فقرة) | بنية الخطاف |
| يحتوي على رقم أو إحصائية محددة واحدة على الأقل | إشارات المصداقية |
| السطر الأخير ليس سؤالاً | أسلوب الدعوة للعمل |
| إجمالي عدد الكلمات أقل من 300 | الإيجاز |
| لا يحتوي على شرطات طويلة | تنسيق العلامة التجارية |
| يحتوي على فاصل سطر واحد على الأقل يخلق فصلاً بصرياً | قابلية القراءة |
| يشير إلى مفهوم واحد على الأقل من ملف إرشادات العلامة التجارية | الوعي بالسياق |
توليد الشفرة البرمجية
| التأكيد | ما يختبره |
|---|---|
| المخرجات تُترجم دون أخطاء | الصحة الأساسية |
| جميع أسماء الدوال تستخدم camelCase | اتفاقيات التسمية |
| لا تتجاوز أي دالة 50 سطراً | تنظيم الشفرة |
| لا توجد قيم نصية مشفرة خارج الثوابت | قابلية الصيانة |
| يتضمن تعليقاً واحداً على الأقل لكل دالة | التوثيق |
| جميع الاستيرادات في أعلى الملف | البنية |
| لا توجد تعليمات console.log في المخرجات | الجاهزية للإنتاج |
البريد الإلكتروني والتواصل
| التأكيد | ما يختبره |
|---|---|
| سطر الموضوع أقل من 50 حرفاً | أفضل ممارسات البريد الإلكتروني |
| الفقرة الأولى أقل من 3 جمل | قابلية المسح |
| يحتوي على دعوة واحدة بالضبط للعمل | التركيز |
| لا يستخدم كلمة “تآزر” | صوت العلامة التجارية |
| يتضمن اسم المستلم في الافتتاحية | التخصيص |
| إجمالي طول البريد الإلكتروني أقل من 200 كلمة | الإيجاز |
في تكوين YAML الخاص بـ Promptfoo، تترجم هذه التأكيدات مباشرة إلى تعريفات اختبار. يتحقق تأكيد contains من السلاسل المطلوبة. يتحقق تأكيد regex من صحة الأنماط. ينفذ تأكيد javascript منطقاً مخصصاً يعيد صحيح أو خطأ. يمكن عكس كل نوع تأكيد بإضافة البادئة not- (مثلاً not-contains أو not-regex)، ويمكن ترجيح التأكيدات بشكل مختلف بناءً على الأهمية.
تصميم مجموعة اختبارات التأكيدات الثنائية
نهج 5×5
تستخدم مجموعة اختبارات عملية 5 موجّهات اختبار تمثيلية مع 5 تأكيدات لكل منها، مما يخلق نظام تسجيل من 25 نقطة. يوفر هذا دقة كافية لاكتشاف التغييرات ذات المعنى مع البقاء قابلاً للإدارة للفرق التي تتبنى هذه الممارسة لأول مرة.
الخطوة 1: تحديد موجّهات الاختبار
اختر 5 موجّهات تمثيلية تغطي نطاق المدخلات التي يعالجها تطبيق الذكاء الاصطناعي الخاص بك. لأداة كتابة تسويقية:
- “اكتب منشور LinkedIn حول لماذا الأتمتة البسيطة تتفوق على المعقدة”
- “اكتب منشور LinkedIn للإعلان عن ميزة منتج جديدة”
- “اكتب منشور LinkedIn حول درس مستفاد من مشروع فاشل”
- “اكتب منشور LinkedIn لمشاركة إحصائيات القطاع”
- “اكتب منشور LinkedIn حول قصة نجاح عميل”
يختبر كل موجّه جوانب مختلفة من التطبيق: مواضيع مختلفة، أنواع محتوى مختلفة، تحديات هيكلية مختلفة. هذا التنوع مهم لأن النموذج اللغوي الكبير قد ينجح في جميع التأكيدات على نوع واحد من الموجّهات ويفشل بشكل منهجي على نوع آخر.
الخطوة 2: تحديد التأكيدات لكل موجّه
لكل موجّه، حدد 5 تأكيدات ثنائية تلتقط أبعاد الجودة التي تهمك. بعض التأكيدات تنطبق عالمياً على جميع الموجّهات (عدد الكلمات، قواعد التنسيق). أخرى خاصة بالموجّه (قصة نجاح العميل يجب أن تشير إلى مقياس نتيجة محدد).
الخطوة 3: التنفيذ والتسجيل
نفّذ كل موجّه، طبّق كل تأكيد، وأنتج نتيجة: 23/25، 24/25، 25/25. يبقى المقام ثابتاً؛ البسط يعكس الجودة. هذا هو أساس ما يسميه مجتمع التطوير المدفوع بالاختبارات للنماذج اللغوية “هندسة الموجّهات المدفوعة بالاختبارات”، حيث تُحدَّد مواصفات المخرجات المتوقعة قبل كتابة الموجّه.
مبادئ تصميم التأكيدات
قابل للقياس دون تفسير. “يحتوي على إحصائية واحدة على الأقل” قابل للقياس. “يستخدم بيانات مقنعة” ليس كذلك. إذا كان بإمكان مقيّمين الاختلاف حول النتيجة، فالتأكيد ذاتي أكثر من اللازم. توثيق Promptfoo يصنف هذا صراحة كفئة التأكيدات “الحتمية”، المتميزة عن التقييمات المصنفة بالنموذج.
مرتبط بنتائج الجودة. يجب أن يتوافق كل تأكيد مع مؤشر جودة حقيقي يهم النتيجة النهائية. “عدد الكلمات أقل من 300” مهم لأن بيانات LinkedIn تُظهر باستمرار أن المنشورات في نطاق 150 إلى 300 كلمة تميل إلى تحقيق معدلات تفاعل أعلى. لا تضف تأكيدات فقط لتضخيم العدد الإجمالي.
مستقل. كل تأكيد يختبر شيئاً واحداً. إذا كان التأكيد 3 يعتمد على التأكيد 2، فإن سبب فشل جذري واحد يبدو كفشلين، مما يشوه النتيجة.
مستقر عبر عمليات التنفيذ. نفس المخرجات يجب أن تنتج دائماً نفس نتائج التأكيد. التأكيدات التي تتضمن مطابقة السلاسل والعد واكتشاف الأنماط مستقرة بطبيعتها. التأكيدات التي تتطلب تفسيراً ليست كذلك.
إعلان
التأكيدات الثنائية في حلقات التحسين الذاتي
تصبح التأكيدات الثنائية أكثر قوة عند دمجها مع حلقات التحسين الذاتي: أنظمة تعدّل تعليماتها الخاصة، تختبر المخرجات، وتحتفظ بالتغييرات أو تتراجع عنها بناءً على النتيجة.
كيف تعمل الحلقة
- الخط المرجعي: تنفيذ جميع الاختبارات، تسجيل المخرجات الحالية (مثلاً، 21/25)
- التعديل: إجراء تغيير واحد على الموجّه أو تعليمات النظام
- إعادة الاختبار: تنفيذ جميع الاختبارات مرة أخرى، تسجيل المخرجات المعدلة
- القرار: إذا تحسنت النتيجة (22/25)، الاحتفاظ بالتغيير. إذا انخفضت (20/25)، التراجع.
- التكرار: إجراء تغيير مختلف وتكرار الحلقة
هذا النمط ليس نظرياً. يوثقه كتاب وصفات OpenAI كبنية “Self-Evolving Agents”، حيث تلتقط الوكلاء مشاكل الأداء وتتعلم من التغذية الراجعة وتنشر التحسينات في سير العمل الإنتاجية. يستخدم نظام AlphaEvolve من Google DeepMind، الذي كُشف عنه في مايو 2025، نهجاً تطورياً مماثلاً حيث يولّد النموذج اللغوي الكبير تعديلات مرشحة للخوارزميات ويُدفع الاختيار بواسطة دوال تقييم آلية. أفاد الباحثون وراء إطار عمل SICA بتحسينات في الأداء تتراوح بين 17 و53 بالمائة في مهام البرمجة من خلال وكلاء يحررون موجّهاتهم واستدلالاتهم باستخدام نمط الحلقة هذا.
يضفي إطار عمل DSPy من Stanford مزيداً من الطابع الرسمي على هذا. تضبط محسّنات DSPy تلقائياً الموجّهات والأوزان لتعظيم المقاييس المحددة من قبل المطور. المتطلب الرئيسي؟ يجب أن تكون تلك المقاييس دوال قابلة للحساب، وهو بالضبط ما توفره التأكيدات الثنائية.
لماذا تمكّن التأكيدات الثنائية الحلقات الذاتية
- التسجيل القابل للأتمتة يعني عدم الحاجة لإنسان في الحلقة
- إشارة تحسين واضحة تجعل 22/25 أفضل من 21/25 بلا غموض
- الإسناد من خلال تغيير واحد لكل تكرار يعني أنك تعرف ما سبب التحسين
- التقارب حيث يتجه النظام نحو نتائج أعلى مع كل تغيير يُحتفظ به
أنماط التحسين النموذجية
تتبع الحلقات الذاتية مسارات يمكن التنبؤ بها:
- التكرارات من 1 إلى 5: تحسين سريع مع إصلاح المشكلات الهيكلية الواضحة (مثلاً، 18/25 ترتفع إلى 23/25)
- التكرارات من 5 إلى 15: تحسين معتدل مع معالجة مشكلات أكثر دقة (23/25 تصل إلى 24/25)
- التكرارات 15 وما بعدها: عوائد متناقصة مع اقتراب النظام من سقفه
نظام يبدأ عند 18/25 قد يصل إلى 24 أو 25 من 25 خلال 20 إلى 30 تكراراً، مما يمثل حوالي 2 إلى 3 ساعات من التنفيذ الذاتي حسب زمن استجابة النموذج. نفس التحسين المحقق يدوياً من خلال التقييم البشري وتعديل الموجّهات يستغرق عادة أسابيع.
الحدود: ما لا تستطيع التأكيدات الثنائية قياسه
التأكيدات الثنائية قوية لكن محدودة. تتفوق في قياس أبعاد الجودة الهيكلية والقابلة للعد والقائمة على الأنماط. لكنها تقصر في عدة مجالات.
النبرة والصوت
“هل يبدو هذا كعلامتنا التجارية؟” سؤال ذاتي بطبيعته. يمكنك تقريبه بالتحقق من الكلمات المحظورة والعبارات المطلوبة وأنماط طول الجمل، لكن الإحساس الشامل بصوت العلامة التجارية يقاوم الاختزال الثنائي.
الجودة الإبداعية
“هل هذا الخطاف جذاب؟” يعتمد على القارئ والسياق والمشهد التنافسي. لا يلتقط أي تأكيد ثنائي ما إذا كان المحتوى سيتردد صداه فعلاً لدى جمهوره.
الملاءمة السياقية
“هل هذه الإجابة مناسبة لموقف هذا العميل؟” يتطلب فهم سياق لا تستطيع الفحوصات الثنائية التقاطه. قد تنجح الإجابة في جميع الاختبارات الهيكلية وتظل خاطئة للموقف المحدد.
الحل الهجين
تقاربت الصناعة نحو نهج هجين. استخدم التأكيدات الثنائية للجودة الهيكلية (60 إلى 70 بالمائة من الجودة القابلة للقياس) وادمجها مع تقييم النموذج كحَكَم للأبعاد النوعية.
ينفذ Promptfoo هذا مباشرة. إلى جانب تأكيداته الحتمية، يقدم أنواع تأكيدات llm-rubric وg-eval المصنفة بالنموذج التي تستخدم نموذجاً لغوياً ثانوياً لتقييم النبرة والصلة والتماسك. يمكن لنفس مجموعة الاختبارات دمج فحوصات ثنائية (“المخرجات تحتوي على أقل من 300 كلمة”) مع فحوصات مصنفة بالنموذج (“المخرجات تحافظ على نبرة مهنية لكن تحادثية”) وإنتاج نتيجة مركبة واحدة.
يتبنى DeepEval نهجاً هجيناً مماثلاً مع أكثر من 50 مقياس تقييم يشمل فحوصات حتمية ومعايير مقيّمة بالنموذج اللغوي مثل صلة الإجابة واكتشاف الهلوسة وتسجيل السمية.
هذا يعني أنك لا تهدر الانتباه البشري على مشكلات تستطيع الآلات اكتشافها (أخطاء التنسيق، تجاوز عدد الكلمات، أقسام مفقودة) ولا تتظاهر بأن الآلات تستطيع تقييم ما لا تستطيعه حالياً (الإبداع، الفروق الثقافية، الحكم السياقي).
منظومة الأدوات الواقعية
تمتلك الفرق التي تنفذ التأكيدات الثنائية اليوم عدة خيارات جاهزة للإنتاج.
Promptfoo
الخيار مفتوح المصدر الأكثر شيوعاً لتقييم الموجّهات. يستخدم Promptfoo ملفات تكوين YAML لتعريف مجموعات اختبار مع تأكيدات. يدعم كلاً من التأكيدات الحتمية (contains، regex، equals، دوال JavaScript) والتأكيدات المصنفة بالنموذج (llm-rubric، G-Eval، search-rubric). تتكامل الاختبارات مباشرة في خطوط أنابيب CI/CD، ويمكن تخصيص أوزان التأكيدات لتعكس اختلافات الأولوية بين المعايير.
DeepEval
إطار عمل مفتوح المصدر مستوحى من Pytest، مصمم خصيصاً لاختبار الوحدات لتطبيقات النماذج اللغوية الكبيرة. يوفر DeepEval أكثر من 50 مقياساً مدمجاً ويدعم تكامل CI/CD عبر مشغلات الاختبار القياسية. تجعل دالته assert_test() اختبار التأكيدات الثنائية مألوفاً لأي مطور كتب اختبارات وحدات.
DSPy
يتبنى إطار عمل Stanford نهجاً مختلفاً: بدلاً من اختبار المخرجات بعد التوليد، تقيّد تأكيدات DSPy عملية التوليد نفسها. تحدد DSPy Assertions قواعد يجب أن يتبعها النموذج اللغوي الكبير، وتضبط محسّنات DSPy تلقائياً الموجّهات والأوزان لتلبية تلك القيود مع تعظيم المقاييس المحددة.
Braintrust وLangSmith
منصات مؤسسية تجمع بين التقييم والمراقبة. يقدم Braintrust سير عمل تقييم آلية مع دعم قوي لـ TypeScript/JavaScript. يوفر LangSmith، المبني من فريق LangChain، تكاملاً عميقاً مع التطبيقات القائمة على LangChain. كلاهما يدعم دوال تسجيل مخصصة قادرة على تنفيذ منطق التأكيدات الثنائية على نطاق واسع.
تنفيذ التأكيدات الثنائية: دليل خطوة بخطوة
للفرق التي تبدأ اليوم
- أدرج متطلبات المخرجات. ما الذي يجب أن يكون صحيحاً دائماً بشأن مخرجات أداة الذكاء الاصطناعي الخاصة بك؟ اكتبها كقواعد بلغة واضحة.
- حوّل إلى ثنائي. أعد كتابة كل متطلب كسؤال نعم/لا. “يجب أن تكون المخرجات موجزة” تصبح “هل عدد الكلمات أقل من 300؟”
- اختبر يدوياً أولاً. نفّذ تأكيداتك يدوياً على 5 إلى 10 مخرجات للتحقق من أنها تلتقط فروقات جودة حقيقية ولا تنتج إيجابيات كاذبة.
- اختر إطار عمل. Promptfoo للتكوين المبني على YAML، أو DeepEval لاختبارات بأسلوب Pytest، أو نصوص برمجية مخصصة إذا كانت احتياجاتك بسيطة.
- أتمت. اكتب تأكيداتك كشفرة برمجية وادمجها في سير عمل التطوير.
- سجّل وتتبع. أنتج رقماً واحداً (عدد النجاحات مقسوماً على إجمالي التأكيدات) وسجّل النتائج بمرور الوقت لاكتشاف التراجعات.
أخطاء شائعة يجب تجنبها
تأكيدات كثيرة جداً. خمسة وعشرون هي نقطة انطلاق قوية. مائة تخلق ضوضاء وتجعل التحسينات الفردية غير مرئية في النتيجة.
غامضة جداً. “المخرجات منظمة جيداً” ليست ثنائية. “المخرجات تحتوي على 3 عناوين فرعية على الأقل” هي كذلك.
اختبار الأشياء الخاطئة. يجب أن تعكس التأكيدات ما يهم فعلاً للجودة، وليس ما هو سهل القياس. إجابة منسقة بشكل مثالي لكنها خاطئة من الناحية الواقعية تفشل في الإنتاج.
عدم تنويع موجّهات الاختبار. تشغيل نفس الموجّه خمس مرات لا يختبر نطاق التطبيق. استخدم خمسة موجّهات مختلفة تمثل حالات استخدامك الفعلية لاكتشاف نقاط الضعف المنهجية.
تجاهل الفجوة النوعية. تتعامل التأكيدات الثنائية مع الجودة الهيكلية. لا تزال بحاجة إلى مراجعة بشرية أو تقييم النموذج كحَكَم للنبرة والإبداع والملاءمة السياقية. الفرق التي تعتمد حصرياً على التأكيدات الثنائية تطوّر نقاطاً عمياء في هذه المجالات.
الخاتمة
تحوّل التأكيدات الثنائية جودة الذكاء الاصطناعي من رأي إلى رقم. هذا الرقم يمكن تتبعه ومقارنته وأتمتته وتحسينه بشكل منهجي. التأكيدات بذاتها بسيطة (صحيح أو خطأ، نجاح أو فشل) لكن الانضباط في تعريفها يجبر الفرق على توضيح ما تعنيه “الجودة” فعلاً لحالة استخدامهم المحددة.
نضج النظام البيئي بسرعة. يوفر Promptfoo وDeepEval وDSPy تطبيقات جاهزة للإنتاج. نمط حلقة التحسين الذاتي، المُصادق عليه من أبحاث OpenAI وGoogle DeepMind وStanford، يحوّل تلك التأكيدات إلى محرك للتحسين المستمر. والنهج الهجين، الذي يجمع بين التأكيدات الحتمية وتقييم النموذج كحَكَم، يعالج القيد القائل بأن ليس كل ما يستحق القياس ثنائي.
الفرق التي تتبنى أطر عمل التأكيدات الثنائية تحصل على ميزتين: يمكنها تشغيل حلقات تحسين ذاتية تحسّن الجودة الهيكلية أثناء الليل، وتحرر مقيّميها البشريين للتركيز على الأبعاد النوعية (النبرة، الإبداع، السياق الثقافي) حيث يكون الحكم البشري لا يُستبدل. كلا البعدين يتحسن. ولا يُهدر أي منهما.
الأسئلة الشائعة
كم عدد التأكيدات الثنائية التي يجب أن أبدأ بها لتطبيق ذكاء اصطناعي؟
ابدأ بإطار 5×5: خمسة موجّهات اختبار تمثيلية مع خمسة تأكيدات لكل منها، مما يمنحك نظام تسجيل من 25 نقطة. يوفر هذا دقة كافية لاكتشاف تحسينات ذات معنى دون خلق ضوضاء. مع اكتساب فريقك الثقة، يمكنك التوسع إلى 30 أو 40 تأكيداً، لكن قاوم إغراء تجاوز 50 لتطبيق واحد. الكثير من التأكيدات يجعل تحسينات النتيجة الفردية غير مرئية ويزيد عبء الصيانة. المفتاح هو أن كل تأكيد يجب أن يتوافق مع نتيجة جودة حقيقية تهم مستخدميك.
هل يمكن للتأكيدات الثنائية أن تحل محل المراجعة البشرية لمخرجات الذكاء الاصطناعي بالكامل؟
لا. تتعامل التأكيدات الثنائية مع الجودة الهيكلية، التي تمثل حوالي 60 إلى 70 بالمائة مما يجعل مخرجات الذكاء الاصطناعي جيدة: التنسيق الصحيح، الطول المناسب، العناصر المطلوبة موجودة، الأنماط المحظورة غائبة. الـ 30 إلى 40 بالمائة المتبقية تتضمن أبعاداً نوعية مثل النبرة والإبداع والملاءمة الثقافية والحكم السياقي التي تقاوم الاختزال الثنائي. أفضل ممارسات الصناعة هي نهج هجين حيث تتعامل التأكيدات الثنائية مع الفحوصات القابلة للأتمتة ويغطي تقييم النموذج كحَكَم أو المراجعة البشرية التقييم النوعي. هذا المزيج يعني أن البشر يركزون على ما يفعلونه أفضل بدلاً من اكتشاف أخطاء التنسيق.
ما الفرق بين التأكيدات الثنائية وتقييم النموذج كحَكَم؟
التأكيدات الثنائية حتمية: تستخدم منطقاً مبنياً على الشفرة (مطابقة السلاسل، التعبيرات النظامية، العد، الدوال المخصصة) لإنتاج نتيجة نجاح أو فشل حاسمة. نفس المخرجات تنتج دائماً نفس نتيجة التأكيد. يستخدم تقييم النموذج كحَكَم نموذجاً لغوياً ثانوياً لتسجيل المخرجات على معايير ذاتية مثل التماسك والصلة والنبرة. النموذج كحَكَم أكثر مرونة لكن أقل اتساقاً، لأن نموذج الحكم نفسه غير حتمي. تدعم أدوات مثل Promptfoo كليهما في نفس مجموعة الاختبارات، مما يسمح للفرق بدمج تأكيدات حتمية للفحوصات الهيكلية مع تأكيدات مصنفة بالنموذج للتقييم النوعي في تنفيذ تقييم واحد.
المصادر والقراءات الإضافية
- Promptfoo Deterministic Metrics Documentation
- DeepEval: The LLM Evaluation Framework
- Self-Evolving Agents: Autonomous Agent Retraining
- DSPy Optimization Overview
- LLM Testing: Top Methods and Strategies
- Testing LLM Applications: A Practical Guide
- Promptfoo Assertions and Metrics
- The Complete Guide for TDD with LLMs
















