عنق الزجاجة في التسمية الذي لم يستطع RLHF تجاوزه
كانت الرواية السائدة لتدريب الذكاء الاصطناعي في عامَي 2023 و2024 هي التعلم المعزز من التغذية الراجعة البشرية (RLHF) — الأسلوب الذي حوّل نماذج اللغة الخام إلى مساعدين متوافقين قادرين على اتباع التعليمات، ورفض الطلبات الضارة، وإنتاج مخرجات يفضّلها البشر. يستلزم الآلية الجوهرية لـ RLHF وجود مقيّمين بشريين يُقيّمون مخرجات النموذج ويُعبّرون عن تفضيلاتهم، مما يُدرّب نموذج المكافأة الذي يُحسّن الذكاء الاصطناعي ذاته وفقاً له.
أفضى هذا الأسلوب إلى الاختراق في مجال الذكاء الاصطناعي التحادثي الذي طغى على العامين الماضيين. غير أنه يصطدم بسقف هيكلي.
إن تسمية التفضيل البشري مُكلفة: فالحصول على تقييمات عالية الجودة ومتسقة بالحجم المطلوب لتدريب النماذج الحدودية يستلزم فرقاً كبيرة من المقيّمين المهرة يُقيّمون ملايين المخرجات. وهي بطيئة: إذ يُقيّد عنق الزجاجة البشري سرعة توليد إشارة المكافأة. وهي ذاتية: إذ يختلف المقيّمون البشريون حول الجودة بأساليب تُدخل ضوضاء في إشارة المكافأة، لا سيما في المجالات التقنية التي لا تُعدّ فيها الصحة مسألة رأي. وتُحسّن الشيء الخطأ في سياقات الاستدلال: فالمقيّم البشري يمكنه تحديد أيّ إجابتين تبدو أكثر ثقة، لكنه لا يستطيع بموثوقية تحديد أيّهما صحيحة رياضياً دون إعادة إجراء الحسابات بنفسه.
يعالج RLVR — التعلم المعزز بالمكافآت القابلة للتحقق — المشكلات الأربع في آنٍ واحد للمهام التي يمكن تحديد صحتها برمجياً. بدلاً من سؤال الإنسان عن جودة إجابة النموذج، يتحقق RLVR من الإجابة وفق محقق موضوعي: مُصرِّف كود يؤكد أن البرنامج يعمل ويُنتج المخرج الصحيح، أو مدقق برهان رياضي يتحقق من الاشتقاق، أو مُنفّذ SQL يؤكد أن الاستعلام يُعيد البيانات الصحيحة، أو مدقق منطق صوري يتحقق من سلسلة الاستدلال. يُعيد المحقق إشارة ثنائية: صحيح (مكافأة 1) أو خاطئ (مكافأة 0). دون أي تدخل بشري.
ما الذي يُغيّره RLVR فعلياً في تدريب النماذج
تختلف البنية التقنية لـ RLVR عن RLHF بطرق تتموّج لتُحدث فوارق عملية جوهرية فيما يمكن للنماذج المُدرَّبة تحقيقه.
يُدرّب RLHF نموذج مكافأة عصبياً من بيانات التفضيل البشري، ثم يستخدم ذلك النموذج لتوفير إشارة تدرج خلال تدريب التعلم المعزز. يُفضي هذا إلى نمطَي إخفاق: يمكن “اختراق” نموذج المكافأة — أي يتعلم الذكاء الاصطناعي إنتاج مخرجات تحصل على تقييمات عالية في نموذج المكافأة دون أن تكون أفضل فعلياً — فضلاً عن أن السقف النوعي لنموذج المكافأة يتحدد بجودة بيانات التفضيل البشري.
يستبدل RLVR نموذج المكافأة المُتعلَّم بدالة محقق برمجية. نفّذ DeepSeek-R1 هذا باستخدام GRPO (تحسين السياسة النسبي الجمعي) — وهو خوارزمية تُزيل نموذج المكافأة ونموذج القيمة (الناقد) كليهما من خط أنابيب التدريب عبر مقارنة مجموعات من مخرجات النموذج مع بعضها ومع التغذية الراجعة من المحقق. هذا التبسيط ليس مجرد تخفيض للتكاليف: إنه يُغيّر ديناميكيات التدريب. دون نموذج مكافأة مُتعلَّم يمكن التحايل عليه، يتعيّن على الذكاء الاصطناعي حل المشكلة بصورة صحيحة فعلياً ليحصل على المكافأة. والنتيجة — المُجسَّدة في DeepSeek-R1-Zero الذي تخطى مرحلة الضبط الدقيق الخاضع للإشراف بالكامل ودُرّب باستخدام RLVR حصراً — هي ظهور تلقائي لاستدلال سلسلة التفكير: تعلّم النموذج إظهار خطوات عمله لأن إظهارها هو ما يُنتج إجابات صحيحة قابلة للتحقق.
تُوسّع نماذج o3 وo4-mini من OpenAI (الصادرة في أبريل 2025) هذا النموذج ليشمل التحقق من استخدام الأدوات: تحصل العوامل التي يمكنها استدعاء أدوات خارجية على إشارات مكافأة بناءً على ما إذا كان استخدام الأداة قد أنتج إكمالاً صحيحاً للمهمة، مما يُتيح شكلاً من أشكال RLVR يغطي المهام المفتوحة التي تتجاوز تلك ذات المحققات المحددة مسبقاً. نشرت جامعة Tsinghua بحثاً في أبريل 2025 حول تطبيق RLVR مع ضغط البحث — تدريب النماذج على البحث بكفاءة أعلى عبر التحقق من أن مسارات البحث المضغوطة تُنتج الإجابات ذاتها التي يُنتجها البحث الشامل — مما يُوسّع النموذج ليشمل مهام الاسترجاع المعلوماتي.
إشارة الأداء العملية: أفادت Databricks بتحسّن دقة من 73.5% إلى 75.68% على اختبار BIRD للنص إلى SQL باستخدام نماذج مُدرَّبة بـ RLVR. وأظهر Qwen2.5-Math-7B تحسّناً بنسبة 21.4% على اختبار MATH-500 في ظل تدريب RLVR، وإن كان الباحثون يُنبّهون إلى ضرورة التعامل مع هذا التحسّن بحذر إذ قد يعكس جزء منه تداخلاً في توزيع التدريب.
إعلان
ما الذي يجب على فرق هندسة الذكاء الاصطناعي وبنّاة النماذج فعله
RLVR ليس بديلاً عن RLHF بالمطلق — إنه بديل له في المهام التي يمكن التحقق منها. فهم أين يُطبَّق، وكيف تُبنى المحققات، وما تستلزمه ديناميكيات التدريب — هي الأسئلة العملية لفرق هندسة الذكاء الاصطناعي في 2026.
1. رسم خريطة محفظة المهام على طيف قابلية التحقق في RLVR
تنطبق ميزة RLVR بدقة حيث يمكن التحقق الموضوعي: تنفيذ الكود (يُصرَّف البرنامج ويُنتج المخرج الصحيح)، الرياضيات (الاشتقاق صحيح والإجابة دقيقة)، استعلامات SQL والبيانات (يُعيد الاستعلام النتيجة المحددة)، اتباع التعليمات (يتطابق المخرج مع تنسيق محدد)، والاستدلال المنطقي (ينبثق الاستنتاج من المقدمات وفق قواعد محددة). ولا ينطبق حيث تكون الصحة ذاتية بطبيعتها: الكتابة الإبداعية، وتفضيلات الأسلوب، وأحكام الحساسية الثقافية، والمخرجات الاستشارية المفتوحة تظل أفضل خدمةً بـ RLHF أو أساليب أخرى قائمة على التفضيل. الخطوة العملية الأولى لأي فريق ذكاء اصطناعي يُفكر في RLVR هي رسم خريطة محفظة مهامه الخاصة على هذا الطيف — تحديد المجموعة الفرعية من المهام التي يمكن فيها كتابة دوال مكافأة قابلة للتحقق وحيث ميزة التكلفة البالغة ثلاثة أضعاف لـ RLVR على RLHF في المهام القابلة للتحقق قابلة للتنفيذ.
2. الاستثمار في جودة المحقق بوصفها أصلاً هندسياً أساسياً
يتحدد السقف النوعي لنموذج مُدرَّب بـ RLVR بجودة محققاته. محقق كود معيب — يقبل برامج تعمل لكنها تُنتج مخرجات غير صحيحة، أو يرفض برامج صحيحة بسبب ثغرات في حالات الاختبار — سيُدرّب نموذجاً على التحايل على المحقق بدلاً من حل مشاكل البرمجة فعلياً. لذا فإن بناء محققات متينة ليس عمل بنية تحتية تبعياً لتدريب النموذج — بل هو الاستثمار التقني الأساسي. بالنسبة لمهام الكود، يعني هذا أجنحة اختبار شاملة تغطي الحالات الطرفية، لا مجرد المسارات الرئيسية. للاستدلال الرياضي، يعني هذا مدققي برهان صوريين، لا مجرد مطابقة إجابات رقمية. لـ SQL، يعني هذا مخططات قاعدة بيانات بتعقيد كافٍ للتمييز بين الاستعلامات الصحيحة وتلك الصحيحة في الظاهر فحسب. الفرق التي تستثمر في جودة المحقق بشكل غير متناسب ستُدرّب نماذج أفضل تعميماً، لأن إشارة المكافأة تعكس بدقة أكبر الأداء الفعلي للمهمة.
3. استخدام GRPO لمهام الاستدلال حيث بيانات تدريب نموذج المكافأة شحيحة
توفر GRPO (تحسين السياسة النسبي الجمعي)، الخوارزمية المستخدمة في تطبيق RLVR في DeepSeek-R1، ميزة عملية محددة: تُزيل الحاجة إلى تدريب نموذج مكافأة منفصل باستخدام تقدير الميزة النسبية للمجموعة بدلاً من ذلك. بالنسبة للفرق ذات المهام القابلة للتحقق ولكن ببيانات مُسمَّاة بالتفضيل غير كافية لتدريب نموذج مكافأة موثوق (وهو حال معظم الفرق خارج المختبرات الحدودية الكبرى)، فإن RLVR القائم على GRPO هو المسار الأكثر سهولة لتحسين الاستدلال القائم على التعلم المعزز. تنفيذ الخوارزمية متاح في قاعدة كود تدريب DeepSeek-R1 (مفتوحة المصدر) وفي عدة أطر مشتقة تشمل تطبيقات مفتوحة المصدر من المجتمع الأكاديمي. يجب على فرق الهندسة التي تُطبّق RLVR تقييم GRPO مقابل PPO (تحسين السياسة القريبة، خوارزمية التعلم المعزز القياسية في RLHF) على مهمتها المحددة؛ تتطلب GRPO عادةً أحجام دفعات أكبر للتقدير المستقر للميزة لكنها تُزيل نموذج الناقد المنفصل، مما يُقلص عبء الحوسبة الإجمالي.
4. متابعة أدبيات قيود RLVR قبل التعامل معه بوصفه أفضل بشكل مطلق
رصد مجتمع البحث قيوداً دقيقة لـ RLVR تستوجب على الفرق المؤسسية فهمها قبل التعامل معه بوصفه تحسيناً شاملاً على RLHF. تُجادل ورقة بحثية صدرت عام 2026 من Scale AI بأن تدريب RLVR يُنتج بشكل رئيسي “اكتساب قدرة عبر ضغط البحث لا عبر توسيع قدرة الاستدلال” — أي أن النموذج يُصبح أفضل في الوصول بموثوقية إلى إجابات كان قادراً أحياناً على إنتاجها، بدلاً من تطوير قدرات استدلال جديدة جوهرياً. هذا التفسير، إن صح، له تداعيات: RLVR أكثر فعالية حين يمتلك النموذج الأساسي قدرة كامنة على المهمة المستهدفة، وإضافة تدريب RLVR تُركّز كتلة الاحتمال على مسار الإجابة الصحيحة دون توسيع مدى الاستدلال الجوهري للنموذج. للمهام التي تستلزم سلاسل استدلال جديدة فعلاً — إثبات نظريات رياضية حدودية، واستدلال سببي متعدد الخطوات في مجالات مستحدثة — قد لا يكون RLVR وحده كافياً، وستكون ابتكارات معمارية تتجاوز أساليب التدريب ضرورية.
الصورة الأشمل: ما الذي يتغير حين يكون التدريب موضوعياً
أعمق ما ينطوي عليه صعود RLVR لا يتعلق بالتكلفة أو الكفاءة — بل يتعلق بأي أنواع سلوكيات الذكاء الاصطناعي يُصبح تدريبها ممكناً أصلاً.
يتحدد RLHF بقدرة المقيّمين البشريين على تقييم المخرجات. من الناحية العملية، هذا يعني أن نماذج الذكاء الاصطناعي الحدودية كانت مُحسَّنة بشكل رئيسي للمهام التي يسهل على البشر الحكم عليها: جودة الكتابة، والمساعدة، والدقة الواقعية الظاهرة. المهام التي تستلزم خبرة حقيقية للتقييم — البراهين الرياضية المتقدمة، والكود المعقد، والحجج المنطقية الصارمة — كانت ممثَّلة تمثيلاً ناقصاً في تدريب RLHF لأن المقيّمين البشريين القادرين على تقييمها مُكلفون ونادرون وغير متسقين.
يُزيل RLVR ذلك القيد. بمجرد وجود محقق صوري لمهمة ما، يمكن توليد إشارة التدريب تلقائياً على نطاق واسع دون حدود. التداعية هي أن المجالات الأكثر احتمالاً لنمو قدرة الذكاء الاصطناعي السريع في 2026 و2027 هي بالضبط المجالات التي يكون فيها التحقق الصوري ممكناً: الرياضيات، وتوليد الكود، والمنطق الصوري، وتوليد استعلامات قاعدة البيانات، وأي مجال يمكن فيه لأوراكل حوسبي تقييم الصحة دون تدخل بشري.
بالنسبة لفرق الذكاء الاصطناعي المؤسسية، يعني هذا أن التطبيقات الأعلى قيمة للنماذج المُدرَّبة بـ RLVR ليست في مجالات الذكاء الاصطناعي التحادثي حيث يتفوق RLHF، بل في مجالات الاستدلال المنظم حيث كان RLHF تاريخياً الأضعف. توليد الكود، وتحليل البيانات، والنمذجة الرياضية، والتحقق من الامتثال الصوري هي المستفيدون الفوريون — والأرض الخصبة الأكثر لتطبيقات مؤسسية تتراكم على ميزة تدريب RLVR.
الأسئلة الشائعة
ما الفارق العملي بين RLHF وRLVR لفريق منتجات ذكاء اصطناعي؟
يتطلب RLHF (التعلم المعزز من التغذية الراجعة البشرية) مقيّمين بشريين يُقيّمون مخرجات النموذج ويُعبّرون عن تفضيلاتهم، مما يُدرّب نموذج مكافأة يُستخدم لتحسين التعلم المعزز. يستبدل RLVR (التعلم المعزز بالمكافآت القابلة للتحقق) المقيّم البشري بمحقق برمجي — مُنفّذ كود، أو مدقق رياضي، أو مُتحقق من SQL — يُوفر إشارة صحيح/خاطئ حتمية. الفارق العملي: يعمل RLHF لأي مهمة يمكن للبشر الحكم عليها، بما فيها تقييمات الجودة الذاتية؛ RLVR يعمل فقط للمهام التي يمكن فيها التحقق من الصحة برمجياً، لكنه يُنتج إشارات مكافأة أكثر موثوقية لتلك المهام ويُلغي تكلفة التسمية البشرية على نطاق واسع. بالنسبة لفرق المنتجات التي تبني تطبيقات توليد الكود وتحليل البيانات والاستدلال الرياضي، تكون النماذج المُدرَّبة بـ RLVR أكثر موثوقية على مهمتها المحددة من النماذج المُدرَّبة بـ RLHF حصراً.
هل تخطّى DeepSeek-R1 مرحلة الضبط الدقيق الخاضع للإشراف بالفعل؟
DeepSeek-R1-Zero — نموذج البحث الذي يُجسّد قدرات RLVR — دُرّب باستخدام RLVR مع GRPO فحسب، دون مرحلة ضبط دقيق خاضع للإشراف. طوّر هذا النموذج تلقائياً سلوك استدلال سلسلة التفكير: عرض خطوات عمله خطوةً بخطوة لأن ذلك كان المسار الأكثر موثوقية للوصول إلى إجابات صحيحة قابلة للتحقق. يشمل نموذج DeepSeek-R1 الإنتاجي مرحلة ضبط دقيق خاضع للإشراف للمواءمة واتباع التعليمات، لكن قدرات الاستدلال أُرسيت عبر تدريب RLVR. نتيجة R1-Zero مهمة لأنها تُثبت أن الاستدلال المنظم يمكن أن ينبثق من إشارات المكافأة وحدها، دون الحاجة إلى تدريب مسبق على مسارات استدلال بشرية.
أي المهام تستفيد أكثر من النماذج المُدرَّبة بـ RLVR، وأيها لا تستفيد؟
يُوفر RLVR أقوى فائدة للمهام ذات معايير الصحة الموضوعية: البرمجة (هل يمكن تصريف البرنامج واختباره؟)، الرياضيات (هل يمكن التحقق من الإجابة وفق حل معروف؟)، استعلامات البيانات (هل يُعيد SQL النتيجة المتوقعة؟)، المنطق الصوري (هل يتبع الاستنتاج من المقدمات؟)، واتباع التعليمات مع قيود تنسيق قابلة للتحقق. يُوفر فائدة ضئيلة للمهام التي تكون فيها الصحة ذاتية بطبيعتها: الكتابة الإبداعية، والدقة التحادثية، وتفضيلات الأسلوب، والحساسية الثقافية، والمخرجات الاستشارية المفتوحة. لقرارات اختيار الذكاء الاصطناعي المؤسسي، هذا التمييز قابل للتنفيذ: اختر نماذج مُدرَّبة بـ RLVR (DeepSeek-R1، وo3، وo4-mini) لمهام الاستدلال المنظم ونماذج مُدرَّبة بـ RLHF للمهام التحادثية والإبداعية وتلك ذات الجودة الذاتية.
المصادر والقراءات الإضافية
- RLVR يجعل النماذج أسرع لا أذكى — Promptfoo
- التعلم المعزز من المكافآت القابلة للتحقق — Label Studio
- حالة تدريب نماذج استدلال LLM — Sebastian Raschka
- DeepSeek-R1: تحفيز قدرة الاستدلال في LLMs عبر التعلم المعزز — arXiv
- RLVR: مكافآت قابلة للتحقق لـ LLMs المؤسسية الموثوقة — Appen
- التعلم المعزز بالمكافآت القابلة للتحقق — GitHub Awesome-RLVR
















