لثلاث سنوات متتالية، كانت القصة المهيمنة في مجال الذكاء الاصطناعي بسيطة: النماذج الأكبر المدربة على بيانات أكثر تحقق أداءً أفضل. زيادة المعاملات، وزيادة مجموعات البيانات، وزيادة ساعات GPU — ومشاهدة المعايير تتحسن. هذه القصة لم تنته، لكن فصلاً جديداً قد انفتح، ويعيد تشكيل طريقة تفكير الصناعة في الذكاء والتكلفة والكفاءة.

يُسمى هذا الفصل الجديد حوسبة وقت الاختبار — أو ما يُعرف أحياناً بـ inference scaling أو الحوسبة أثناء الاستدلال. الفكرة الجوهرية: بدلاً من إنفاق جميع ميزانية الذكاء أثناء التدريب، تُنفق جزءاً منها عندما يفكر النموذج فعلياً في سؤالك. والنتيجة هي فئة من أنظمة الذكاء الاصطناعي القادرة على التفكير بعمق أكبر في المشكلات الصعبة دون الحاجة إلى نموذج أساسي أضخم أو دورة تدريب جديدة.

كان نموذج o1 من OpenAI، الصادر في أواخر عام 2024، الإثبات العلني لهذا المفهوم. وقد مضى خلفه o3 بالنموذج إلى أبعد من ذلك. أثبتت هذه النماذج أن نموذجاً بعدد ثابت من المعاملات يمكن أن يتحسن بشكل كبير في المشكلات الصعبة — أولمبياد الرياضيات، وتحديات البرمجة المتقدمة، والاستدلال العلمي المعقد — ببساطة من خلال منحه وقتاً أطول للتفكير قبل الإجابة.

ما الذي يحدث أثناء حوسبة وقت الاختبار

أثناء الاستدلال المعتاد، يتلقى نموذج اللغة الكبير موجهاً ويولد tokens واحداً تلو الآخر حتى يُنتج إجابة. تستغرق العملية بأكملها ثوانٍ. يطبق النموذج أنماطاً مكتسبة من التدريب، لكنه لا يتداول في الأمر.

يُغير حوسبة وقت الاختبار ذلك من خلال منح النموذج وقتاً منظماً للتفكير. التقنية الرائدة هي التفكير بسلسلة الأفكار على نطاق واسع: يولد النموذج أثراً داخلياً صريحاً للتفكير — يعمل من خلال المشكلات الفرعية، ويتحقق من منطقه، ويتراجع عندما يكتشف أخطاء — قبل الالتزام بإجابة نهائية. قد يمتد هذا الأثر الاستدلالي لآلاف الـ tokens قبل ظهور الإجابة المرئية.

أسلوب ثانٍ يعتمد على نماذج مكافأة العملية (PRMs): يُقيّم نموذج منفصل جودة كل خطوة استدلالية، مما يسمح للنظام باستكشاف مسارات حل متعددة واختيار تلك التي تحصل على أعلى تقييم. يُحوّل هذا الاستدلال ذا المرور الواحد إلى مشكلة بحث، تماماً كمحركات الشطرنج التي تُقيّم ملايين المواضع قبل الالتزام بحركة.

والنتيجة هي ما يصفه الباحثون بـ”التفكير من النظام 2″ — مستعار من إطار Daniel Kahneman الذي يميز بين الإدراك الحدسي السريع (النظام 1) والتفكير المتأمل البطيء (النظام 2). الاستدلال المعتاد لنماذج اللغة الكبيرة هو نظام 1. حوسبة وقت الاختبار تُتيح النظام 2.

لماذا هذا مختلف عن مجرد بناء نماذج أكبر

تصف قوانين التوسع التقليدية — ورقة Chinchilla، وأبحاث التوسع الأولى لـ GPT — كيف تتحسن أداء النموذج مع زيادة المعاملات وtokens التدريب. يُضيف حوسبة وقت الاختبار محوراً ثالثاً: ميزانية الحوسبة أثناء الاستدلال.

الانعكاس العملي مهم. كان المختبر الرائد الذي يريد أداءً أفضل على معايير البرمجة يملك تقليدياً خيارين: تدريب نموذج أكبر (أشهر من العمل، وبضع مئات الملايين في تكاليف GPU) أو جمع بيانات تدريب أعلى جودة (بطيء، مكلف، شحيح بشكل متزايد). يوفر توسع وقت الاستدلال خياراً ثالثاً: تخصيص حوسبة استدلال أكبر للنماذج الموجودة.

بالنسبة للمستخدمين والشركات التي تنشر الذكاء الاصطناعي، يعني هذا أن سقف الأداء لم يعد ثابتاً عند لحظة تدريب النموذج. يمكن للمشكلات الصعبة الحصول على وقت تفكير أطول؛ وتظل الاستعلامات البسيطة رخيصة وسريعة. لم يعد النموذج قطعة أثرية ثابتة — بل أصبح ميزانية تفكير قابلة للتهيئة.

أثبت نموذج o3 من OpenAI ذلك بشكل ملموس على معيار ARC-AGI — اختبار صُمم خصيصاً لمقاومة مطابقة الأنماط. بإعدادات حوسبة منخفضة، حصل o3 على حوالي 75 بالمئة. وبإعدادات حوسبة عالية مع بحث موسّع، تجاوز 87 بالمئة. تم حل المعيار الذي قاوم نموذج GPT-4 بشكل ملحوظ — ليس بتدريب نموذج جديد، بل بإنفاق المزيد من الحوسبة أثناء الاستدلال.

حقيقة الطاقة والتكاليف

حوسبة وقت الاختبار ليست مجانية. الحوسبة المنفقة على سلسلة الأفكار الموسعة والبحث متعدد المسارات تمثل وقت GPU حقيقياً وكهرباء حقيقية وتكاليف حقيقية. بالنسبة للاستعلامات البسيطة، تكون نماذج الفئة o1/o3 أغلى بشكل ملحوظ لكل استدعاء API مقارنة بنماذج الفئة القياسية GPT-4.

يُحوّل هذا هيكل تكلفة الذكاء الاصطناعي بطرق مهمة. أصبح الاستدلال — الذي كان تاريخياً مركز تكلفة أصغر بكثير من التدريب — مصدر قلق رئيسياً للميزانية. يستثمر مزودو الخدمات السحابية بكثافة في الأجهزة المحسّنة للاستدلال: ASICs مخصصة، وشرائح ذات عرض نطاق ذاكرة عالٍ، وخطوط أنابيب فك ترميز تخميني، لأن أعباء العمل الاستدلالية على نطاق واسع تمثل الآن تدفقاً إيرادياً رئيسياً ومتنامياً.

بالنسبة للمطورين والشركات الناشئة، يعتمد الحساب على المهمة. لا يحتاج chatbot خدمة العملاء إلى مستوى تفكير o3 — نموذج أرخص وأسرع يكفي. أما أداة تحليل وثائق قانونية تراجع عقوداً من 200 صفحة، فقد تبرر التكلفة الإضافية لكل استدعاء لأن المخاطر عالية والأخطاء مكلفة. تطور الصناعة طبقات توجيه ذكية تختار مستوى النموذج المناسب تلقائياً بناءً على تعقيد الاستعلام.

تعكس تسعيرة API هذا الواقع: o3 من OpenAI يُسعَّر بعلاوة كبيرة على GPT-4o، مع تفاوت التكاليف حسب مستوى جهد التفكير — منخفض أو متوسط أو مرتفع. يقدم كل من Gemini 2.0 Flash Thinking من Google وClaude مع التفكير الموسّع من Anthropic مناهج متدرجة مماثلة.

إعلان

التطبيقات التي تهم أكثر

تشترك المجالات التي يحقق فيها حوسبة وقت الاختبار أوضح المكاسب في خاصية مشتركة: مشكلات ذات إجابات صحيحة قابلة للتحقق تتطلب تفكيراً متعدد الخطوات، حيث تتراكم الأخطاء وتهم الخطوات الوسيطة.

الرياضيات والعلوم: مسائل رياضية على مستوى الأولمبياد، ومحاكاة فيزيائية، وتخطيط التركيب الكيميائي. هذه مجالات يمكن فيها التحقق خطوة بخطوة، وخطأ واحد يُبطل الحل بأكمله.

البرمجة المعقدة: كتابة كود صحيح وفعال لمشكلات خوارزمية صعبة، وتصحيح أخطاء الأنظمة المتعددة، وتوليد كود يجتاز مجموعة اختبارات شاملة.

مراجعة الأدبيات العلمية: تركيب الدراسات المتضاربة، وتحديد نقاط الضعف المنهجية، والتفكير في الصلاحية الإحصائية عبر عشرات الأوراق البحثية.

التحليل القانوني والمالي: تحليل وثائق معقدة لالتزامات محددة، وتحديد التعارضات التنظيمية عبر ولايات قضائية متعددة، واختبار بنود العقود في سيناريوهات افتراضية.

ما لا يحسّنه حوسبة وقت الاختبار بشكل ملحوظ: مهام الاسترجاع السريع، والمهام الإبداعية البحتة دون معيار صحة واضح، والتطبيقات الفورية حيث يكون الإبطاء أقل من ثانية قيداً صارماً.

ما الذي يعنيه هذا لصناعة الذكاء الاصطناعي

بالنسبة لمطوري النماذج الأساسية، يغير حوسبة وقت الاختبار أولويات البحث والتطوير. لم تعد عملية تدريب النموذج الأضخم الممكن هي المسار الوحيد نحو الريادة في الأداء. أصبح تصميم معماريات تفكير أفضل، ونماذج مكافأة عملية أفضل، وخطوط استدلال أكثر كفاءة بنفس الأهمية.

بالنسبة للشركات الناشئة في مجال الذكاء الاصطناعي التي تبني على النماذج الأساسية، الصورة دقيقة. من ناحية، يمنح توسع وقت الاستدلال للشركات الناشئة إمكانية الوصول إلى تفكير منطقي أفضل حقاً دون انتظار دورة التدريب القادمة. ومن ناحية أخرى، يثير تساؤلات حول التسليع.

الحجة المضادة قوية. تبقى المعرفة المتخصصة بمجال محدد، والبيانات الخاصة، والتكامل العميق في مسارات العمل، مزايا هيكلية. شركة ناشئة لديها نموذج تفكير قانوني مضبوط الدقة على بيانات عقدية خاصة يمكنها الجمع بين هذا التخصص وحوسبة وقت الاختبار لتحقيق نتائج لا يستطيع نموذج عام ذو تفكير موسّع تكرارها بسهولة.

بالنسبة لشركات الأجهزة، يمثل توسع الاستدلال رياحاً مواتية مهمة. كل token استدلالي يتم توليده هو دورة GPU قابلة للفوترة. يُسرّع التحول من الطلب على الحوسبة المهيمن عليه بالتدريب إلى الطلب المهيمن عليه بالاستدلال الاستثمارَ في مجموعات محسّنة للاستدلال وشرائح ذات عرض نطاق ذاكرة عالٍ مصممة خصيصاً لطبيعة أعباء التفكير التسلسلية والحساسة للإبطاء.

إعلان

رادار القرار (المنظور الجزائري)

البُعد التقييم
الأهمية بالنسبة للجزائر مرتفعة — تؤثر على حسابات تكلفة API لكل مطور وشركة ناشئة تستخدم APIs الذكاء الاصطناعي
البنية التحتية جاهزة؟ جزئياً — اتصال إنترنت جيد، لكن البنية التحتية المحلية لـ GPU للاستدلال الكثيف في التفكير غائبة؛ الوصول عبر API من خلال OpenAI وGoogle وAnthropic هو المسار الواقعي على المدى القريب
المهارات متوفرة؟ جزئياً — قاعدة قوية من المطورين القادرين على بناء منتجات على APIs التفكير؛ خبرة محلية محدودة في معمارية التفكير أو تصميم نماذج مكافأة العملية
الجدول الزمني للعمل 6-12 شهراً — ينبغي للمطورين تقييم APIs مستوى التفكير فوراً؛ هياكل التكاليف يجب دمجها الآن في تسعير المنتجات
أصحاب المصلحة الرئيسيون المطورون والشركات الناشئة الجزائرية في الذكاء الاصطناعي، مراكز الابتكار (SGSI، Cyberparc)، مجموعات البحث الجامعية في الذكاء الاصطناعي
نوع القرار استراتيجي + تكتيكي

خلاصة سريعة: بالنسبة للمطورين والشركات الناشئة الجزائرية، يُغير حوسبة وقت الاختبار اقتصاديات كل منتج ذكاء اصطناعي تبنيه. لديك الآن إمكانية الوصول إلى نماذج قادرة فعلاً على التفكير المنطقي في الوثائق المعقدة والنصوص القانونية والمشكلات التقنية — بتكلفة معينة. ادمج منطق التوجيه بالتكلفة في معمارية منتجك منذ اليوم الأول: استخدم النماذج السريعة والرخيصة للاستعلامات البسيطة، واحتفظ بـ APIs مستوى التفكير للقرارات عالية المخاطر حيث تبرر الدقة التكلفة. هنا يمكن للشركات الناشئة الجزائرية في مجال التكنولوجيا القانونية والتحليل المالي ورقمنة الوثائق بناء منتجات تنافسية حقاً.

المصادر والقراءات الإضافية