حين تفكر معظم المؤسسات في البنية التحتية للذكاء الاصطناعي، تفكر في Nvidia. أصبح GPU H100 الوحدة الافتراضية لحساب الذكاء الاصطناعي — رقيقة بقيمة 30,000 دولار تُشغّل كل شيء، بدءاً من تدريب النماذج في OpenAI وصولاً إلى خطوط أنابيب الاستدلال في شركات البرمجيات المؤسسية. غير أن تدريب النموذج وتشغيله في بيئة الإنتاج مشكلتان مختلفتان جوهرياً. وقد بنى منافسان متخصصان — Groq وCerebras — رقائق سيليكون مختلفة كلياً لحل الجزء الخاص بالاستدلال من هذه المعادلة.
النتائج مذهلة. على المعايير المرجعية الفعلية، يُقدّم LPU الخاص بـ Groq نموذج Llama 2 70B بسرعة 300 رمز في الثانية — أسرع بعشر مرات من مجموعة H100 تُشغّل النموذج ذاته. وتخطّى WSE-3 من Cerebras حاجز الألف رمز في الثانية لنموذج Llama 3.1 ذي 405 مليار معامل — وهو مستوى من الإنتاجية تعجز عنه مصفوفات GPU. هذه ليست تحسينات هامشية؛ إنها إعادة هيكلة جذرية لما ينبغي أن تبدو عليه أجهزة الاستدلال.
لماذا أصبح الاستدلال الحِمل المُحدِّد لعمليات الذكاء الاصطناعي
خلال السنوات الثلاث الأولى من عصر النماذج اللغوية الكبيرة، هيمن التدريبُ على نقاش حوسبة الذكاء الاصطناعي. استهلكت سباقات بناء GPT-4 وLlama 3 وGemini مليارات الدولارات من وقت المعالجة، وشكّلت السردية العامة حول البنية التحتية للذكاء الاصطناعي.
تحوّل هذا التوازن تحوّلاً حاسماً. في عام 2023، كان الاستدلال يمثّل نحو ثلث إجمالي حوسبة الذكاء الاصطناعي. وبحلول عام 2025، بلغت هذه الحصة النصف. ويتوقع المحللون أن يمثّل الاستدلال بحلول 2026 نحو ثلثَي إجمالي الإنفاق على حوسبة الذكاء الاصطناعي — انعكاس تقوده الانتشار الهائل لتطبيقات الذكاء الاصطناعي في الإنتاج. كل جلسة دردشة، وكل استدعاء API لنموذج لغوي، وكل مستند تعالجه خطوط أنابيب الذكاء الاصطناعي هو مهمة استدلال. يحدث التدريب مرة واحدة؛ أما الاستدلال فيحدث مليارات المرات يومياً.
يعكس السوق العالمي للاستدلال في الذكاء الاصطناعي هذه الحقيقة. فبعد تقييمه بـ 103 مليار دولار في 2025، يُتوقّع أن يبلغ 255 مليار دولار بحلول 2030 بمعدل نمو سنوي مركّب 19%. ومن المتوقّع أن تنمو رقائق الاستدلال السحابي للذكاء الاصطناعي وحدها من 49 مليار دولار في 2025 إلى 288 مليار دولار بحلول 2032. والضغط التجاري لتشغيل الاستدلال بشكل أسرع وأرخص لم يكن أعلى من أي وقت مضى.
عنق الزجاجة في عرض نطاق الذاكرة الذي لا تستطيع GPU تجاوزه
لفهم سبب وجود Groq وCerebras، ينبغي استيعاب رؤية جوهرية واحدة: استدلال النماذج اللغوية ليس مشكلة قوة حسابية خام. إنه مشكلة عرض نطاق الذاكرة.
يستلزم تشغيل نموذج لغوي تحميل مليارات الأوزان من الذاكرة إلى وحدات المعالجة لكل رمز يُولَّد. على GPU كـ H100، تقطن هذه الأوزان في ذاكرة ذات عرض نطاق عالٍ (HBM) — رقائق منفصلة فيزيائياً متصلة بمعالج GPU. وحتى أسرع HBM لها زمن استجابة، وحين تولّد الرموز واحداً تلو الآخر في سلسلة متتالية، تتراكم تكلفة الرحلة ذهاباً وإياباً إلى الذاكرة لتشكّل الحد الأدنى للزمن الاستجابة.
تُهاجم LPU من Groq هذا الاختناق مباشرة. بدلاً من HBM، يستخدم LPU ذاكرة SRAM على الرقيقة — ذاكرة مدمجة مباشرة في قالب المعالج. ذاكرة SRAM على الرقيقة أسرع في الوصول بمراتب. مع نموذج تنفيذ حتمي يُزيل التزاحم على الناقل المشترك وعبء تبديل السياق، يستطيع LPU الحفاظ على إنتاجية ثابتة ومتوقعة لا تستطيع مجموعات GPU مجاراتها في أحمال العمل الحساسة لزمن الاستجابة.
أما Cerebras فتتبنّى نهجاً مختلفاً لكنه ذو صلة. محرك WSE-3 عبارة عن رقاقة سيليكون واحدة بحجم طبق عشاء: 46,255 ملم مربع من السيليكون تحتوي على 4 تريليون ترانزستور و900,000 نواة محسّنة للذكاء الاصطناعي. ولأن النموذج بأكمله يتلاءم مع قطعة سيليكون واحدة مع 44 جيجابايت من SRAM على الرقيقة، تختفي مشكلة عرض نطاق الذاكرة التي تُعيق استدلال GPU. تُفيد Cerebras بعرض نطاق ذاكرة فعّال يفوق Nvidia H100 بـ 7,000 مرة — وتؤكد نتائج معاييرها المرجعية هذه الميزة على نطاق واسع.
Groq: زمن استجابة دون الميلي ثانية كمنتج تجاري
المنتج التجاري لـ Groq هو GroqCloud، وهو خدمة استدلال تعتمد على API يمكن للمطورين الوصول إليها دون شراء أي أجهزة. منذ إطلاقه العلني، استقطب GroqCloud أكثر من 1.9 مليون مطوّر وعملاء من الشركات الكبرى من بينها Dropbox وVolkswagen وRiot Games.
أرقام الأداء موثّقة جيداً من قِبل مختبري معايير مستقلين. قاس موقع ArtificialAnalysis.ai واجهة برمجة التطبيقات (API) الخاصة بنموذج Llama 2 70B من Groq بـ 241 رمزاً في الثانية في اختبارات مستقلة — متفوقاً بفارق كبير على أي منافس قائم على GPU من حيث الإنتاجية. يقل وقت الحصول على أول رمز عن 300 ميلي ثانية لمعظم النماذج، مع إمكانية تحقيق زمن استجابة دون الميلي ثانية للتكوينات الأصغر والمُحسَّنة.
تعكس الأسعار الضغط التنافسي المتصاعد في سوق الاستدلال. في أواخر 2025، تفرض Groq 0.11 دولار لكل مليون رمز مدخل و0.34 دولار لكل مليون رمز مُخرَج لنموذج Llama 4 Scout — مما يضعها أدنى بكثير من مزودي الخدمة المتميزين القائمين على GPU. يعمل Llama 3 70B بسعر 0.59/0.79 دولار لكل مليون رمز. بالنسبة للفرق التي تُشغّل أحمال عمل استدلال عالية الحجم، يمكن لهذه الأسعار أن تُغيّر جوهرياً الاقتصاديات الوحدوية لمنتج الذكاء الاصطناعي.
الإشارة من كبار اللاعبين لا لبس فيها بشأن المكانة الاستراتيجية لـ Groq: أبرمت Nvidia صفقة ترخيص بـ 20 مليار دولار مع Groq، اعترافاً منها بأن رقائق الاستدلال المتخصصة تمثّل سوقاً دائمة لا مجرد حداثة مؤقتة.
إعلان
Cerebras: حين يكون النموذج أكبر من أن يتلاءم مع أي GPU
بينما تُحسّن Groq زمن الاستجابة، تُحسّن Cerebras الإنتاجية الخام على أكبر النماذج. أثبت معيار WSE-3 المرجعي لعام 2025 عند 969 رمزاً مخرجاً في الثانية لنموذج Llama 3.1-405B — ذي 400+ مليار معامل — أداءً في الاستدلال لا تستطيع مجموعات GPU تكراره إلا بتوازٍ هائل عبر عشرات المعالجات H100.
الجذب المؤسسي حقيقي. أعلنت Mayo Clinic عن شراكة في نموذج أساسي جينومي مع Cerebras في مؤتمر J.P. Morgan للرعاية الصحية في يناير 2025. دمجت ZS أنظمة CS-3 من Cerebras في منصتها MAX.AI في أبريل 2025. والأهم من ذلك، وقّعت OpenAI في يناير 2026 اتفاقية لتوفير Cerebras 750 ميغاواط من القدرة الحسابية حتى عام 2028 — عقد تُقدَّر قيمته بأكثر من 10 مليارات دولار يضع Cerebras في صميم سير عمل النظام البيئي للذكاء الاصطناعي الأكثر أهمية.
كذلك تقترب Cerebras من اختبار في الأسواق العامة: إذ تستهدف طرحاً عاماً أولياً في الربع الثاني من 2026، وهو ما سيوفر أول معيار تقييمي علني واضح لشركات البنية التحتية للاستدلال المتخصص.
المشهد التنافسي في 2026
لا تعمل Groq وCerebras في سوق يضم لاعبَين فقط. أصبح مشهد أجهزة الاستدلال مكتظاً وتنافسياً بحق.
يُقدّم TPU Trillium v6 من Google زمن استجابة استدلال للنماذج اللغوية في نطاق 5–20 ميلي ثانية بتكاليف أقل بنحو 30% من Nvidia H100. ذهب AWS Inferentia2 أبعد من ذلك، مدّعياً تكاليف أقل بـ 70% من H100 مع 4 أضعاف الإنتاجية للتطبيقات داخل منظومة AWS. في فبراير 2026، كشفت SambaNova عن رقيقة SN50 مزاعم أسرع بـ 5 مرات من المنافسين وبتكلفة إجمالية للملكية أقل بـ 3 مرات من GPU. ويصل TPU v7 Ironwood القادم من Google إلى 4,614 تيرافلوب لكل رقيقة — يضعه المحللون على قدم المساواة مع جيل Blackwell من Nvidia.
في الوقت ذاته، تضاعف عدد مزودي الاستدلال من 27 في مطلع 2025 إلى 90 بنهاية العام. أفضى هذا الضغط التنافسي إلى أحد أشد انخفاضات التكلفة إثارة في تاريخ التكنولوجيا: الاستدلال المعادل لـ GPT-4 الذي كان يُكلّف 20 دولاراً لكل مليون رمز في أواخر 2022 بات يعمل الآن بنحو 0.40 دولار لكل مليون رمز — تراجع بمقدار 50 ضعفاً في ثلاث سنوات.
Nvidia لا تقف مكتوفة الأيدي. تُقدّم بنية Blackwell (B100/B200) نحو ضعفَي أداء الاستدلال مقارنة بـ Hopper H100، ولا يزال النظام البيئي البرمجي CUDA — عشرون عاماً من استثمارات المطورين — الحصن الأكثر متانة في البنية التحتية للذكاء الاصطناعي. التحوّل بعيداً عن الأدوات الأصيلة في CUDA تكلفة هندسية حقيقية لا تتحمّسها معظم الفرق.
أي أحمال العمل تستفيد فعلياً
ليس كل حمل عمل استدلال ينبغي أن ينتقل إلى السيليكون المتخصص. يعتمد الحساب العملي على خصائص حمل العمل.
LPU من Groq مناسب تحديداً للتطبيقات الحساسة لزمن الاستجابة والتي تعمل في الوقت الفعلي حيث يؤثر وقت الاستجابة مباشرة على تجربة المستخدم: روبوتات المحادثة، والذكاء الاصطناعي الصوتي، والبحث في الوقت الفعلي، ومساعدي المستندات التفاعليين. إذا كان وقت الحصول على أول رمز مقياساً للمنتج، فإن أداء Groq الحتمي دون الميلي ثانية ميزة تنافسية تستحق التقييم.
أما Cerebras فتستهدف فئة النماذج ذات أكبر عدد من المعاملات — السيناريوهات التي يكون فيها تشغيل Llama 3.1-405B أو نماذج مماثلة الحجم في الإنتاج ضرورة لا خياراً. الذكاء الاصطناعي في الرعاية الصحية، ومعالجة المستندات القانونية، والوكلاء المؤسسيون الذين يحتاجون قدرة استدلال عميقة بسرعة، هي الاستخدامات الأنسب طبيعياً.
بالنسبة للتطبيقات المرنة متعددة النماذج، وخطوط الأنابيب المختلطة بين المعالجة الدفعية والوقت الفعلي، أو الفرق المدمجة بعمق في المنظومات السحابية القائمة (AWS، Google Cloud)، تظل البنية التحتية القائمة على GPU مع Inferentia أو TPU كإضافة الخيارَ العملي في الغالب. للمرونة قيمة حقيقية.
سوق الاستدلال السحابي عند مستهل 2026 ليس منافسة يفوز فيها لاعب واحد. إنه تجزئة: يفوز السيليكون المتخصص بشكل مقنع في ملفات أحمال عمل محددة، في حين تحتفظ منصات GPU بميزة اتساع المنظومة. السؤال الذي يواجه أي فريق ذكاء اصطناعي هو ما إذا كان حمل عمله المحدد يقع في الشريحة التي يُقدّم فيها أجهزة الاستدلال المتخصصة عوائد تبرّر تكلفة التكامل.
إعلان
🧭 رادار القرار (المنظور الجزائري)
| البُعد | التقييم |
|---|---|
| الأهمية بالنسبة للجزائر | متوسطة — تواجه الشركات الناشئة والمؤسسات الجزائرية التي تنشر النماذج اللغوية تكاليف استدلال مرتفعة؛ الخيارات الأسرع والأرخص تُقلّص هذا العائق |
| الجاهزية التحتية؟ | جزئية — الوصول عبر API السحابية إلى Groq وCerebras متاح عالمياً؛ البنية التحتية المحلية للاستدلال بـ GPU ضئيلة |
| المهارات المتاحة؟ | جزئية — مهندسو تعلّم الآلة القادرون على تحسين خطوط أنابيب الاستدلال موجودون في كبرى شركات التكنولوجيا والجامعات |
| الجدول الزمني للعمل | 6-12 شهراً — ينبغي للفرق التي تبني منتجات ذكاء اصطناعي تقييم مزودي الاستدلال الآن |
| أصحاب المصلحة الرئيسيون | المدير التقني، مهندسو تعلّم الآلة، مؤسسو الشركات الناشئة في الذكاء الاصطناعي، مهندسو البنية السحابية في تكنولوجيا المال والحكومة الإلكترونية |
| نوع القرار | تكتيكي |
خلاصة سريعة: ينبغي للفرق الجزائرية في مجال الذكاء الاصطناعي التي تدفع أسعاراً مرتفعة لـ GPU من Nvidia للاستدلال أن تُقيّم فوراً بدائل Groq وCerebras. الفوارق في زمن الاستجابة والتكلفة كبيرة بما يكفي لتغيير اقتصاديات المنتج — لا سيما للتطبيقات الآنية كروبوتات المحادثة والبحث ومعالجة المستندات.
المصادر والقراءات الإضافية
- محرك استدلال Groq LPU يتصدّر أول معيار عام للنماذج اللغوية — Groq
- أسعار Groq عند الطلب — Groq
- Cerebras تطلق أسرع استدلال ذكاء اصطناعي في العالم — Cerebras
- استدلال Cerebras: رقم قياسي لنموذج Llama 3.1-405B — Cerebras
- إعلان WSE-3 من Cerebras: 4 تريليون ترانزستور — Cerebras
- الاستدلال في الذكاء الاصطناعي سيُحدّد ملامح 2026 — SDxCentral
- سوق الاستدلال في الذكاء الاصطناعي سيبلغ 254.98 مليار دولار بحلول 2030 — MarketsAndMarkets
- Nvidia وGoogle TPUs وAWS Trainium: مقارنة أبرز رقائق الذكاء الاصطناعي — CNBC




إعلان