ضريبة GPU على الاستدلال في الذكاء الاصطناعي

تظل هيمنة Nvidia على سوق مسرّعات الذكاء الاصطناعي واحدة من أكثر الاحتكارات استثنائية في تاريخ التكنولوجيا. تسيطر الشركة على أكثر من 90% من سوق مسرّعات GPU، ووصلت إيراداتها من مراكز البيانات إلى 51.2 مليار دولار في الربع الثالث المالي لعام 2026 وحده — بزيادة 66% على أساس سنوي تمثل الآن 90% من إجمالي إيرادات الشركة. لكن عدداً متزايداً من مهندسي الرقائق ومؤسسي الشركات الناشئة ومهندسي الشركات الكبرى يؤكدون أن عهد Nvidia يواجه أكبر تحدٍّ موثوق حتى الآن — ليس من صانع GPU آخر، بل من نهج مختلف تماماً في تصميم السيليكون.

يأتي التحدي من الدوائر المتكاملة المخصصة للتطبيقات (ASIC): رقائق مصممة من الصفر لأداء الاستدلال في الذكاء الاصطناعي (Inference) — عملية تشغيل النماذج المدربة لتوليد التنبؤات والترجمات والصور والنصوص — بأقصى كفاءة. على عكس وحدات GPU، وهي معالجات متوازية عامة الأغراض مُكيَّفة لأحمال عمل الذكاء الاصطناعي، تضحي رقائق ASIC للاستدلال بالتعددية مقابل أداء خام على مجموعة ضيقة من العمليات. النتيجة، كما يزعم مصمموها، هي أداء أفضل بشكل كبير لكل واط وأداء أفضل لكل دولار مما يمكن لأي GPU تحقيقه.

الاقتصاد الذي يدفع هذا التحول مباشر. بينما يحظى التدريب على الذكاء الاصطناعي بالعناوين، يمثل الاستدلال ما يقدر بـ 60% إلى 80% من إجمالي إنفاق الحوسبة على الذكاء الاصطناعي في بيئات الإنتاج. من المتوقع أن يتجاوز سوق الرقائق المحسنة للاستدلال 50 مليار دولار في 2026. في كل مرة يسأل فيها مستخدم ChatGPT سؤالاً، في كل مرة يترجم فيها Google جملة، في كل مرة يقدم فيها محرك توصيات تغذية مخصصة — ذلك استدلال. على هذا النطاق، حتى التحسينات المتواضعة في الكفاءة تترجم إلى مليارات الدولارات في التوفير. وتحسينات الكفاءة التي تعد بها رقائق ASIC المخصصة للاستدلال ليست متواضعة على الإطلاق.

Taalas HC1: ترسيخ الذكاء في السيليكون

يأتي النهج الأكثر جذرية لتسريع الاستدلال من Taalas، شركة ناشئة طورت HC1 — رقاقة تدمج حرفياً أوزان النموذج في نسيج الترانزستورات. مسرّعات الذكاء الاصطناعي التقليدية، بما فيها وحدات GPU ومعظم رقائق ASIC الأخرى، تخزن أوزان النموذج في الذاكرة وتنقلها إلى وحدات الحوسبة للمعالجة. هذا التنقل للبيانات من الذاكرة إلى الحوسبة هو عنق الزجاجة الرئيسي في أداء الاستدلال والمستهلك الأول للطاقة.

يلغي Taalas HC1 عنق الزجاجة هذا كلياً. أثناء التصنيع، تُشفَّر الأوزان المحددة لنموذج ذكاء اصطناعي مستهدف — في هذه الحالة Llama 3.1 8B — مباشرة في الطبقات المعدنية للرقاقة. لا يوجد وصول للذاكرة، ولا تنقل للبيانات، ولا عنق زجاجة في عرض النطاق الترددي. تحدث الحوسبة حيث تقيم البيانات — في الترانزستورات نفسها. تبقى بعض ذاكرة SRAM على الرقاقة للعناصر الديناميكية مثل ذاكرة التخزين المؤقت KV والأوزان المضبوطة، لكن معلمات النموذج الأساسية مخبوزة فيزيائياً في السيليكون.

أرقام الأداء ملفتة للنظر. تُفيد Taalas أن HC1 يُنتج حوالي 17,000 رمز (token) في الثانية على Llama 3.1 8B، مع اختبارات واقعية تُظهر 15,000 إلى 16,000 رمز في الثانية على الاستعلامات النموذجية وذروات تقترب من 20,000 رمز في الثانية على المدخلات الأبسط — مع استهلاك 250 واط فقط. للمقارنة، يُنتج GPU Nvidia H100 الفاخر، بالاستهلاك 700 واط، عادةً بضعة آلاف رمز في الثانية لأحجام نماذج مماثلة. يمثل ذلك ميزة إنتاجية تبلغ حوالي 10 أضعاف بثلث استهلاك الطاقة.

القيد الواضح لنهج Taalas هو عدم المرونة. رقاقة مبرمجة مسبقاً لنموذج محدد لا يمكن إعادة استخدامها لنموذج آخر دون تصنيع رقاقة جديدة. لكن Taalas عالجت تحدي وقت التحول: بتغيير الأقنعة المعدنية العلوية فقط أثناء التصنيع، تستغرق عملية تحويل الأوزان إلى سيليكون شهرين فقط. تتضمن خارطة طريق الشركة نموذجاً ثانياً (نموذج لغوي كبير متوسط الحجم للتفكير) على سيليكون HC1 متوقعاً في ربيع 2026، يليه نموذج لغوي كبير رائد على منصة الجيل الثاني HC2 بكثافة أعلى وتنفيذ أسرع، مستهدفاً شتاء 2026.

اقتصاديات HC1 قابلة للتطبيق فقط للنماذج ذات الطلب الهائل والمستدام على الاستدلال — بالضبط الوضع الذي يواجهه مزودو النماذج اللغوية الكبيرة الذين يخدمون ملايين المستخدمين. بالنسبة لحفنة النماذج التي تهيمن على الاستدلال التجاري للذكاء الاصطناعي، قد يكون لرقاقة مخصصة لكل نموذج معنى اقتصادي مقنع.

SambaNova والحل الوسط القابل لإعادة التكوين

حيث تمثل Taalas الطرف الأقصى من تخصص الاستدلال، تحتل SambaNova Systems حلاً وسطاً بهندستها المعمارية لتدفق البيانات القابلة لإعادة التكوين (Reconfigurable Dataflow Architecture – RDA). رقائق SambaNova ليست مبرمجة مسبقاً لنماذج محددة لكنها مصممة لتحسين أنماط تدفق البيانات الشائعة في استدلال الذكاء الاصطناعي، مرتبةً وحدات الحوسبة في بنية مكانية تقلل حركة البيانات مع الحفاظ على القدرة على تشغيل نماذج مختلفة.

جمعت SambaNova 350 مليون دولار في فبراير 2026، بقيادة Vista Equity Partners، مع استثمار Intel حوالي 100 مليون دولار (مع التزامات محتملة تصل إلى 150 مليون دولار). جاء التمويل بعد توقف مفاوضات الاستحواذ بين Intel وSambaNova — حيث ناقشت Intel شراء الشركة الناشئة بحوالي 1.6 مليار دولار. تمثل الشراكة الاستراتيجية الناتجة اعتراف Intel بأن الشراكة مع شركات الهندسة المعمارية المبتكرة قد تكون مساراً أكثر جدوى لتحدي Nvidia من جهودها الداخلية في المسرّعات.

بالتزامن مع التمويل، كشفت SambaNova عن رقاقة SN50، ترقية كبيرة عن SN40L من عام 2024، توفر أداءً أعلى بـ 2.5 مرة في الفاصلة العائمة 16 بت وأداءً أعلى بـ 5 مرات بدقة FP8. تستهدف SN50 أحمال استدلال المؤسسات حيث تحتاج المنظمات لتشغيل نماذج متعددة بكفاءة — محفظة من النماذج المتخصصة لمهام مختلفة بدلاً من نموذج ضخم واحد. حصلت SambaNova أيضاً على عقد رقائق مع SoftBank، مما يشير إلى جذب تجاري كبير.

سيناريو الاستدلال متعدد النماذج هذا شائع بشكل متزايد في نشر الذكاء الاصطناعي في المؤسسات، حيث قد تشغّل المنظمات نموذج لغة لخدمة العملاء، ونموذج رؤية لفحص الجودة، ونموذج سلاسل زمنية للتنبؤ بالطلب، ونموذج توصيات للتخصيص، كل ذلك على نفس البنية التحتية. حجة SambaNova بشأن “التحجيم الملائم” — أن وحدات GPU مفرطة التوفير بشكل كبير لمعظم أحمال الاستدلال — تلقى صدى لدى عملاء المؤسسات المحبطين من تكلفة الحفاظ على معدل استخدام مرتفع لسعة GPU مكلفة.

إعلان

السيليكون المخصص للشركات الكبرى: الثورة الهادئة

بينما تجذب شركات ناشئة مثل Taalas وSambaNova الانتباه بهندسات معمارية مبتكرة، يأتي أكبر تحدٍّ لهيمنة Nvidia في الاستدلال من الشركات الكبرى (Hyperscalers) أنفسهم. استثمرت Google وAmazon وMicrosoft وMeta بكثافة في سيليكون ذكاء اصطناعي مخصص، وتشغّل رقائقهم بشكل متزايد أحمال استدلال الإنتاج على نطاق هائل.

وحدات TPU من Google هي أكثر مسرّعات الذكاء الاصطناعي المخصصة نضجاً، وهي الآن في جيلها السادس (Trillium). يوفر Trillium زيادة 4.7 أضعاف في أداء الحوسبة القصوى لكل رقاقة مقارنة بسلفه، مع إنتاجية استدلال أعلى بـ 3 مرات وكفاءة طاقة أفضل بأكثر من 67%. حسّنت Google بشكل متزايد وحدات TPU للاستدلال، ويعمل جزء كبير من أحمال عمل الذكاء الاصطناعي الإنتاجية لدى Google — بما في ذلك Search وTranslate وGemini — على TPU. في صفقة تاريخية أُعلنت في أواخر 2025، التزمت Anthropic بمئات الآلاف من وحدات Trillium TPU لعام 2026، مع التوسع نحو مليون بحلول 2027.

وصل برنامج السيليكون المخصص من Amazon إلى نطاق هائل. يوفر Inferentia2 أداءً أفضل بنسبة تصل إلى 40% من حيث السعر مقابل الأداء مقارنة بالمثيلات القائمة على GPU لأحمال الاستدلال الشائعة، مع إبلاغ بعض العملاء عن توفيرات أكبر (أبلغت Leonardo.ai عن تخفيض تكاليف بنسبة 80% لبعض أحمال العمل). على جانب التدريب، ينشر مشروع Rainier — الذي فُعِّل في أكتوبر 2025 — قرابة 500,000 رقاقة Trainium2. أعلنت AWS أيضاً عن Trainium3 في re:Invent 2025، المصنوع بتقنية TSMC 3nm بقدرة 2.52 بيتافلوبس لكل رقاقة.

مسرّع Maia 100 من Microsoft، إحدى أكبر الرقائق على تقنية TSMC 5nm بـ 105 مليار ترانزستور، مصمم لأحمال عمل الذكاء الاصطناعي في مراكز بيانات Azure. ومع ذلك، واجهت الرقاقة اللاحقة (الاسم الرمزي Braga) تأخيرات، مع تأجيل الإنتاج الضخم لمدة ستة أشهر على الأقل بسبب تغييرات في التصميم طلبتها OpenAI تسببت في عدم استقرار في المحاكاة. يستهدف الجدول الزمني المعدل الإنتاج في 2026.

تسارع برنامج MTIA من Meta بشكل كبير. دخلت الرقاقة من الجيل الثالث (الاسم الرمزي Iris) في نشر واسع عبر مراكز بيانات Meta في مطلع 2026، محسّنة لأنظمة التوصيات وراء Facebook Reels وInstagram. تهدف Meta إلى تشغيل أكثر من 35% من إجمالي أسطولها للاستدلال على عتاد MTIA بنهاية 2026، مع الرقاقة من الجيل الرابع Santa Barbara قيد التحضير بالفعل، بنظام تبريد سائل وتكوينات تتجاوز 180 كيلوواط لكل خزانة.

تنمو شحنات ASIC المخصصة لتطبيقات الذكاء الاصطناعي بمعدل نمو سنوي مركب يقدر بـ 44.6%، مقارنة بـ 16.1% لوحدات GPU. في 2026، من المقرر أن تصل رقائق ASIC من الجيل الجديد للشركات الكبرى إلى كامل طاقتها، مما يمثل نقطة تحول حاسمة للبنية التحتية للذكاء الاصطناعي.

عامل Groq: السرعة كاستراتيجية

كانت إحدى أكثر الدخلات لفتاً للنظر في مشهد السيليكون المحسن للاستدلال هي Groq، التي اتخذت وحدة معالجة اللغة (Language Processing Unit – LPU) الخاصة بها نهجاً مختلفاً جذرياً: معالجة حتمية تلغي عبء الجدولة وعنق زجاجة الذاكرة في وحدات GPU.

أنتجت وحدة LPU من Groq استدلال Llama 2 70B بسرعة 300 رمز في الثانية — أسرع بحوالي 10 مرات من مجموعات Nvidia H100 التي تشغّل نفس النموذج — مع تحقيق كفاءة طاقة أفضل بـ 10 مرات على المستوى المعماري. أثبتت الشركة أنه بالنسبة للتطبيقات الحساسة لزمن الاستجابة، يمكن للسيليكون المصمم خصيصاً تقديم أداء لا تستطيع وحدات GPU ببساطة مجاراته.

كان رد Nvidia معبّراً: في ديسمبر 2025، استحوذت Nvidia على Groq مقابل 20 مليار دولار. أشار الاستحواذ إلى أن Nvidia تنظر إلى سيليكون الاستدلال المتخصص ليس كتهديد هامشي بل كقدرة استراتيجية تحتاج لامتلاكها. بدمج تقنية LPU من Groq، تهدف Nvidia لتقديم أفضل ما في العالمين لعملائها — وحدات GPU مرنة للتدريب وأحمال العمل المتنوعة، وعتاد استدلال محسن للنشر عالي الحجم والحساس لزمن الاستجابة.

يؤكد استحواذ Groq أيضاً نضج سوق عتاد الاستدلال. عندما يدفع المحتكر القائم 20 مليار دولار لشركة استدلال ناشئة، فإنه يصادق على الأطروحة الأساسية: سيليكون الاستدلال المحسن مختلف بما يكفي عن وحدات GPU العامة ليبرر هندسات معمارية مخصصة.

اقتصاديات التخصص

يرتكز الحجة الاقتصادية لصالح رقائق ASIC للاستدلال على مبدأ بسيط: التخصص يتيح الكفاءة. يجب على GPU العام تخصيص ميزانية ترانزستوراته للميزات اللازمة لعرض الرسوميات والحوسبة العلمية ومجموعة واسعة من عمليات الذكاء الاصطناعي. يمكن لرقاقة ASIC للاستدلال تكريس 100% من ميزانية ترانزستوراتها للعمليات المحددة اللازمة لتشغيل النماذج المدربة — بشكل رئيسي ضرب المصفوفات ودوال التنشيط وآليات الانتباه.

يترجم هذا التخصص إلى مزايا اقتصادية ملموسة. تشير تحليلات الصناعة إلى أن رقائق ASIC المخصصة للاستدلال يمكن أن توفر تخفيضات تكلفة تتراوح بين 40% و60% مقارنة بالاستدلال القائم على GPU لأحمال العمل التي صُمِّمت لها. تأتي الوفورات من مصادر متعددة: تكلفة رقاقة أقل (التصاميم الأبسط تتطلب ترانزستورات أقل وأحجام قالب أصغر)، واستهلاك طاقة أقل (طاقة مهدرة أقل على وظائف غير مستخدمة)، وإنتاجية أعلى (عمليات أكثر لكل دورة ساعة لحمل العمل المستهدف)، واستخدام أفضل (سعة خاملة أقل بين طلبات الاستدلال).

بالنسبة للشركات الكبرى التي تشغّل الاستدلال بنطاق مليارات الاستعلامات يومياً، حتى تخفيض تكلفة بنسبة 40% يترجم إلى وفورات تقاس بمليارات الدولارات سنوياً. هذا الحافز الاقتصادي يفسر لماذا استثمر كل مزود سحابي كبير في سيليكون مخصص رغم التكلفة الأولية الهائلة لتطوير الرقائق.

تفسر الاقتصاديات أيضاً لماذا تستثمر Nvidia بكثافة في تحسين الاستدلال لمنصتها GPU. برنامج TensorRT لتحسين الاستدلال ومنصة Inference Microservices والميزات المعمارية مثل محرك Transformer في وحدات GPU Hopper وBlackwell كلها ردود على تهديد بدائل الاستدلال المتخصصة. تدرك Nvidia أنها إذا خسرت الاستدلال لصالح رقائق ASIC، فإنها تخسر غالبية سوق حوسبة الذكاء الاصطناعي.

ماذا يعني هذا لـ Nvidia

موقع Nvidia ليس مهدداً بشكل فوري. المزايا البيئية للشركة — توافق برمجيات CUDA مع أكثر من 4 ملايين مطور، ودعم واسع للنماذج، وموثوقية مثبتة على نطاق واسع — تخلق خندقاً لا تستطيع أي شركة ASIC ناشئة بمفردها عبوره. لا تزال CUDA تقدم أداءً واقعياً أفضل بنسبة 10-30% على العديد من أحمال العمل مقارنة بالبدائل، فقط بفضل نضج البرمجيات. لكن التأثير التراكمي لعشرات البدائل المتخصصة، كل منها ينهش قطاعات محددة من سوق الاستدلال، مرئي بالفعل في بيانات السوق.

النتيجة الأكثر احتمالاً هي سوق متشعب — وهو يتشكل بالفعل. ستستمر وحدات GPU من Nvidia في الهيمنة على تدريب الذكاء الاصطناعي، حيث يفضل تنوع أحمال العمل والحاجة للتكرار السريع المسرّعات العامة. في الاستدلال، يتفتت السوق: سيليكون مخصص للشركات الكبرى لأكبر مزودي السحابة، ورقائق ASIC متخصصة لخدمات الاستدلال عالية الحجم، ووحدات GPU من Nvidia للذيل الطويل من أحمال عمل المؤسسات المتنوعة حيث تهم التعددية أكثر من الكفاءة القصوى.

من المتوقع أن تقود معالجات XPU — المعالجات التي ليست GPU ولا CPU، بما في ذلك رقائق ASIC والمسرّعات المخصصة — نمو إنفاق الحوسبة بنسبة 22% في 2026، متجاوزة وحدات GPU بنسبة 19% ووحدات CPU بنسبة 14%. إذا انخفضت حصة Nvidia في سوق الاستدلال من 90% إلى 50-60% خلال السنوات القادمة، فإن ذلك يمثل عشرات المليارات من الدولارات في الإيرادات السنوية المعرضة للخطر.

بالنسبة لممارسي الذكاء الاصطناعي وصنّاع قرارات البنية التحتية، الرسالة واضحة: أيام نهج GPU الموحد لاستدلال الذكاء الاصطناعي معدودة. ستتضمن أكثر استراتيجيات الاستدلال فعالية من حيث التكلفة في السنوات القادمة مطابقة أحمال العمل مع السيليكون الأنسب — وحدات GPU للتنوع، ورقائق ASIC للحجم، والسيليكون المخصص لأكبر المشغلين. احتكار GPU لا ينتهي، لكن ثقافة GPU الأحادية تنتهي.

إعلان

🧭 رادار القرار (المنظور الجزائري)

البُعد التقييم
الصلة بالجزائر متوسطة — البنية التحتية للذكاء الاصطناعي في الجزائر ناشئة، لكن مع نمو أحمال العمل السحابية والذكاء الاصطناعي المحلية (مركز بيانات الذكاء الاصطناعي في وهران، شراكة Huawei، نشر 5G)، سيصبح تحسين تكاليف الاستدلال ذا صلة لـ Algeria Telecom والعمليات الرقمية لـ Sonatrach والشركات الناشئة في الذكاء الاصطناعي
البنية التحتية جاهزة؟ لا — لا تملك الجزائر قدرة على تصميم السيليكون المخصص وحضورها محدود في صناعة أشباه الموصلات. سيأتي الوصول إلى الاستدلال المحسن بـ ASIC عبر مزودي السحابة (AWS Inferentia وGoogle TPU) بدلاً من النشر المحلي. مشروع Algeria Telecom-Huawei للعمود الفقري 400G لعام 2025 يحسن الاتصال لكنه لا يعالج تخصص الحوسبة
المهارات متوفرة؟ جزئياً — تُخرّج الجامعات الجزائرية خريجين أكفاء في علوم الحاسوب والهندسة الكهربائية، وبرامج مسابقة ICT من Huawei تطور مهارات السحابة. ومع ذلك، تبقى الخبرة في هندسة الرقائق وهندسة البنية التحتية المتقدمة للتعلم الآلي نادرة. المسار على المدى القريب هو استهلاك خدمات سحابية محسنة للاستدلال، وليس بناء سيليكون مخصص
الجدول الزمني للعمل 12-24 شهراً — مراقبة مشهد ASIC مقابل GPU لانعكاساته على أسعار السحابة. مع تبني المنظمات الجزائرية لأحمال عمل الذكاء الاصطناعي، يمكن لاختيار نوع مثيل السحابة المناسب (GPU مقابل Inferentia مقابل TPU) تحقيق توفير 40-60%
أصحاب المصلحة الرئيسيون مهندسو السحابة في Algeria Telecom والوكالات الرقمية الحكومية، المدراء التقنيون للشركات الناشئة في الذكاء الاصطناعي، باحثو الإلكترونيات الدقيقة الجامعيون، فرق البنية التحتية لتقنية المعلومات في Sonatrach وSonelgaz
نوع القرار استراتيجي — تشعب سوق الرقائق سيؤثر على تكاليف الحوسبة السحابية عالمياً. يجب على المنظمات الجزائرية التي تنشر الذكاء الاصطناعي تقييم مثيلات السحابة المحسنة للاستدلال الآن بدلاً من الاعتماد افتراضياً على مثيلات GPU

خلاصة سريعة: لن تصمم الجزائر أو تصنع رقائق ASIC للاستدلال، لكن ثورة ASIC تؤثر مباشرة على تكاليف الحوسبة السحابية التي تدفعها المنظمات الجزائرية. مع تسارع تبني الذكاء الاصطناعي في الجزائر — مدفوعاً بمركز بيانات الذكاء الاصطناعي في وهران وشراكات Huawei والتحول الرقمي الحكومي — يمكن لاختيار مثيلات سحابية محسنة للاستدلال بدلاً من مثيلات GPU الافتراضية تحقيق توفير يتراوح بين 40-60%. يجب على قادة تقنية المعلومات اختبار أحمال عملهم مقابل خيارات غير GPU (مثل AWS Inferentia وGoogle TPU) قبل الالتزام بسعة GPU مكلفة.

المصادر والقراءات الإضافية