الإعلانات التي غيّرت المعادلة
افتُتح Computex 2026 في الثاني من يونيو بمشاركة 1500 شركة تكنولوجية موزّعة على 6000 جناح تحت شعار «AI Together» — حجم قياسي لمعرض طالما كان مقياساً لاتجاهات البنية التحتية. لكن الحدث الذي سيُشكّل تخطيط بنية المؤسسات للأربعة والعشرين شهراً القادمة لم يكن في قاعات الجمهور العام. كان في إعلانات البنية التحتية للذكاء الاصطناعي على مستوى الرف الصادرة عن Intel وNVIDIA وشركة ناشئة تُسمّى Vector Core Compute لم يكن معظم مهندسي بنى المؤسسات يعلمون بوجودها.
صعد Lip-Bu Tan الرئيس التنفيذي لشركة Intel إلى منصة Computex ليُعلن عن Intel Xeon 6+، أول وحدة معالجة مركزية لمراكز البيانات تبنيها الشركة على عقدة معالجة Intel 18A. المواصفة الرئيسية: رف واحد مبرّد بالسوائل يُوفّر 36,864 نواة CPU في 32U من المساحة بطاقة تقريبية تبلغ 100 كيلووات للرف — كثافة تُعيد الحوسبة للأغراض العامة منافساً حقيقياً من الدرجة الأولى في الاستدلال. وإلى جانب ذلك، كشفت Intel وSambaNova وFoxconn عن بنية تحتية للذكاء الاصطناعي جاهزة للإنتاج تجمع بين معالجات Xeon ووحدات SambaNova SN-50 RDU لأحمال عمل الاستدلال.
كان إعلان NVIDIA الموازي بالقدر ذاته من الأهمية. منصة Vera Rubin — التي دخلت الإنتاج الكامل بسلسلة توريد وُصفت بأنها ضعف حجم Grace Blackwell — تأتي مع NVIDIA Vera CPU المخصص الذي يضمّ 88 نواةً وعرض نطاق LPDDR5X بسرعة 1.2 تيرابايت/ثانية وشبكة داخلية بسرعة 3.6 تيرابايت/ثانية. تمركُّز NVIDIA صريح: هذا «معالج للوكلاء». يجمع Vera Rubin NVL72 بين 36 وحدة Vera CPU و72 وحدة Rubin GPU موحّدة بـ NVLink 6 Switch، وعند إقرانها بـ Groq 3 LPX تحقق 35 ضعفاً من الإنتاجية لكل وات للنماذج التي تتضمن تريليون معامل.
ما يعنيه الاستدلال الموزّع فعلاً
بالنسبة لمعظم مهندسي بنى المؤسسات، بدا «الاستدلال الموزّع» مفهوماً مختبرياً. Computex 2026 جعله عملياً. الفكرة الأساسية هي أن طلب الاستدلال على نموذج كبير يمكن تحليله إلى مراحل حسابية متمايزة — التحميل المسبق (معالجة طلب الإدخال في ذاكرة التخزين المؤقت للمفاتيح والقيم)، والفك (توليد الرموز الذاتية التراجعي)، والتنسيق (التوجيه وإدارة السياق واستدعاءات الأدوات) — كل منها بملف حسابي مختلف جذرياً، وبالتالي يُخدَم على أفضل وجه بفئة مختلفة من العتاد.
التحميل المسبق مرتبط بـ GPU: إنه عملية مصفوفة كثيفة تستفيد من التوازي العالي الإنتاجية. الفك مرتبط بعرض نطاق الذاكرة لا بالطاقة الحسابية الخام: يقرأ ذاكرة KV في كل خطوة رمز، مما يجعله مرشحاً أفضل لمسرّعات الفك المتخصصة مثل وحدات SambaNova SN40 RDU. أما التنسيق — لا سيما في التدفقات الوكيلية حيث يجب على الوكيل الحفاظ على الحالة واستدعاء الأدوات وتقييم النتائج والتكرار — فهو منطق تفريعي حساس للتأخر يعمل بكفاءة أعلى على معالجات CPU عالية عدد الأنوية مع ذاكرات تخزين مؤقت كبيرة وسريعة.
Vector Core Compute، التي أنشأتها Vista Equity Partners وCambium Capital وتشغّل مجموعة إنتاج من Los Angeles، هي أول حالة موثّقة علناً لعمل الطبقات الثلاث كمجموعات منفصلة قابلة للتوسع باستقلالية. تستخدم منظومتها Intel Xeon 6 للتنسيق، وSambaNova SN40 RDUs للفك، وGPU NVIDIA Blackwell للتحميل المسبق. وفقاً للمعايير المستقلة لـ Artificial Analysis، حققت هذه التهيئة أسرع استدلال للمؤسسات على نموذج MiniMax 2.5. قدّم المحلل Ben Bajarin من Creative Strategies التحوّل المعماري بدقة: الاستدلال الوكيلي يغيّر نسبة CPU-GPU «من حوالي معالج واحد لكل GPU (أو أقل)» مقارنةً بنموذج التدريب.
يعزّز Nemotron 3 Ultra من NVIDIA الحجة الاقتصادية. النموذج ذو 550 مليار معامل القائم على mixture-of-experts — والذي اعتمدته مبكراً شركات مثل Perplexity وPalantir وServiceNow وCrowdStrike — يُقدّم أداءً في الاستدلال أسرع بـ 5 أضعاف وتخفيضاً في التكلفة يصل إلى 30% للمهام الوكيلية المعقدة. هذا التخفيض بنسبة 30% يمكن تحقيقه بالضبط لأن الاستدلال الموزّع يسمح للمشغّلين بضبط حجم كل طبقة باستقلالية بدلاً من شراء طاقة GPU لكل مرحلة من مراحل حمل العمل.
إعلان
ما يجب على مهندسي البنية السحابية فعله
إعلانات Computex 2026 ليست إشارات للتخطيط المستقبلي — إنها تصف أنظمة إنتاجية تعمل اليوم. مهندسو البنية السحابية الذين يتعاملون مع هذا الأمر باعتباره بنداً للمراقبة سيجدون أنفسهم يحدّدون مجموعات كثيفة بـ GPU غير متوافقة معمارياً مع أحمال العمل الوكيلية.
1. مراجعة مجموعة الاستدلال الحالية للتحقق من جاهزيتها لفصل المراحل
قبل أي قرار شراء، ضع ملفاً تعريفياً لأحمال عمل الاستدلال الحالية لديك لتحديد مقدار وقت الحوسبة الذي يُخصَّص للتحميل المسبق وللفك وللتنسيق على التوالي. معظم الفرق التقنية في المؤسسات التي تُشغّل استدلالاً GPU أحادياً لم تُجرِ هذا القياس قط — اشترت طاقة GPU وفق افتراضات عصر التدريب وطبّقتها بشكل موحّد على الاستدلال. أدوات كـ NIM microservices من NVIDIA ودعم vLLM الحديث للتوزيع تكشف التأخر والإنتاجية لكل مرحلة، مما يجعل المراجعة ممكنة دون قياس مخصص. نتائج الإنتاج لدى Vector Core Compute — أسرع استدلال على MiniMax 2.5 وفقاً لـ Artificial Analysis — تثبت أن المجموعات ذات المراحل المفصولة تتفوق على عمليات النشر المنوحدة على المهام الوكيلية الحساسة للتأخر حتى قبل الأخذ بعين الاعتبار التكلفة لكل رمز. إذا كانت مجموعتك الحالية تُشغّل أحمال عمل وكيلية (وكلاء باستدعاء أدوات، سلاسل استدلال متعددة الخطوات، حلقات استرداد سياق طويل)، فهذه المراجعة متأخرة بالفعل.
2. تقييم مسرّعات الفك المتخصصة قبل دورة الشراء التالية من GPU
وحدات SambaNova SN40 وSN-50 RDU المُعلَن عنها في Computex في نشر إنتاجي بالفعل مع Vector Core Compute وفي البنية التحتية رفيعة المستوى Intel-SambaNova-Foxconn. دورها في منظومة موزّعة محدد: خدمة عمليات مرحلة الفك حيث يهيمن عرض نطاق الذاكرة لكل رمز على FLOPS الخام. هذه هي مرحلة حمل العمل الأسوأ أداءً في مجموعات GPU للمؤسسات — معالج GPU يكلّف 40,000 دولار ويُوفّر 60 تيرافلوبس يكون مُستغَلاً استغلالاً ضعيفاً أثناء الفك المتسلسل لأن الاختناق هو عرض نطاق الذاكرة وليس إنتاجية الحساب. بالنسبة للمؤسسات التي تُشغّل الاستدلال على نطاق واسع (مئات الجلسات المتزامنة)، يمكن أن يُقلّل إدراج طبقة مسرّع فك متخصصة من متطلبات سعة GPU لنفس الإنتاجية، مما يخفّض تكلفة الرمز الواحد مباشرةً. تؤكد إعلانات Computex أن هذا ليس تجريبياً: أنظمة رفيعة المستوى تصنّعها Foxconn بهذه الطوبولوجيا في الإنتاج بالفعل.
3. إعادة تصميم استراتيجية تخصيص CPU لتنسيق الوكلاء
NVIDIA Vera CPU — 88 نواةً، عرض نطاق 1.2 تيرابايت/ثانية، «معالج للوكلاء» — هو الإعلان الأهم معمارياً في Computex 2026 لفرق البنية التحتية في المؤسسات. يُشير إلى أن NVIDIA نفسها أقرّت بأن وحدات CPU ليست طرفية في منظومات الذكاء الاصطناعي: إنها حاملة للحمل في مرحلة التنسيق من الاستدلال الوكيلي. للفرق التقنية في المؤسسات التي لا تعمل بعد بـ NVIDIA Vera Rubin، التداعي فوري: يجب إدراج معالجات CPU عالية عدد الأنوية من الجيل الحالي (Intel Xeon 6، AMD EPYC) في تصميمات مجموعات الاستدلال مع تخصيص واعٍ لتنسيق الوكلاء، لا معاملتها كطاقة متبقية بعد توفير GPU. ASUS XA NR1I-E12L — نظام مبرّد هجيناً يجمع NVIDIA HGX Rubin NVL8 مع Intel Xeon 6 — متاح بالفعل كـ SKU للمؤسسات يُجسّد هذا الإقران. عند تحديد مواصفات عقد استدلال جديدة، خطّط لنسب CPU-GPU بناءً على مزيج أحمال العمل الوكيلية: كلما اقترب حمل العمل لديك من الوكيلي الخالص (استدعاء أدوات، متعدد الأدوار، سياق طويل)، كلما كانت نسبتك الهدف أقرب إلى 1:1.
إلى أين تتجه بنية تحتية الذكاء الاصطناعي للمؤسسات
تُغلق إعلانات Computex 2026 سرديةً كانت تتشكّل منذ أواخر 2024: الأحادية المعتمدة على GPU من عصر التدريب ليست البنية الصحيحة للاستدلال، وسوق الاستدلال كبير بما يكفي لتبرير بدائل مُصمَّمة خصيصاً له. الأرقام في Computex تجعل هذا ملموساً. يُقلّص Vera Rubin NVL72 من NVIDIA وقت تجميع صواني الحوسبة من ساعتين إلى خمس دقائق — مكسب كفاءة تشغيلية يعكس سلسلة توريد ناضجة. يعني معيار MGX لمصنع الذكاء الاصطناعي المعياري، بأكثر من 150 شريكاً في النظام البيئي في تايوان في 350+ مصنعاً في 30 دولة، أن مكونات الاستدلال الموزّع على مسار توريد وتكامل يمكن التنبؤ به.
الاتجاه واضح: سترى السنتان القادمتان طبقات التدرّج في الاستدلال تتخصص. بائعو GPU يعلمون ذلك — Vera CPU الخاص بـ NVIDIA هو اعتراف بأن المعالجات المركزية تنتمي إلى مركز البنية التحتية للذكاء الاصطناعي الوكيلي. بالنسبة لمهندسي البنية السحابية للمؤسسات، نافذة التخطيط المنظّم هي الآن. تتطلب مجموعات الاستدلال الموزّع شراءً مختلفاً وشبكات مختلفة (NVLink 6، Spectrum-X Ethernet Photonics) وتبريداً مختلفاً (100% سائل عند درجة حرارة 45 مئوية للتهيئات عالية الكثافة) وتنسيق برمجيات مختلفاً (NVIDIA OpenShell، NemoClaw) مما تُشغّله معظم المؤسسات حالياً. المؤسسات التي تبدأ إعادة التصميم المعماري في 2026 ستُشغّل منظومات استدلال وكيلية محسّنة في 2027.
الأسئلة الشائعة
ما هو الاستدلال الموزّع ولماذا يهم ذكاء الاصطناعي للمؤسسات؟
يقسم الاستدلال الموزّع عملية استدلال النموذج اللغوي الكبير إلى مراحل حسابية متمايزة — التحميل المسبق والفك والتنسيق — كل منها يعمل على عتاد محسَّن لمتطلبات تلك المرحلة تحديداً. يهمّ المؤسسات لأن مجموعات GPU الأحادية المُصمَّمة للتدريب مُوفَّرة زيادةً كبيرة وتُستغَل استغلالاً ضعيفاً أثناء مراحل الفك والتنسيق. يتيح التوزيع لكل طبقة التوسع باستقلالية، مما يُقلّل التكلفة لكل رمز ويُحسّن التأخر لأحمال عمل الذكاء الاصطناعي الوكيلية التي تتضمن استدعاءات أدوات واستدلالاً متعدد الخطوات واسترداد السياق الطويل.
ما الذي تعنيه نسبة CPU-GPU البالغة 1:1 عملياً؟
النسبة 1:1 التي أشار إليها المحلل Ben Bajarin من Creative Strategies في سياق إعلانات Intel في Computex تعكس التوازن المطلوب للاستدلال الوكيلي في مقابل التدريب. في التدريب، تهيمن GPU لأن حمل العمل عبارة عن عمليات مصفوفة كثيفة تستفيد من أقصى قدر من التوازي. في الاستدلال الوكيلي، يستهلك التنسيق المستمر وإدارة الحالة ومنطق التفريع دورات CPU مهمة — مما يحوّل النسبة المثلى للعتاد نحو التكافؤ. عملياً، هذا يعني أن تصميمات مجموعات الاستدلال الجديدة يجب أن تُخصّص طاقة CPU بمستوى مماثل لطاقة GPU، لا معاملة المعالجات المركزية كعقد إدارة ثانوية.
متى يجب على المؤسسة البدء في التخطيط لتبني الاستدلال الموزّع؟
الآن، وفقاً لدليل Computex 2026. مجموعة الإنتاج الخاصة بـ Vector Core Compute تُوفّر بالفعل أداء استدلال رائداً في الصناعة على MiniMax 2.5 باستخدام منظومة موزّعة. SKUs خوادم المؤسسات من ASUS التي تجمع Intel Xeon 6 وNVIDIA Rubin متاحة للشراء. تمتد دورة التخطيط لبنية تحتية مراكز البيانات للمؤسسات عادةً من 18 إلى 24 شهراً، مما يعني أن قرارات الشراء المتخذة في أواخر 2026 ستُشغّل أحمال عمل وكيلية في 2028. انتظار المزيد من نضج التكنولوجيا يخاطر بتثبيت طوبولوجيا GPU-فقط الأقل كفاءةً معمارياً للذكاء الاصطناعي الوكيلي.









