إعلان GTC الذي أعاد رسم خريطة عتاد الذكاء الاصطناعي
في 16 مارس 2026، صعد Jensen Huang إلى منصة GTC في San Jose وكشف عن سلسلة من الإعلانات التي أرسلت موجات صدمة عبر كل مشغل مراكز بيانات ومزود خدمات سحابية وشركة ذكاء اصطناعي ناشئة على الكوكب. كان العنوان الرئيسي هو Groq 3 Language Processing Unit — أول شريحة من NVIDIA تنبثق من صفقة الترخيص واستقطاب المواهب بقيمة 20 مليار دولار مع Groq، التي أُعلن عنها ليلة عيد الميلاد 2025 وتمثل أكبر صفقة في تاريخ NVIDIA.
تم هيكلة الصفقة كاتفاقية ترخيص غير حصرية بدلاً من استحواذ تقليدي. حصلت NVIDIA على ترخيص تقنية الاستدلال من Groq ووظفت حوالي 90 بالمئة من موظفي Groq، بما في ذلك المؤسس Jonathan Ross والرئيس Sunny Madra. تواصل Groq العمل كشركة مستقلة تحت قيادة الرئيس التنفيذي الجديد Simon Edwards، رغم أن خدمة الاستدلال GroqCloud لم تكن جزءاً من الصفقة.
كانت الخطوة على طريقة Jensen المعتادة: جريئة وعمودية التكامل ومصممة لسد الثغرة الوحيدة في درع NVIDIA التي كان المنافسون يستغلونها بهدوء. هيمنت NVIDIA على تدريب الذكاء الاصطناعي لعقد من الزمن، لكن الاستدلال — تشغيل النماذج المدربة لإنتاج الإجابات وتوليد الصور وتشغيل وكلاء الذكاء الاصطناعي — يمثل تحدياً هندسياً مختلفاً حيث كانت بنية Groq الحتمية القائمة على SRAM تتفوق على الحلول المبنية على GPU في زمن الاستجابة وكفاءة الطاقة.
لماذا أصبح الاستدلال ساحة المعركة الجديدة
تدريب نموذج متقدم مكلف للغاية — مئات الملايين من الدولارات لتشغيل واحد. لكن التدريب يحدث مرة واحدة. الاستدلال يحدث مليارات المرات يومياً. كل استعلام في ChatGPT، كل نتيجة بحث يولدها الذكاء الاصطناعي، كل قرار يتخذه وكيل مستقل — كل ذلك استدلال. تقدر تقديرات الصناعة أن الاستدلال يمثل 60-70% من إجمالي إنفاق الحوسبة على الذكاء الاصطناعي، وهذه النسبة تتسارع مع انتقال العالم من بناء النماذج إلى نشرها على نطاق واسع.
المشكلة الجوهرية هي أن وحدات GPU، رغم تفوقها في التدريب من خلال عمليات ضرب المصفوفات المتوازية بشكل هائل، مفرطة التجهيز معمارياً للعديد من أحمال الاستدلال. استعلام مستخدم واحد لا يحتاج إلى 80 غيغابايت من عرض نطاق HBM3e. إنه يحتاج إلى توليد رموز سريع وحتمي بزمن استجابة متوقع. هذا التفاوت يفسر لماذا كانت شرائح الاستدلال المتخصصة من Groq وCerebras وغيرهما تكتسب زخماً لدى الشركات المحبطة من تكاليف الاستدلال على GPU.
كانت الرؤية الجوهرية لـ Groq هي القضاء على عنق الزجاجة في الذاكرة. تنقل مسرعات الذكاء الاصطناعي التقليدية البيانات بين وحدات الحوسبة وذاكرة DRAM أو HBM الخارجية، مما يخلق زمن استجابة ويستهلك طاقة هائلة. تضع بنية LPU من Groq كميات ضخمة من SRAM مباشرة على الشريحة، محتفظة بطبقات النموذج بالكامل في ذاكرة فائقة السرعة على الرقاقة. النتيجة: تنفيذ حتمي، زمن استجابة متوقع، وكفاءة طاقة أفضل جذرياً لأحمال الاستدلال.
LP30: جوهرة Groq تحصل على موارد NVIDIA
القطعة المحورية في قدرة الاستدلال لمنصة Vera Rubin هي LP30، شريحة LPU من الجيل التالي التي كانت Groq تطورها والتي تستفيد الآن من علاقات التصنيع لدى NVIDIA وميزانية البحث والتطوير شبه اللامحدودة. يُصنع LP30 بواسطة Samsung بعملية 4 نانومتر SF4X، مع تخطيط NVIDIA للشحن في الربع الثالث من 2026.
تمثل مواصفات LP30 قفزة جيلية:
- 512 ميغابايت من SRAM لكل شريحة — نصف غيغابايت من أسرع ذاكرة متاحة، مباشرة على الرقاقة. للمقارنة، يحتوي Blackwell B200 من NVIDIA على حوالي 64 ميغابايت من ذاكرة التخزين المؤقت L2. يمتلك LP30 ثمانية أضعاف ذلك من الذاكرة الخام على الرقاقة، مما يلغي الحاجة للوصول إلى الذاكرة الخارجية لمعظم عمليات الاستدلال.
- 150 تيرابايت/ثانية من عرض النطاق على الرقاقة — معدل نقل البيانات الداخلي داخل LP30 هو أكبر بنحو 7 مرات من عرض نطاق HBM4 لوحدة GPU Rubin البالغ 22 تيرابايت/ثانية لكل GPU. البيانات دائماً حيث يحتاجها الحساب.
- 1.23 PFLOPS بدقة FP8 من القدرة الحسابية — لكل شريحة، مع 98 مليار ترانزستور تقود أداء الاستدلال.
- رف LPX كامل: 256 وحدة LPU، 128 غيغابايت من SRAM المجمعة — يحتوي رف Vera Rubin LPX الكامل على 256 شريحة LP30 توفر 40 بيتابايت/ثانية من عرض النطاق المجمع. هذا كافٍ للاحتفاظ بطبقات النماذج الكبيرة بالكامل في الذاكرة على الرقاقة مع حد أدنى من حمل الاتصال بين الشرائح.
- 35 ضعفاً في الإنتاجية لكل ميغاواط مقارنة بـ Blackwell NVL72 — هذا هو الرقم الذي سيعيد تشكيل اقتصاديات مراكز البيانات. في وقت تكون فيه مراكز بيانات الذكاء الاصطناعي مقيدة بتوفر الطاقة، فإن تحسيناً بمقدار 35 ضعفاً في إنتاجية الاستدلال لكل وحدة كهرباء يعد تحولياً وليس تدريجياً.
Vera Rubin: رؤية الحوسبة غير المتجانسة
منصة Vera Rubin ليست مجرد وحدات GPU وLPU في نفس الرف. إنها تمثل أشمل نظام من NVIDIA حتى الآن: سبع شرائح وخمسة أنظمة على مستوى الرف وحاسوب عملاق واحد للذكاء الاصطناعي مصممة لدورة حياة الذكاء الاصطناعي الكاملة.
تشمل الشرائح السبع Vera CPU وRubin GPU (336 مليار ترانزستور، HBM4 بعرض نطاق 22 تيرابايت/ثانية لكل GPU) وNVLink 6 وConnectX-9 SuperNIC وBlueField-4 DPU ومحول Spectrum-6 وGroq 3 LPU. يوفر Rubin GPU وحده 50 PFLOPS من استدلال NVFP4 — تحسين بمقدار 5 أضعاف مقارنة بـ Blackwell GB200 — بينما يُقيّم رف NVL72 بـ 3.6 إكزافلوبس.
تُدار بنية فك التشفير غير المتجانسة بواسطة NVIDIA Dynamo، الذي يصنف الطلبات الواردة ويوجهها إلى العتاد الأمثل. تذهب حسابات الملء والانتباه إلى وحدات GPU Rubin. أما عمليات فك التشفير الحساسة لزمن الاستجابة — توليد الرموز واحداً تلو الآخر الذي يغذي روبوتات المحادثة والوكلاء — فتوجه إلى وحدات LPU LP30. يكتب المطورون التعليمات البرمجية باستخدام نظام CUDA الحالي؛ ويتولى وقت التشغيل التوجيه بشفافية.
التداعيات الاقتصادية مهمة. يوفر رف NVL72 إنتاجية استدلال أعلى 10 مرات لكل واط بعُشر تكلفة الرمز مقارنة بمنصة Blackwell السابقة. ستكون المنتجات متاحة من الشركاء في النصف الثاني من 2026.
إعلان
1,500 رمز في الثانية: عتبة سرعة الوكلاء
رقم واحد من الخطاب الرئيسي يستحق اهتماماً خاصاً: 1,500 رمز في الثانية لأحمال العمل الوكيلية. صرح نائب رئيس NVIDIA، Ian Buck، بأن الجمع بين وحدات GPU Rubin وأرفف Groq «ينقلنا من عالم حيث 100 رمز في الثانية يعد معدل إنتاجية معقول إلى عالم 1,500 رمز في الثانية أو أكثر للاتصال بين وكلاء الذكاء الاصطناعي.»
هذا الهدف لا يتعلق بسرعة روبوتات المحادثة — 50 رمزاً في الثانية يبدو فورياً بالفعل للقارئ البشري. هدف 1,500 رمز/ثانية مصمم لوكلاء الذكاء الاصطناعي التي تستهلك مخرجات وكلاء ذكاء اصطناعي أخرى. في سير العمل الوكيلي حيث يوزع المنسق المهام على وكلاء متخصصين ويجمع الردود ويحللها ويوزع مهاماً أخرى، تتراكم سرعة كل استدعاء استدلال فردي عبر السلسلة بأكملها.
عند 100 رمز في الثانية، قد تستغرق سلسلة وكلاء متعددة الخطوات لمعالجة استفسار عميل 15-25 ثانية. عند 1,500 رمز في الثانية، تكتمل نفس السلسلة في أقل من 3 ثوانٍ. للتطبيقات الحساسة للوقت — التداول المالي، كشف الاحتيال في الوقت الفعلي، الأنظمة المستقلة — هذا الفارق يحدد الجدوى.
وضع Jensen بشكل صريح Vera Rubin LP30 باعتباره «محرك الاستدلال لعصر الوكلاء»، مؤكداً أن انتشار وكلاء الذكاء الاصطناعي سيدفع الطلب على الاستدلال 10 إلى 100 ضعف ما هو عليه حالياً.
خط أنابيب الطلبات بقيمة تريليون دولار
في أجرأ تصريح خلال الخطاب الرئيسي، كشف Jensen Huang أن NVIDIA ترى تريليون دولار من طلبات الشراء لـ Blackwell وVera Rubin حتى 2027. هذا يضاعف فعلياً التوقعات السابقة البالغة حوالي 500 مليار دولار من الطلب حتى 2026.
هذه التزامات ونوايا — اتفاقيات شراء متعددة السنوات وتسليمات مرحلية وحجوزات سعة من مشغلي السحابة الفائقة ومختبرات الذكاء الاصطناعي والمشترين السياديين — وليست إيرادات مسجلة. للسياق، أعلنت NVIDIA عن 215.9 مليار دولار من الإيرادات للسنة المالية 2026، حيث شكلت إيرادات مراكز البيانات أكثر من 91% من إجمالي المبيعات.
يرتكز خط الأنابيب على عدة محركات: تجاوز إيرادات الاستدلال لإيرادات التدريب مع توسيع المؤسسات لنشر الذكاء الاصطناعي، وأكثر من 40 دولة تسعى لبنية تحتية سيادية للذكاء الاصطناعي مع NVIDIA كمورد افتراضي، والارتفاع المتوقع في الطلب على حوسبة الذكاء الاصطناعي الوكيلي.
Space-1: استدلال الذكاء الاصطناعي يدخل المدار
في الجزء الأكثر إثارة بصرياً من الخطاب الرئيسي، كشف Jensen عن Space-1، وحدة Vera Rubin مصممة لمراكز البيانات المدارية. المبدأ: عندما يتجاوز الطلب على استدلال الذكاء الاصطناعي قيود الطاقة والتبريد الأرضية، يوفر نشر الحوسبة في المدار طاقة شمسية شبه لا محدودة وتبريداً طبيعياً في الفراغ.
أطلقت NVIDIA شراكات مع Aetherflux وAxiom Space وKepler Communications وPlanet Labs وSophia Space وStarcloud لتطوير بنية تحتية فضائية للذكاء الاصطناعي. توفر وحدة Space-1 ما يصل إلى 25 ضعفاً من قدرة الحوسبة للذكاء الاصطناعي للاستدلال الفضائي مقارنة بوحدة H100 GPU.
أشار Jensen إلى تحدٍ هندسي رئيسي: «في الفضاء، لا يوجد حمل حراري، فقط إشعاع.» يبقى التبريد مشكلة بحث وتطوير نشطة. المشروع في مرحلة الهندسة الأولية وليس البناء النشط، لكن الرسالة الرمزية كانت واضحة — طموح NVIDIA في حوسبة الذكاء الاصطناعي ليس له سقف أرضي.
ماذا يعني هذا للمنافسين
تزيل صفقة Groq أكثر منافسي NVIDIA مصداقية في مجال الاستدلال المتخصص بينما تعزز في الوقت نفسه عرض الاستدلال لديها.
AMD تفقد أقوى حججها. كانت AMD قد وضعت وحدات GPU MI300X والقادمة MI400 كبدائل تنافسية في الاستدلال. مع تقديم NVIDIA الآن لسيليكون استدلال مخصص إلى جانب وحدات GPU، يتعين على AMD المنافسة على جبهتين في آن واحد.
Cerebras تواجه ضغطاً متصاعداً. اكتسب محركها على مستوى الرقاقة زخماً لدى مشاريع الذكاء الاصطناعي السيادية والمؤسسات البحثية، لكن LP30 من NVIDIA مدعوماً بقوة مبيعات NVIDIA ونظام CUDA يضيّق تميز Cerebras.
مزودو الخدمات السحابية عليهم إعادة الحساب. تطور AWS وGoogle Cloud وMicrosoft Azure سيليكون استدلال مخصص (Inferentia وTPU وMaia). قد تقلل منصة Vera Rubin من إلحاح برامج الشرائح المخصصة تلك — أو تسرعها، حيث يسعى مزودو الخدمات السحابية لتجنب الاعتماد الكلي على NVIDIA.
مخاطر التكامل
تحمل الصفقات بهذا الحجم مخاطر تنفيذ. يجب على NVIDIA الاحتفاظ بالمواهب الهندسية من Groq — انضم حوالي 90% من الموظفين، لكن بنية LPU تعيش في خبرة بضع مئات من المهندسين الذين تختلف ثقافتهم كشركة ناشئة بشكل ملحوظ عن مؤسسة NVIDIA التي تضم 30,000 شخص. يجب أن توفر طبقة التنسيق NVIDIA Dynamo توجيهاً غير متجانس سلساً؛ إذا احتاج المطورون لاتخاذ قرارات يدوية بين GPU وLPU، سيتباطأ التبني. وصفقة بقيمة 20 مليار دولار من أكثر شركات أشباه الموصلات قيمة في العالم ستجذب الرقابة على مكافحة الاحتكار في الولايات المتحدة والاتحاد الأوروبي والأسواق الآسيوية.
هُيكلت صفقة Groq للحفاظ على «وهم المنافسة»، كما وصفها أحد المحللين — اتفاقية الترخيص غير الحصرية تسمح نظرياً لـ Groq بترخيص ملكيتها الفكرية لجهات أخرى. يبقى السؤال ما إذا كان ذلك يشكل منافسة حقيقية.
الأسئلة الشائعة
ما الفرق بين GPU وLPU؟
GPU (وحدة معالجة الرسوميات) هو معالج متوازٍ بشكل هائل يعتمد على ذاكرة خارجية عالية النطاق (HBM) لتخزين أوزان النموذج والحسابات الوسيطة. LPU (وحدة معالجة اللغة)، المطور من قبل Groq، يستبدل الذاكرة الخارجية بـ 512 ميغابايت من SRAM على الرقاقة لكل شريحة، مما يلغي عنق الزجاجة في عرض نطاق الذاكرة. هذا يجعل وحدات LPU أسرع وأكثر كفاءة في استهلاك الطاقة لأحمال الاستدلال — مع توفير 35 ضعفاً من الإنتاجية لكل ميغاواط مقارنة بـ Blackwell — وإن كانت أقل تنوعاً من وحدات GPU للتدريب.
هل ستجعل صفقة Groq استدلال الذكاء الاصطناعي أرخص؟
يوفر رف NVL72 Vera Rubin من NVIDIA إنتاجية استدلال أعلى 10 مرات لكل واط بعُشر تكلفة الرمز مقارنة بـ Blackwell. يُتوقع أن تبدأ شرائح LP30 في الشحن في الربع الثالث من 2026 مع إنتاج بالجملة لاحقاً. من المرجح أن يقدم مزودو الخدمات السحابية نسخ استدلال Vera Rubin قبل أن تتمكن معظم المؤسسات من شراء العتاد مباشرة، مما يخفض تكاليف الاستدلال تدريجياً في جميع أنحاء الصناعة.
هل يمنح هذا NVIDIA احتكاراً لعتاد الذكاء الاصطناعي؟
وضع NVIDIA مهيمن لكنه ليس بلا منازع. تنافس AMD في التدريب والاستدلال المبني على GPU، وتقدم Cerebras بدائل على مستوى الرقاقة، ويطور مزودو الخدمات السحابية (Google TPU وAWS Inferentia وMicrosoft Maia) سيليكون مخصص. ومع ذلك، تعزز صفقة Groq بشكل كبير وضع NVIDIA بإضافة تقنية LPU إلى محفظة تتحكم بالفعل في وحدات GPU للتدريب والشبكات (ConnectX وBlueField) ونظام CUDA البرمجي. —
المصادر والقراءات الإضافية
- NVIDIA Vera Rubin Opens Agentic AI Frontier — NVIDIA Newsroom
- Nvidia GTC 2026: CEO Jensen Huang sees $1 trillion in orders — CNBC
- Inside NVIDIA Groq 3 LPX: Low-Latency Inference Accelerator — NVIDIA Developer Blog
- How Nvidia’s $20 billion Groq 3 LPU deal reshapes the Vera Rubin Platform — Tom’s Hardware
- Nvidia buying AI chip startup Groq’s assets for about $20 billion — CNBC
- NVIDIA Launches Space Computing, Rocketing AI Into Orbit — NVIDIA Newsroom
- NVIDIA FY2026 Financial Results — NVIDIA Newsroom
- A closer look at Nvidia’s Groq-powered LPX rack systems — The Register
















