عنقود Google 130 ألف عقدة: K8s بمقياس AI

نُشر في أبريل 18, 2026 · بواسطة ALGERIATECH Editorial

⚡ أبرز النقاط

شغّلت Google عنقوداً من GKE بـ 130,000 عقدة يُنسّق 1.3 مليون vTPU بنسبة استخدام 90% في AllReduce — ضعف حد Kubernetes الرسمي السابق البالغ 65,000 عقدة وأكبر عنقود مُعلن علنياً. الممكّنات الرئيسية: تخزين Spanner بديل لـ etcd وذاكرة watch قوية الاتساق مُجزّأة وKueue مع JobSet لجدولة على مستوى المهام. يبلغ سقف AWS EKS 10,000 عقدة وAzure AKS 5,000 عقدة، مما يمنح Google ميزة هامش 13-26 مرة.

خلاصة: على فرق منصات AI في المؤسسات تدقيق المجدولات المخصصة وتجربة Kueue مع JobSet على بيئات Kubernetes القائمة قبل إضافة مزيد من أكواد التنسيق المخصصة.

اقرأ التحليل الكامل ↓

🧭 رادار القرار

الأهمية بالنسبة للجزائرمتوسط▾

قليل من الأعباء الجزائرية تحتاج 130 ألف عقدة اليوم، لكن بدائيات Kueue + JobSet تصبح ذات صلة بدءاً من عشرات العقد وصعوداً — فهي تحسّن كفاءة التدريب والتكلفة لأي عبء GPU.

البنية التحتية جاهزة؟جزئي▾

يمكن للمؤسسات الجزائرية الوصول إلى GKE وKueue عبر مناطق Google Cloud اليوم. قدرة مراكز البيانات المحلية لاستضافة عناقيد تدريب AI واسعة النطاق لا تزال في نمو.

المهارات متوفرة؟محدودة▾

يتوفر مشغلو Kubernetes، لكن خبرة Kueue/JobSet على مقياس AI نادرة — ينبغي للجامعات وبرامج التدريب المكثف إضافتها إلى المناهج.

الجدول الزمني للعمل6-12 شهراً▾

فرق المؤسسات التي تُشغّل أي عبء تدريب AI جاد ينبغي أن تُقيّم Kueue/JobSet في دورة التخطيط التالية.

أصحاب المصلحة الرئيسيونفرق منصات AI/ML، المدراء التقنيون، مسؤولو هندسة البيانات، الجامعات

نوع القرارتكتيكي▾

هذه ترقية قابلة للتنفيذ على حزم Kubernetes القائمة بدلاً من كونها تحوّل استراتيجي متعدد السنوات.

خلاصة سريعة: ينبغي على فرق AI المؤسسية في الجزائر تجربة Kueue على بصمات GKE أو Kubernetes المُدارة ذاتياً القائمة قبل إضافة مزيد من المجدولات المخصصة. على المدراء التقنيين تدقيق ما إذا كانت حزمة تدريب AI تعتمد على بدائيات دفعات غير Kubernetes يمكن استبدالها بالمسار المرجعي الجديد. ينبغي أن يبدأ تخطيط السعة في نمذجة توفر الطاقة، لا أنوية GPU وCPU فقط.

أكبر عنقود Kubernetes مُعلَن علنياً

في منشور هندسي على Google Cloud Blog، وصفت Google عنقود GKE بـ 130,000 عقدة مبني ومُشغَّل في وضع تجريبي — ضعف السقف السابق المدعوم البالغ 65,000 عقدة وأكبر عنقود Kubernetes مُعلَن علنياً حتى الآن. تثبت العروض، المفصّلة بالتوازي مع KubeCon 2025، أن Kubernetes العادي يمكنه الآن العمل على المقياس المطلوب من تدريبات AI الحدودية دون دفع المشغّلين إلى مجدولات مخصصة.

نسّق العنقود نحو 1.3 مليون vTPU مع الحفاظ على استخدام 90% في جماعيات AllReduce — النمط المهم لتدريب النماذج الكبيرة. كما حقق أرقام قياسية تعيد تعريف “التنسيق على نطاق هائل”:

بلغ QPS لخادم API ذروته عند 500 ألف، وكتابات etcd عند 100,000 في الثانية.
سعة مستدامة ألف pod في الثانية مع زمن بدء pod أقل من 5 ثوانٍ على مستوى العنقود.
استبعد Kueue 39,000 pod في 93 ثانية لإفساح المجال لأعباء ذات أولوية أعلى.

كيف كسر Kubernetes سقفه الخاص

ثلاث تغييرات معمارية جعلت 130 ألف عقدة ممكنة:

استبدال etcd بتخزين قائم على Spanner. تشبع عدد الكائنات الذي يتجاوز 1.3 مليار ذاكرة وكتابات etcd. استبدلت Google مخزن المفاتيح-القيم الافتراضي بـ نظام مخصص قائم على Spanner يتوسع أفقياً دون قيود etcd التاريخية. هذا هو أكبر تغيير في طبقة تحكم Kubernetes منذ 10 سنوات.
ذاكرة watch مجزأة لخادم API. ذاكرة watch قوية الاتساق مع نموذج تجزئة أدق حافظت على استجابة خادم API عند 500 ألف QPS بدلاً من الانهيار عند عشرات الآلاف التي تقف عندها عادة العناقيد الإنتاجية.
جدولة على مستوى المهام مع Kueue وJobSet. مجدول pod الافتراضي هو البدائية الخاطئة لـ AI. يضيف Kueue gang-scheduling وقبول الكل أو لا شيء والـ fair-share والأولويات والحصص — مفردات نظام الدفعات التي كانت مفقودة في تدريب ML. يُنسّق JobSet تشغيلات التدريب متعددة المهام فوق ذلك.

لماذا يهم هذا لأعباء AI

السياق التنافسي جدير بالتسمية. يبلغ سقف AWS EKS 10,000 عقدة لكل عنقود وAzure AKS 5,000، مما يُجبر على هندسات متعددة العناقيد وما يصاحبها من دين تشغيلي. يعني هامش Google الذي يتراوح بين 13-26 ضعفاً على منافسيها المُدارين أن تدريب AI الحدودي يمكن التعبير عنه كمهمة Kubernetes واحدة بدلاً من اتحاد عناقيد مُلصقة بصمغ مخصص.

بالنسبة لفرق AI في المؤسسات، تتبع ثلاث تحوّلات عملية:

جدولة المهام أصبحت بدائية Kubernetes من الدرجة الأولى. إذا كانت حزمة التدريب لديك تحتوي على مجدولات مخصصة مُثبتة خارج Kubernetes (Ray أو Slurm أو مشغلات مخصصة)، فإن Kueue وJobSet هما الآن المسار المرجعي. ينبغي للفرق تقييم الترحيل بدلاً من تراكم مزيد من الكود المخصص.
علاوة متعدد-العناقيد/الاتحاد تتقلّص. الفرق التي بنت حول افتراض “العنقود الواحد لن يتوسع” قبل 12 شهراً بحاجة إلى إعادة النظر. يمكن أن تصبح هياكل العنقود الواحد الأبسط قابلة للتطبيق لكثير من أعباء تدريب المؤسسات.
أدوات المراقبة يجب أن تواكب. يُشكّل تشغيل بضعة آلاف من العقد ضغطاً على Prometheus وخطوط أنابيب السجلات ولوحات التحكم. عالم 130 ألف عقدة يعني إعادة هندسة مكدس المراقبة مع التدفق وأخذ العينات مدمجَين.

عنق الزجاجة ينتقل من الرقائق إلى الطاقة

الاعتراف الأكثر صدقاً في الإعلانات يتعلق بالقيد الحقيقي. تنتقل الصناعة من عالم مقيّد بإمدادات الرقائق إلى عالم مقيّد بالطاقة الكهربائية. يستهلك NVIDIA GB200 واحد 2,700 واط، ويمكن أن تصل بصمة الطاقة لعنقود بـ 100 ألف GPU إلى مئات الميغاواط — ملف حمل لا يستطيع معظم مراكز البيانات ومعظم اتصالات المرافق توفيره بسرعة.

هذا هو السبب في أن قصة قابلية توسعة GKE تتواءم مع قصة مراكز البيانات العاملة بخلايا الوقود — كلاهما ردّ على الواقع الأساسي ذاته. يتوسع Kubernetes الآن ليتناسب مع المهمة؛ ومكدس طاقة مركز البيانات يجب أن يتوسع ليتناسب مع عنقود Kubernetes. الشركات التي تحل طرفي المكدس ستمتلك عقد البنية التحتية لـ AI.

ما يجب أن يفعله مهندسو المؤسسات

ثلاث خطوات عملية لتخطيط 2026:

تدقيق سطح المجدولات المخصصة. كل مجدول مخصص أو مشغّل مخصص أو نظام دفعات غير Kubernetes هو دين تقني محتمل الآن بعد وجود Kueue. ليس كل شيء ينبغي أن يهاجر، لكن كل شيء ينبغي مراجعته.
تجربة Kueue على بصمات GKE القائمة. البدائيات التي جعلت 130 ألف عقدة تعمل — وضع المهام في قوائم انتظار وgang scheduling وحصص fair-share — تحل مشاكل حقيقية حتى على عناقيد 500 عقدة. التقنية متاحة اليوم.
إعادة بناء خطط السعة حول الطاقة، لا الأنوية فقط. المورد النادر لم يعد توفر الرقائق لمعظم حالات استخدام المؤسسات — بل الكيلوواط المطلوب لتغذيتها. تخطيط السعة ينبغي أن يُنمذج صراحةً المناطق المقيّدة بالطاقة وخيارات التوليد في الموقع.

لم تُحطّم Google حد Kubernetes فحسب. بل غيّرت شكل النقاش حول كيفية تنسيق تدريب AI — وبالتالي، كيفية تصميم الجيل التالي من مراكز بيانات AI.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn

تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

الأسئلة الشائعة

ما حجم عنقود Google البالغ 130,000 عقدة مقارنة بعروض Kubernetes المُدارة الأخرى؟

عنقود GKE البالغ 130,000 عقدة يبلغ حجمه نحو 13 ضعف سقف AWS EKS الحالي البالغ 10,000 عقدة لكل عنقود و26 ضعف حد Azure AKS البالغ 5,000 عقدة. إنه أكبر عنقود Kubernetes مُعلَن علنياً حتى الآن، وقد نسّق نحو 1.3 مليون vTPU بنسبة استخدام 90% في جماعيات AllReduce.

ما هما Kueue وJobSet، ولماذا يهمان؟

Kueue هو وحدة تحكم بوضع المهام في قوائم انتظار تجلب قدرات نظام الدفعات — gang scheduling والقبول الكل-أو-لا-شيء والأولويات والحصص والـ fair-share — إلى Kubernetes. JobSet هو رفيق ينسّق تشغيلات التدريب متعددة المهام. معاً، يحوّلان Kubernetes من مُجدول pod إلى منسّق مدرك لتدريب AI، مما يُزيل الحاجة إلى أنظمة خارجية مثل Slurm أو مشغلات مخصصة لكثير من الأعباء.

ماذا يعني هذا الإعلان للطاقة وتخطيط مراكز البيانات؟

أشارت Google صراحةً إلى التحوّل من عالم مقيّد بالرقائق إلى عالم مقيّد بالطاقة. يمكن أن يستهلك عنقود بـ 100 ألف GPU مئات الميغاواط. على المؤسسات التي تُخطط لقدرات AI نمذجة توفر الطاقة والاتصال البيني إلى جانب توفر GPU، وتقييم خيارات التوليد في الموقع (خلايا الوقود، الطاقات المتجددة في الموقع) في المناطق ذات طوابير المرافق الطويلة.