أكبر عنقود Kubernetes مُعلَن علنياً
في منشور هندسي على Google Cloud Blog، وصفت Google عنقود GKE بـ 130,000 عقدة مبني ومُشغَّل في وضع تجريبي — ضعف السقف السابق المدعوم البالغ 65,000 عقدة وأكبر عنقود Kubernetes مُعلَن علنياً حتى الآن. تثبت العروض، المفصّلة بالتوازي مع KubeCon 2025، أن Kubernetes العادي يمكنه الآن العمل على المقياس المطلوب من تدريبات AI الحدودية دون دفع المشغّلين إلى مجدولات مخصصة.
نسّق العنقود نحو 1.3 مليون vTPU مع الحفاظ على استخدام 90% في جماعيات AllReduce — النمط المهم لتدريب النماذج الكبيرة. كما حقق أرقام قياسية تعيد تعريف “التنسيق على نطاق هائل”:
- بلغ QPS لخادم API ذروته عند 500 ألف، وكتابات etcd عند 100,000 في الثانية.
- سعة مستدامة ألف pod في الثانية مع زمن بدء pod أقل من 5 ثوانٍ على مستوى العنقود.
- استبعد Kueue 39,000 pod في 93 ثانية لإفساح المجال لأعباء ذات أولوية أعلى.
كيف كسر Kubernetes سقفه الخاص
ثلاث تغييرات معمارية جعلت 130 ألف عقدة ممكنة:
- استبدال etcd بتخزين قائم على Spanner. تشبع عدد الكائنات الذي يتجاوز 1.3 مليار ذاكرة وكتابات etcd. استبدلت Google مخزن المفاتيح-القيم الافتراضي بـ نظام مخصص قائم على Spanner يتوسع أفقياً دون قيود etcd التاريخية. هذا هو أكبر تغيير في طبقة تحكم Kubernetes منذ 10 سنوات.
- ذاكرة watch مجزأة لخادم API. ذاكرة watch قوية الاتساق مع نموذج تجزئة أدق حافظت على استجابة خادم API عند 500 ألف QPS بدلاً من الانهيار عند عشرات الآلاف التي تقف عندها عادة العناقيد الإنتاجية.
- جدولة على مستوى المهام مع Kueue وJobSet. مجدول pod الافتراضي هو البدائية الخاطئة لـ AI. يضيف Kueue gang-scheduling وقبول الكل أو لا شيء والـ fair-share والأولويات والحصص — مفردات نظام الدفعات التي كانت مفقودة في تدريب ML. يُنسّق JobSet تشغيلات التدريب متعددة المهام فوق ذلك.
إعلان
لماذا يهم هذا لأعباء AI
السياق التنافسي جدير بالتسمية. يبلغ سقف AWS EKS 10,000 عقدة لكل عنقود وAzure AKS 5,000، مما يُجبر على هندسات متعددة العناقيد وما يصاحبها من دين تشغيلي. يعني هامش Google الذي يتراوح بين 13-26 ضعفاً على منافسيها المُدارين أن تدريب AI الحدودي يمكن التعبير عنه كمهمة Kubernetes واحدة بدلاً من اتحاد عناقيد مُلصقة بصمغ مخصص.
بالنسبة لفرق AI في المؤسسات، تتبع ثلاث تحوّلات عملية:
- جدولة المهام أصبحت بدائية Kubernetes من الدرجة الأولى. إذا كانت حزمة التدريب لديك تحتوي على مجدولات مخصصة مُثبتة خارج Kubernetes (Ray أو Slurm أو مشغلات مخصصة)، فإن Kueue وJobSet هما الآن المسار المرجعي. ينبغي للفرق تقييم الترحيل بدلاً من تراكم مزيد من الكود المخصص.
- علاوة متعدد-العناقيد/الاتحاد تتقلّص. الفرق التي بنت حول افتراض “العنقود الواحد لن يتوسع” قبل 12 شهراً بحاجة إلى إعادة النظر. يمكن أن تصبح هياكل العنقود الواحد الأبسط قابلة للتطبيق لكثير من أعباء تدريب المؤسسات.
- أدوات المراقبة يجب أن تواكب. يُشكّل تشغيل بضعة آلاف من العقد ضغطاً على Prometheus وخطوط أنابيب السجلات ولوحات التحكم. عالم 130 ألف عقدة يعني إعادة هندسة مكدس المراقبة مع التدفق وأخذ العينات مدمجَين.
عنق الزجاجة ينتقل من الرقائق إلى الطاقة
الاعتراف الأكثر صدقاً في الإعلانات يتعلق بالقيد الحقيقي. تنتقل الصناعة من عالم مقيّد بإمدادات الرقائق إلى عالم مقيّد بالطاقة الكهربائية. يستهلك NVIDIA GB200 واحد 2,700 واط، ويمكن أن تصل بصمة الطاقة لعنقود بـ 100 ألف GPU إلى مئات الميغاواط — ملف حمل لا يستطيع معظم مراكز البيانات ومعظم اتصالات المرافق توفيره بسرعة.
هذا هو السبب في أن قصة قابلية توسعة GKE تتواءم مع قصة مراكز البيانات العاملة بخلايا الوقود — كلاهما ردّ على الواقع الأساسي ذاته. يتوسع Kubernetes الآن ليتناسب مع المهمة؛ ومكدس طاقة مركز البيانات يجب أن يتوسع ليتناسب مع عنقود Kubernetes. الشركات التي تحل طرفي المكدس ستمتلك عقد البنية التحتية لـ AI.
ما يجب أن يفعله مهندسو المؤسسات
ثلاث خطوات عملية لتخطيط 2026:
- تدقيق سطح المجدولات المخصصة. كل مجدول مخصص أو مشغّل مخصص أو نظام دفعات غير Kubernetes هو دين تقني محتمل الآن بعد وجود Kueue. ليس كل شيء ينبغي أن يهاجر، لكن كل شيء ينبغي مراجعته.
- تجربة Kueue على بصمات GKE القائمة. البدائيات التي جعلت 130 ألف عقدة تعمل — وضع المهام في قوائم انتظار وgang scheduling وحصص fair-share — تحل مشاكل حقيقية حتى على عناقيد 500 عقدة. التقنية متاحة اليوم.
- إعادة بناء خطط السعة حول الطاقة، لا الأنوية فقط. المورد النادر لم يعد توفر الرقائق لمعظم حالات استخدام المؤسسات — بل الكيلوواط المطلوب لتغذيتها. تخطيط السعة ينبغي أن يُنمذج صراحةً المناطق المقيّدة بالطاقة وخيارات التوليد في الموقع.
لم تُحطّم Google حد Kubernetes فحسب. بل غيّرت شكل النقاش حول كيفية تنسيق تدريب AI — وبالتالي، كيفية تصميم الجيل التالي من مراكز بيانات AI.
الأسئلة الشائعة
ما حجم عنقود Google البالغ 130,000 عقدة مقارنة بعروض Kubernetes المُدارة الأخرى؟
عنقود GKE البالغ 130,000 عقدة يبلغ حجمه نحو 13 ضعف سقف AWS EKS الحالي البالغ 10,000 عقدة لكل عنقود و26 ضعف حد Azure AKS البالغ 5,000 عقدة. إنه أكبر عنقود Kubernetes مُعلَن علنياً حتى الآن، وقد نسّق نحو 1.3 مليون vTPU بنسبة استخدام 90% في جماعيات AllReduce.
ما هما Kueue وJobSet، ولماذا يهمان؟
Kueue هو وحدة تحكم بوضع المهام في قوائم انتظار تجلب قدرات نظام الدفعات — gang scheduling والقبول الكل-أو-لا-شيء والأولويات والحصص والـ fair-share — إلى Kubernetes. JobSet هو رفيق ينسّق تشغيلات التدريب متعددة المهام. معاً، يحوّلان Kubernetes من مُجدول pod إلى منسّق مدرك لتدريب AI، مما يُزيل الحاجة إلى أنظمة خارجية مثل Slurm أو مشغلات مخصصة لكثير من الأعباء.
ماذا يعني هذا الإعلان للطاقة وتخطيط مراكز البيانات؟
أشارت Google صراحةً إلى التحوّل من عالم مقيّد بالرقائق إلى عالم مقيّد بالطاقة. يمكن أن يستهلك عنقود بـ 100 ألف GPU مئات الميغاواط. على المؤسسات التي تُخطط لقدرات AI نمذجة توفر الطاقة والاتصال البيني إلى جانب توفر GPU، وتقييم خيارات التوليد في الموقع (خلايا الوقود، الطاقات المتجددة في الموقع) في المناطق ذات طوابير المرافق الطويلة.
المصادر والقراءات الإضافية
- How We Built a 130,000-Node GKE Cluster — Google Cloud Blog
- Google Cloud Demonstrates Massive Kubernetes Scale with 130,000-Node GKE Cluster — InfoQ
- Benchmarking a 65,000-Node GKE Cluster with AI Workloads — Google Cloud Blog
- Google’s 130,000-Node GKE Cluster: Scaling AI, Confronting Power Limits — Austin Osuide
- GCP: Building the Largest Known Kubernetes Cluster — CloudSteak
- Google Breaks Kubernetes Limits Again — FAUN Kaptain
- Google’s 130,000-Node Kubernetes Colossus — WebProNews
















