تخطّى Kubernetes عتبة لا تصل إليها معظم تقنيات البنية التحتية: أصبح القاعدة الافتراضية التي يعمل عليها استدلال الذكاء الاصطناعي. تضع بيانات CNCF استخدام Kubernetes عند 82% بين معتمدي الحاويات. وأمضى KubeCon + CloudNativeCon Europe 2026 في Amsterdam معظم جلساته الرئيسية على أحمال الذكاء الاصطناعي بدل الخدمات المصغرة التقليدية. ويستخدم متحكّما GitOps، Argo CD وFlux، 42% من مستخدمي K8s للتسليم الإنتاجي. السؤال لدى فرق المنصات في 2026 لم يعد هل نستخدم Kubernetes — بل كيف نُطوّر المنصة لتستضيف الاستدلال وتقديم النماذج والوكلاء المستقلين إلى جانب الخدمات التقليدية.
لماذا فاز Kubernetes بطبقة استدلال الذكاء الاصطناعي
أربعة أسباب تفسّر وضع الافتراضية:
تغاير الموارد. تحتاج أحمال الذكاء الاصطناعي إلى مزيج من CPU وGPU وذاكرة وأحياناً مسرّعات خاصة. يتعامل مُجدوِل Kubernetes مع node selectors وtaints وtolerations وdevice plugins (NVIDIA GPU operator، AMD GPU operator) بطرق لا تغطيها أُطر الخدمة الخاصة.
قياس تلقائي يطابق أشكال حركة المرور. يوفر HPA وCluster Autoscaler وKarpenter وKEDA معاً طرقاً لقياس منصات الاستدلال من صفر إلى آلاف النسخ حسب عمق الطابور أو استخدام GPU أو مقاييس مخصصة.
Multi-tenancy. تتيح Namespaces وحصص الموارد وسياسات الشبكة وحوكمة OPA/Kyverno لعنقود واحد استضافة البحث والـstaging والإنتاج بحدود نظيفة — حاسم عند ندرة الـGPU.
جاذبية المنظومة. يستهدف KServe وRay وKubeflow وvLLM Production Stack وNVIDIA Triton وHugging Face TGI كلها Kubernetes. اختيار K8s يعني الوصول إلى أغنى مجموعة بدائية جاهزة.
كيف يبدو “الاستدلال على مستوى العنقود” في 2026
تشترك منصات الذكاء الاصطناعي الحديثة على Kubernetes في أنماط متكررة:
- توجيه النماذج. بوابة مركزية (Istio أو Envoy Gateway أو طبقة مخصصة) توجّه الطلبات إلى الإصدار الصحيح وتعالج تقسيمات A/B وتطبّق حدود المعدل لكل مستأجر.
- تقاسم الـGPU. MIG على NVIDIA وtime-slicing يسمحان لعدة pods بتقاسم مسرّع واحد.
- الخدمة على دفعات. vLLM وTriton يجمعان الطلبات الواردة ديناميكياً لتحسين الإنتاجية.
- تدرّج ذاكرة KV cache. يُرقَّى/يُنزَّل كاش توليد الرموز بين HBM GPU وذاكرة المضيف وNVMe.
- GitOps لكل شيء. إصدارات النماذج وإعدادات الخدمة وقواعد التوجيه والحصص تعيش في Git. يُعايرها Argo CD أو Flux.
خلاصات KubeCon EU Amsterdam
أبرزت تغطية CNCF لـKubeCon 2026 ثلاثة خيوط:
- Platform engineering يتوحّد. تتبنى المنظمات منصات قابلة لإعادة الاستخدام مبنية على Backstage وCrossplane وأدوات Kubernetes الأصلية.
- زخم المشاريع مستمر. تُظهر بيانات CNCF نمواً مستداماً في المشاريع الأساسية (Kubernetes وIstio وPrometheus) وتبنياً قوياً للمشاريع المُتخرّجة حديثاً (Argo وCilium).
- الأمان يتحرك يساراً. أمن وقت التشغيل المبني على eBPF (Cilium Tetragon وFalco) وسياسة وقت القبول (Kyverno) وضوابط سلسلة التوريد (Sigstore وin-toto) أصبحت بدائية قياسية.
إعلان
موارد ينبغي للفرق متابعتها
يُبرز “Top 28 Kubernetes Resources for 2026” من CNCF:
- Kubernetes the Hard Way وkind/minikube للأساسيات
- أرشيفات جلسات KubeCon للأنماط المُثبَتة
- Argo Rollouts وFlagger للتسليم التدريجي
- Kueue لتصفيف المهام الدفعية وأحمال الذكاء الاصطناعي
- Kyverno وOPA Gatekeeper لسياسة-ككود
إضافات لفرق المنصات لأحمال الاستدلال
للفرق التي تشغّل Kubernetes لكنها لم تستضف الاستدلال بعد، أسرع الإضافات:
- Kueue — تصفيف عادل للتدريب والاستدلال الدفعي
- KServe أو vLLM Production Stack — خدمة النماذج مع autoscaling وcanary
- NVIDIA GPU Operator / AMD GPU Operator
- Prometheus + DCGM exporter — رصد واعٍ بالـGPU
- Karpenter أو Cluster Autoscaler
- جامعات OpenTelemetry — لتتبع مسارات طلبات الاستدلال
ما ينبغي مراقبته خلال 12 شهراً
- WASM على Kubernetes لدوال استدلال خفيفة على عقد الـedge
- Confidential computing (TDX، SEV-SNP) لأحمال منظَّمة
- اتحاد العناقيد للاستدلال متعدد المناطق ضمن قيود سيادية
- بدائية موجّهة للوكلاء لأن الوكلاء المستقلّين يحتاجون أنماط تنسيق لا تغطيها تجريدات pod-and-deployment الحالية بالكامل
الخلاصة
Kubernetes هو الافتراضي الآمن لاستدلال الذكاء الاصطناعي في 2026. فرق المنصات التي تستثمر في الجدولة الواعية بالـGPU وGitOps وإضافات الاستدلال ستنفق أقل على تكاليف السحابة وستطلق نماذجها أسرع.
الأسئلة الشائعة
هل تحتاج الفرق الصغيرة Kubernetes فعلاً؟
للأحمال الصغيرة، خدمات الحاويات المُدارة (ECS وCloud Run وFly.io) قد تكون أبسط. عندما تحتاج جدولة GPU أو عزل multi-tenant أو قياس تلقائي غني، يستحق Kubernetes الاستثمار.
Argo CD أم Flux؟
كلاهما متخرّج من CNCF ومُثبَت إنتاجياً. لـArgo CD واجهة أقوى؛ Flux أخف وأكثر توجهاً لـGit. اختر واحداً ووحّد عليه.
كيف يدير Kubernetes تقاسم GPU؟
عبر NVIDIA GPU Operator وMIG وtime-slicing أو المحاكاة الافتراضية. يضيف KServe وvLLM الـbatching لرفع الاستخدام أكثر.






