Cloudflare 2026: نقطة تحول الاستدلال الطرفي

نُشر في يونيو 2, 2026 · بواسطة ALGERIATECH Editorial

⚡ أبرز النقاط

أعلنت Cloudflare عن إيرادات بلغت 639.8 مليون دولار في الربع الأول من 2026 (+34% على أساس سنوي) وأطلقت Infire — محرك استدلال مبني على Rust يتفوق على vLLM 0.10.0 بنسبة 7% في الإنتاجية مع 25% فقط من حمل المعالج مقارنة بـ 140% لـ vLLM. يُتوقع أن ينمو سوق الذكاء الاصطناعي الطرفي من 29 مليار دولار في 2025 إلى 37.5 مليار دولار في 2026.

الخلاصة: يجب على فرق هندسة المؤسسات نمذجة تجريبية لأحد مسارات العمل الذكية على Cloudflare Agents SDK v0.5.0 خلال الـ60 يوماً القادمة لبناء المعرفة التشغيلية قبل أن يصبح الاستدلال الطرفي مساراً إلزامياً للترحيل.

اقرأ التحليل الكامل ↓

🧭 رادار القرار

الأهمية بالنسبة للجزائر
متوسط
▾

يتمتع النظام البيئي الجزائري للشركات الناشئة السحابية والمختبرات الجامعية للذكاء الاصطناعي بوصول فوري إلى المستوى المجاني من Workers AI، فيما تستفيد المؤسسات التي تواجه نقاشات حول إقامة البيانات ضمن اللوائح الرقمية الجزائرية من نموذج الاستدلال المحلي لـ Cloudflare. يُقلّص نموذج الاستدلال الطرفي مباشرةً الاعتماد على التوجيه العابر للأطلسي مرتفع التكلفة.

البنية التحتية جاهزة؟
جزئي
▾

تُشغّل Cloudflare نقاط تواجد في الجزائر (مركز بيانات الجزائر العاصمة) مما يُتيح استدلالاً طرفياً حقيقياً على الأراضي الجزائرية. غير أن سلاسل أدوات Kubernetes و MLOps المؤسسية اللازمة لدمج Agents SDK v0.5.0 لا تزال غير ناضجة لدى معظم الفرق الجزائرية خارج قطاعي الاتصالات والتكنولوجيا المالية.

المهارات متوفرة؟
جزئي
▾

خبرة Rust نادرة في سوق المطورين الجزائريين؛ بيد أن Workers AI تعرض واجهة برمجة تطبيقات متوافقة مع OpenAI يمكن لأي مطوّر Python أو Node.js استخدامها فوراً دون تعلم Rust. تُجرّد طبقة TypeScript في Agents SDK من Infire كلياً. يستطيع مهندسو التعلم الآلي المتخرجون من الجامعات قياس أداء Workers AI واعتمادها في غضون أسابيع.

الجدول الزمني للعمل
6-12 شهراً
▾

يجب على الشركات الناشئة والشركات الرقمية في الجزائر البدء بنمذجة Workers AI تجريبياً الآن. وينبغي للمؤسسات في القطاعات المنظّمة (البنوك، والتأمين، والاتصالات) تقييم الامتثال لإقامة البيانات وإجراء مقارنات قياسية خلال الربعين القادمين.

أصحاب المصلحة الرئيسيون
كبار مديري التقنية، مديرو تكنولوجيا المعلومات، مسؤولو الذكاء الاصطناعي/التعلم الآلي، فرق البنية التحتية في التكنولوجيا المالية والاتصالات، المختبرات الجامعية للذكاء الاصطناعي

نوع القرار
استراتيجي
▾

يوفر هذا المقال إطاراً لاتخاذ قرار بنية تحتية دائم — الاستدلال الطرفي مقابل السحابة — سيؤثر على هندسة أنظمة الذكاء الاصطناعي لمدة 3 إلى 5 سنوات.

خلاصة سريعة: ينبغي للفرق التقنية الجزائرية التعامل مع Cloudflare Workers AI كنقطة دخول متاحة فوراً ومنخفضة التكلفة لتجريب الاستدلال الطرفي — فالمستوى المجاني (10000 نيوترون يومياً) يُزيل الميزانية كعائق للبدء. بالنسبة لأعباء العمل الإنتاجية، تكون مزايا الكمون وكفاءة المعالج لمحرك Infire الأكثر إقناعاً في المهام المتكررة قصيرة السياق كتوجيه واجهة برمجة التطبيقات وتصنيف المستندات وتنسيق الوكلاء في الوقت الفعلي. سجّلوا في تقييم المستوى Enterprise قبل أن يُطبّع السوق الأسعار صعوداً.

الأرقام وراء نقطة التحول

بيانان صدرا في مطلع 2026 يرسمان تحولاً هيكلياً في طريقة نشر أعباء عمل الذكاء الاصطناعي. أولاً، أظهرت نتائج الربع الأول 2026 لـ Cloudflare إيرادات بلغت 639.8 مليون دولار، بنمو 34% على أساس سنوي، فيما نمت إيرادات العملاء الكبار (إنفاق سنوي يتجاوز 100 ألف دولار) بنسبة 38% لتمثّل 72% من إجمالي الإيرادات. كما نمت العقود التي تتجاوز مليون دولار بنسبة 73% سنوياً — وصفتها الإدارة بأنها «أعلى معدل نمو في هذه الفئة منذ 2024». ثانياً، أعلنت الشركة عن إعادة هيكلة نحو «نموذج تشغيل يرتكز على الذكاء الاصطناعي الوكيل»، مع خفض نحو 1100 وظيفة (20% من القوى العاملة) — ليس كإجراء لخفض التكاليف، بل كتحوّل استراتيجي يحلّ فيه التشغيل الآلي بالذكاء الاصطناعي محل العمليات اليدوية.

هذه ليست مجرد مقاييس فصلية. إنها تصف شركة بلغت سرعة الإفلات على أطروحتها القائلة بأن البنية التحتية كمنصة ذكاء اصطناعي، وأصبحت منتجاتها — لا سيما Workers AI — محورية في قرارات الشركات بشأن مكان تشغيل أعباء الاستدلال وكيفيته.

تتوسع فئة الاستدلال الطرفي بسرعة. وفقاً لـ Research and Markets، سينمو سوق الذكاء الاصطناعي الطرفي العالمي من 29.08 مليار دولار في 2025 إلى 37.51 مليار دولار في 2026 بمعدل نمو سنوي مركب قدره 29%. وتوقّعت IDC أنه بحلول 2027، سيلجأ 80% من كبار مديري المعلومات إلى خدمات الحافة من مزودي السحابة لتلبية متطلبات استدلال الذكاء الاصطناعي — وهو ريح خلفية مباشرة لصالح تموضع Cloudflare.

لم تعد تساؤلات فرق هندسة المؤسسات «هل نفكر في الاستدلال الطرفي؟» بل أصبحت «على أي مجموعة أدوات للاستدلال الطرفي نوحّد استخدامنا، ومتى؟»

ما هو Infire حقاً — ولماذا يهمّ Rust

تعتمد معظم المؤسسات التي تشغّل استدلال الذكاء الاصطناعي اليوم على مجموعات أدوات قائمة على Python، إذ يُعدّ vLLM خادم الاستدلال مفتوح المصدر الأكثر انتشاراً. محرك Infire من Cloudflare هو تحدٍّ مباشر لهذا المعيار — مبني بالكامل بلغة Rust للتخلص من تكاليف أداء قفل المترجم العام (GIL) في Python وبيئة التشغيل المفسَّرة.

تتضمن البنية التقنية لـ Infire ثلاث ابتكارات رئيسية:

بنية التعبئة المسبقة/فك التشفير المنفصلة. تُعالَج رموز الاستفسار بالتوازي (مرحلة التعبئة المسبقة)، ثم تُطبَّق المعالجة الدفعية المستمرة مع التعبئة المسبقة المجزأة خلال مرحلة فك التشفير لزيادة أحجام العمليات المصفوفية. يتيح ذلك لـ Infire الحفاظ على معدل طلبات دافئة بنسبة 99.99% حتى تحت ضغط التزامن العالي.

التخزين المؤقت المُرقَّم KV. بدلاً من تخصيص الذاكرة مسبقاً لكل استفسار (مما يُهدر الطاقة في ظل الأحمال المتغيرة)، يقسّم Infire ذاكرة الانتباه المؤقتة إلى صفحات. يوفر هذا «تزامناً لا محدودة تقريباً في ظل الأحمال المعتادة» ويتيح إعادة الاستخدام الكفء للذاكرة عبر الطلبات المتزامنة.

رسوم CUDA البيانية المُجمَّعة بتقنية JIT. يُجمّع Infire رسماً بيانياً خاصاً بـ CUDA لكل حجم دفعة ممكن أثناء التنفيذ عبر التجميع في الوقت المناسب، ما يسمح لمشغّل GPU بتنفيذ العمل كبنية متكاملة واحدة. هذه هي الآلية الأساسية وراء تخفيض حمل المعالج بنسبة 82% مقارنةً بمُجدوِل Python في vLLM.

بنتائج قياس الأداء على ShareGPT v3 (4000 استفسار، 200 مستخدم متزامن) على وحدة معالجة رسومات NVIDIA H100 NVL، يحقق Infire 40.91 طلباً في الثانية و17224 رمزاً في الثانية، مقارنةً بـ 38.38 طلباً في الثانية و16164 رمزاً في الثانية لـ vLLM 0.10.0. والأكثر لفتاً هو فارق حمل المعالج: يعمل Infire عند 25% من حمل المعالج مقابل 140% لـ vLLM — ميزة كفاءة بمقدار 5.6 مرة تُترجَم مباشرةً إلى توفير في تكاليف الأجهزة على نطاق واسع.

جرى إطلاق المحرك رسمياً ضمن Cloudflare Agents SDK v0.5.0 في 17 فبراير 2026، إلى جانب حزمة AI Chat مستقرة مع استمرارية SQLite (1 غيغابايت لكل مثيل Durable Object) لذاكرة الوكيل ذات الحالة بدون تأخير.

لماذا لا يمكن تأجيل قرار الحافة مقابل السحابة

كانت الحجة لصالح استدلال السحابة المركزية (AWS Bedrock، Google Vertex، Azure OpenAI) واضحة في 2023 و2024: أقصى تنوع في النماذج، وقابلية التوسع المرن، وعدم إدارة البنية التحتية. هذه الحجة تضعف في 2026 لأربعة أسباب محددة.

اقتصاديات الكمون تغيّرت. أنظمة الذكاء الاصطناعي الوكيلة — خطوط أنابيب الاستدلال متعددة الخطوات حيث يُطلق استدعاء نموذج واحد استدعاءً آخر — تُضاعف كمون الرحلة ذهاباً وإياباً. يراكم خط أنابيب يُجري 5 استدعاءات LLM تسلسلية لنقطة طرفية سحابية مركزية 200 إلى 500 ميلي ثانية من حمل الشبكة قبل أن يبدأ الحساب حتى. يشغّل Cloudflare Workers AI الاستدلال في أكثر من 200 مدينة حول العالم، مما يُقلّص هذا الحمل إلى أرقام أحادية بالميلي ثانية لمعظم المستخدمين المؤسسيين.

تتشدد قيود إقامة البيانات. قانون الاتحاد الأوروبي للذكاء الاصطناعي، وقانون حماية البيانات الشخصية الرقمية DPDP في الهند، واللوائح القطاعية في الخدمات المالية والرعاية الصحية، تشترط بشكل متزايد أن تُجرى عمليات استدلال معينة داخل ولايات قضائية محددة. تقدّم شبكة Cloudflare الطرفية، مع نقاط تواجد في أكثر من 125 دولة، امتثالاً بالطوبولوجيا — يظل الاستدلال محلياً حيث ينشأ الطلب.

مسارات تكلفة الرموز تتباعد. تُسعّر Workers AI الاستدلال بـ 0.011 دولار لكل 1000 نيوترون — مع 10000 نيوترون مجانية يومياً على جميع الخطط. بالنسبة لأنماط الاستدلال العديدة (الطلبات القصيرة العالية التكرار النموذجية للتصنيف والتوجيه ومهام التضمين)، فإن هذا أرخص بكثير من استدعاءات واجهة برمجة التطبيقات المعادلة لدى المزودين المركزيين عند كمون مماثل.

مخاطر الاعتماد على البائع ترتفع. تعرض Workers AI واجهة برمجة تطبيقات متوافقة مع OpenAI، مما يعني أن كود SDK الحالي لـ OpenAI يمكن توجيهه نحو نقطة طرفية Cloudflare بتغيير إعداد واحد. يُخفّض هذا تكلفة التبديل ويمنح الفرق نفوذاً في المفاوضات التجارية مع موفري الخدمات السحابية العملاقة.

ما يجب على فرق هندسة المؤسسات فعله الآن

1. مراجعة عبء الاستدلال بحثاً عن حساسية الكمون ومتطلبات إقامة البيانات

قبل اختيار منصة، صنّفوا عبء الاستدلال لديكم في ثلاث فئات: (أ) الطلبات الحرجة من حيث الكمون وعالية التكرار حيث يهم كل 100 ميلي ثانية (بوابات واجهة برمجة التطبيقات، التصنيف الفوري، توجيه الوكلاء)؛ (ب) المهام المقيّدة بإقامة البيانات حيث يجب أن يبقى الاستدلال ضمن الولاية القضائية؛ (ج) المهام ذات السياق الكبير أو القريبة من الضبط الدقيق التي تبقى أفضل خدمةً من السحابة المركزية. الفئتان الأوليتان فقط هما المرشحتان الفوريتان القويتان لـ Workers AI أو الاستدلال الطرفي المشغّل بـ Infire. وفقاً لـ RD World Online، تُسجّل الفرق التي تصنّف أعباء العمل قبل الترحيل تكاليف استدلال أقل بنسبة 40 إلى 60% مقارنةً بالفرق التي تُرحّل بالكامل. أجروا المراجعة قبل التوقيع على عقود متعددة السنوات.

2. قياس أداء Infire مباشرةً مقارنةً بمجموعة vLLM أو Bedrock الحالية

ميزة الإنتاجية البالغة 7% وتخفيض المعالج بنسبة 82% التي نشرتها Cloudflare هي نتائج قياسية على H100 NVL في ظروف خاضعة للتحكم. عبء العمل لديكم — أطوال سياق مختلفة، وأحجام دفعات ونماذج مختلفة — سيُنتج أرقاماً مختلفة. اطلبوا الوصول إلى مستوى Enterprise لدى Cloudflare، وشغّلوا توزيع الاستفسارات الإنتاجية على Workers AI، وقيسوا كمون p50 وp99 الفعلي، والتكلفة لكل 1000 طلب، ومعدل الطلبات الدافئة. لا تتّخذوا التزاماً بالمنصة بناءً على معايير Cloudflare المنشورة وحدها. قارنوا تحديداً مع vLLM المعزول بـ gvisor (250% من حمل المعالج في وضع العزل — المرجع الصحيح للمقارنة في عمليات النشر السحابية).

3. نمذجة عبء عمل وكيلي واحد على Agents SDK v0.5.0 قبل الربع الثالث

يشحن Agents SDK v0.5.0 بمنطق إعادة المحاولة (this.retry() مع التراجع الأسي)، وDurable Objects مع استمرارية SQLite (1 غيغابايت لكل مثيل)، و Infire كطبقة استدلال أساسية. يجعله هذا أول بنية تحتية جاهزة للإنتاج للوكلاء ذوي الحالة على الحافة دون تبعيات لقواعد البيانات الخارجية. حددوا سير عمل وكيلي داخلي — نظام توجيه مستندات، أو مُصنّف استفسارات العملاء، أو روبوت مراجعة الكود — ونمذجوه على SDK خلال الـ60 يوماً القادمة. الهدف ليس النشر الفوري في الإنتاج بل التحقق المعماري: فهم النموذج التشغيلي (سلوك البداية الباردة، وحدود استمرارية الحالة، وثغرات إمكانية الملاحظة) قبل الالتزام بالمسار الحرج. الفرق التي تنمذج الآن ستمتلك 6 أشهر من التعلم التشغيلي قبل أن يُجبر السوق الأوسع على الترحيل.

الدرس الهيكلي: الرهانات على البنية التحتية تُتّخذ عند نقاط التحول

النمط هنا مألوف من التحولات السابقة في البنية التحتية: استبدلت السحابة البنية التحتية المحلية حين تجاوز التكلفة لكل وحدة حساب حداً معيناً؛ واستبدلت الحاويات الأجهزة الافتراضية حين بلغت أدوات التنسيق (Kubernetes) نضجها المؤسسي؛ واستبدلت البيئات بلا خوادم إدارة الحاويات حين انخفض كمون البداية الباردة دون العتبات الحرجة للأعمال. الاستدلال الطرفي يسير على المنحنى ذاته.

لا يُثبت نمو إيرادات Cloudflare بنسبة 34% في الربع الأول 2026 أن الاستدلال الطرفي قد انتصر — بل يُثبت أن التحول جارٍ وأن المؤسسات تُقيّم هذا التغيير بنشاط. أرقام أداء محرك Infire (مكسب إنتاجية بنسبة 7%، وتخفيض المعالج بنسبة 82%، وتحميل نموذج Llama 3.1 8B في أقل من 4 ثوانٍ) تُثبت أن الفجوة التقنية بين الاستدلال الطرفي والسحابة المركزية تتضيق بوتيرة أسرع مما توقعته معظم فرق الهندسة.

الدرس الهيكلي من تحولات البنية التحتية السابقة متسق: الفرق التي تنخرط مبكراً — في مرحلة «التقييم» لا مرحلة «الترحيل» — تبني المعرفة المؤسسية وعلاقات الموردين التي تمنحها نفوذاً تفاوضياً وثقة في التنفيذ. الفرق التي تنتظر حتى يصبح الترحيل إلزامياً تدفع علاوة في الوقت والمال. الاستدلال الطرفي في منتصف 2026 هو في الضبط عند النقطة التي يظل فيها الانخراط المبكر رخيصاً والانتظار بدأ يُراكم التكاليف.

تابعوا AlgeriaTech على LinkedIn للتحليلات التقنية المهنية تابعوا على LinkedIn

تابعونا @AlgeriaTechNews على X للحصول على أحدث تحليلات التكنولوجيا تابعنا على X

الأسئلة الشائعة

ما هو محرك Infire من Cloudflare وكيف يختلف عن vLLM؟

Infire محرك استدلال ذكاء اصطناعي مخصص مكتوب بلغة Rust، أطلقته Cloudflare في فبراير 2026 ضمن Agents SDK v0.5.0. على خلاف vLLM — خادم الاستدلال مفتوح المصدر السائد المبني على Python — يستخدم Infire رسوماً بيانية CUDA مُجمَّعة بتقنية JIT، وتخزيناً مؤقتاً مُرقَّماً KV، وبنية تعبئة مسبقة/فك تشفير منفصلة. وفق نتائج القياس على وحدات GPU H100 NVL، يحقق إنتاجية أعلى بنسبة 7% (40.91 مقابل 38.38 طلباً في الثانية) ويعمل بحمل معالج 25% فقط مقابل 140% لـ vLLM، مما يجعله أكثر فعالية من حيث التكلفة لعمليات النشر الطرفية عالية التزامن.

هل Cloudflare Workers AI مناسب لأعباء العمل الإنتاجية المؤسسية في 2026؟

وصل Workers AI إلى مرحلة التوافر العام (GA) ولم يعد في مرحلة التجريب. يدعم أكثر من 50 نموذجاً مفتوح المصدر، ويوفر واجهة برمجة تطبيقات متوافقة مع OpenAI للترحيل السهل، ويُقدّم الاستدلال من أكثر من 200 مدينة على مستوى العالم. تسعير 0.011 دولار لكل 1000 نيوترون تنافسي لمهام الاستدلال الحساسة للكمون وعالية التكرار. غير أنه ينبغي للفرق المؤسسية قياس أداء عبء العمل الخاص بها — فالمهام ذات السياق الكبير أو القريبة من الضبط الدقيق تبقى أفضل خدمةً من قِبَل المزودين المركزيين. يجعل Agents SDK v0.5.0 مع استمرارية SQLite في Durable Objects بنيات الوكلاء ذوي الحالة قابلةً للتطبيق على الحافة لأول مرة.

كيف ينبغي لفرق الهندسة تحديد ما بين الاستدلال الطرفي (Cloudflare Workers AI) والاستدلال السحابي المركزي (AWS Bedrock، Google Vertex)؟

يعتمد القرار على ثلاثة متغيرات: متطلبات الكمون، وقيود إقامة البيانات، ونوع عبء العمل. يتفوق الاستدلال الطرفي في خطوط أنابيب الوكلاء ذات الاستدعاءات التسلسلية المتعددة لـ LLM (حيث تتراكم الرحلات ذهاباً وإياباً المركزية)، ولأي عبء عمل مع متطلبات إقامة في ولاية قضائية محددة، ولمهام التكرار العالي قصيرة السياق حيث تكلفة كل رمز هي الأهم. يتفوق السحابة المركزية في التوليد ذي السياق الكبير، والنماذج الخاصة المضبوطة دقيقاً، والمهام متعددة الوسائط. ستعتمد معظم البنى المؤسسية في 2026 نموذجاً هجيناً: استدلال طرفي لطبقات الوقت الفعلي، وسحابة مركزية لأعباء العمل التحليلية والتوليدية.