المفارقة في صميم الذكاء الاصطناعي المؤسسي
أسعار الرموز تتراجع منذ ثلاث سنوات متتالية. الاستدلال أرخص مما كان عليه على الإطلاق. ومع ذلك، تُبلّغ فرق المالية المؤسسية عن تجاوزات في ميزانيات الذكاء الاصطناعي لا تستطيع تفسيرها، ويتلقى قادة الهندسة توجيهات بخفض الإنفاق على الذكاء الاصطناعي حتى وهم مطالَبون بتوسيع استخدامه. هذا ليس تناقضاً — بل هو النتيجة المتوقعة لتحوّل هيكلي في طريقة استخدام الذكاء الاصطناعي.
في عامَي 2023 و2024، كانت تفاعلات الذكاء الاصطناعي المؤسسية أساساً أحادية الدور: يطرح إنسان سؤالاً، يجيب النموذج، وتنتهي التفاعلة. استفسار خدمة عملاء، أو ملخص وثيقة، أو اقتراح كود — كل منها معاملة مستقلة ومحدودة. كان نموذج التكلفة بسيطاً ويمكن التنبؤ به: عدد الاستفسارات شهرياً × تكلفة الاستفسار الواحد = الفاتورة الشهرية.
في عامَي 2025 و2026، غيّرت الأنظمة الوكيلية هذه المعادلة كلياً. كما تُفصّل التحليلات المتعلقة باقتصاديات الاستدلال وعائد الاستثمار في الذكاء الاصطناعي، تضرب الوكلاء المستقلة “النموذج اللغوي 10 أو 20 مرة لإنجاز مهمة واحدة” مقارنة بالتفاعلات أحادية المطالبة في 2023. مهمة كانت تكلف 0.01 دولار في الاستدلال باتت تكلف 0.10 إلى 0.20 دولار. اضرب ذلك في آلاف سير العمل الآلية التي تعمل على مدار الساعة طوال أيام الأسبوع، وتتحوّل هيكل الفاتورة من بند تكلفة يمكن التنبؤ به إلى مركز تكلفة متقلب.
النتيجة الحسابية صارخة. بات الاستدلال يمثّل 85% من ميزانية الذكاء الاصطناعي المؤسسية، مقارنة بهيكل التكلفة الذي كانت تسيطر عليه التدريب في 2024. يتوقع Goldman Sachs زيادة استهلاك الرموز 24 ضعفاً بحلول 2030، لتصل إلى 120 كوادريليون رمز شهرياً مع توسّع اعتماد الوكلاء المؤسسيين. صرّح محلل Gartner Will Sommer بتحذير صريح: “ينبغي ألا يخلط كبار مسؤولي المنتجات بين انخفاض أسعار الرموز السلعية وبين ديمقراطة الاستدلال الحدّي العميق.”
محركات التكلفة التي تفوّتها فرق المالية
مضاعف سير العمل الوكيلية — 10 إلى 20 استدعاءً للنموذج اللغوي في المهمة الواحدة — هو أكثر محركات التكلفة وضوحاً، لكنه ليس الوحيد. عاملان إضافيان يُضخّمان ميزانيات الذكاء الاصطناعي المؤسسية بطرق لا يرصدها المراقبة القياسية للتكاليف.
عبء السياق في RAG (التوليد المعزز بالاسترجاع) هو المحرك الخفي الأول. لا تقتصر بنى RAG الإنتاجية على استرجاع مستند واحد — بل تسترجع مقاطع مرشّحة متعددة وتصنّفها وتضخ النتائج الأعلى تقييماً في نافذة سياق النموذج. استفسار مستخدم واحد إلى قاعدة معرفة مؤسسية قد يضخّ 4000 إلى 8000 رمز من السياق قبل أن يبدأ استدلال النموذج ذاته. مع تركّز 85% من تكلفة الاستدلال، هذا العبء ليس هامشياً؛ بل كثيراً ما يكون التكلفة المهيمنة في التطبيقات الكثيفة المعرفة. الفرق التي تُقارن تكلفة RAG بالاستفسار على مجموعة بيانات صغيرة تُقدّر باستمرار تكاليف الإنتاج بأقل من قيمتها الحقيقية عند توسّع حجم الاستفسارات.
وكلاء المراقبة الدائمة هي المحرك الثاني. تتضمن بنى الأنظمة الوكيلية المؤسسية بصورة متزايدة وكلاء مراقبة يرصدون الشذوذات، ويصنّفون التذاكر الواردة، ويُحدّثون لوحات المعلومات، أو يُرسلون إشعارات استباقية — تعمل بصفة مستمرة لا عند الطلب. تولّد هذه الوكلاء استهلاكاً أساسياً من الرموز 24 ساعة يومياً وسبعة أيام أسبوعياً، بصرف النظر عن نشاط المستخدم. وكيل مراقبة يفحص ألف حدث في الساعة بتكلفة رموز ضئيلة حتى يتراكم عليه فاتورة شهرية مفاجئة لا تظهر في أي مقياس لكل تفاعل مستخدم.
نتائج التكلفة الواقعية ليست مجردة. التقرير الصادر عن Fortune في 22 مايو 2026 يوثّق إلغاء Microsoft لمعظم تراخيص Claude Code بعد ستة أشهر من النشر بسبب تكاليف الاستخدام غير المستدامة، وإنفاق Uber ميزانية الذكاء الاصطناعي للبرمجة لعام 2026 بأكملها في أربعة أشهر فحسب رغم تحفيز الاعتماد. كان مسؤول تنفيذي في Nvidia صريحاً بشأن هذا الموضوع: “بالنسبة لفريقي، تكلفة الحوسبة تتجاوز بكثير تكاليف الموظفين.” هذه مؤسسات ضخمة ومتطورة تمتلك الموارد الهندسية للتحسين — ومع ذلك فاجأتها مشكلة التكلفة.
إعلان
ما يجب على فرق الذكاء الاصطناعي المؤسسي فعله حيال ذلك
1. قِس استهلاك الرموز على مستوى سير العمل، لا على مستوى النموذج
الانضباط الأول في AI FinOps هو الرؤية: لا يمكنك إدارة ما لا تستطيع قياسه. معظم لوحات معلومات الذكاء الاصطناعي المؤسسية تُبلّغ عن إجمالي استهلاك الرموز لكل نموذج أو لكل مفتاح API — مقياس لا يكاد يكون مفيداً لإدارة التكاليف لأنه لا يرتبط بسير العمل التجارية. قِس بدلاً من ذلك على مستوى سير العمل: لكل سير عمل ذكاء اصطناعي مميزة (مراجعة العقود، وفرز تذاكر الدعم، ومراجعة الكود، وتوليد التقارير المالية)، قِس متوسط تكلفة الرموز لكل تنفيذ وتابعها أسبوعياً. هذا يكشف فوراً عن المتطرفات: سير العمل التي تكلف 10 أضعاف نظيراتها، والتي يتنامى استهلاك رموزها 30% شهرياً مع إضافة المزيد من الحالات الطرفية، والتي ضاعف فيها تغيير في إعداد نافذة السياق التكاليف دون تحسين جودة المخرجات. بدون قياس على مستوى سير العمل، لن يكون لجهود خفض التكاليف أهداف واضحة.
2. ضع حدوداً لعمق حلقات الوكيل وأقصى حجم نافذة السياق كمعايير هندسية
حلقات الأنظمة الوكيلية غير المحدودة في عدد استدعاءاتها للنموذج اللغوي نمط تصميم شائع في المراحل المبكرة يتحوّل إلى مسؤولية تكلفة عند التوسّع. طبّق معايير هندسية: يجب على كل سير عمل وكيلي تحديد أقصى عمق للحلقة (عدد استدعاءات النموذج اللغوي الممكنة قبل انتهاء سير العمل أو تصعيده)، وأقصى حجم لنافذة السياق (أقصى رموز تُضخّ في كل استدعاء)، ومسار تدهور لطيف (ما يفعله الوكيل عند بلوغ الحد دون إكمال المهمة). هذه ليست قيوداً على الذكاء الاصطناعي — بل هي أنماط المهلة الزمنية وقاطع الدائرة ذاتها التي طبّقتها هندسة البرمجيات الإنتاجية على استعلامات قواعد البيانات واستدعاءات API منذ عقود. تطبيقها على وكلاء الذكاء الاصطناعي يستلزم تحديث ثقافتك الهندسية، لا مجرد تعديل كودك.
3. طبّق توجيه النماذج: طابق تعقيد المهمة بتكلفة النموذج
ليست كل مهمة تستلزم نموذج استدلال حدّياً. مهمة تصنيف مستند تستهلك 200 رمز ولها مخطط مخرجات محدد جيداً يمكن معالجتها بنموذج أصغر وأرخص بتكلفة أقل 10 إلى 50 ضعفاً من GPT-4o أو Claude 3 Opus. أما مهمة توليد كود تستلزم استدلالاً متعدد الخطوات وقرارات معمارية فتستحق النموذج الحدّي. توجيه النماذج — إحالة المهام تلقائياً إلى أكثر نموذج فعّالاً من حيث التكلفة وقادر على إنجازها — هو أحد استثمارات AI FinOps الأعلى عائداً. المؤسسات التي طبّقت توجيه النماذج تُبلّغ باستمرار عن تخفيض 30 إلى 60% في تكاليف الاستدلال دون تدهور قابل للقياس في جودة المخرجات. يُوصي تحليل Deloitte لديناميكيات الإنفاق على رموز الذكاء الاصطناعي بتوجيه النماذج كرافعة تكلفة أساسية للمؤسسات ذات سير الأعمال الذكية غير المتجانسة، لأن معظم مهام الذكاء الاصطناعي المؤسسية لا تقع عند حدود الاستدلال. ابنِ طبقة توجيه تُصنّف المهام الواردة بحسب التعقيد وتوجّهها وفقاً لذلك — استثمار هندسي يُسدَّد خلال أسابيع عند التوسّع.
4. طبّق ضغط المطالبات والسياق بصورة حثيثة
تكلفة الرموز في استدعاء النموذج اللغوي الواحد هي دالة مباشرة لعدد الرموز في المطالبة مضافاً إليه عدد الرموز في الاستجابة. معظم المطالبات الإنتاجية أطول مما تحتاج: تعليمات مسهبة، وسياق زائد، ومطالبات نظام سيئة البنية تكرر الإرشاد ذاته بأشكال متعددة. ضغط المطالبات — المراجعة المنهجية وتقصير مطالبات النظام والتعليمات والسياق المضخوخ دون تدهور جودة المخرجات — هو تحسين عالي الرافعة ومنخفض التكلفة الهندسية. بالمثل، بنى RAG التي تضخّ مستندات كاملة بدلاً من مقاطع مستهدفة مُضيّعة للموارد باستمرار؛ استرجاع مستهدف يضخّ الفقرات الثلاث الأكثر صلة أكثر فعالية من حيث التكلفة وكثيراً ما يُنتج مخرجات أفضل من ضخ المستند كاملاً. أرسِ دورة مراجعة ربع سنوية للمطالبات كممارسة هندسية قياسية لكل سير عمل ذكاء اصطناعي إنتاجية.
أين يقع هذا في اقتصاد الذكاء الاصطناعي لعام 2026
قصة AI FinOps هي في نهاية المطاف إشارة نضج. تمر كل فئة تقنية جديدة بمرحلة يُركّز فيها المتحمسون للاعتماد على القدرات ويتجاهلون الاقتصاديات — ثم بمرحلة تصبح فيها الاقتصاديات حتمية. مرّت الحوسبة السحابية بهذا في الفترة 2012-2015، حين اكتشفت المؤسسات أن عمليات الترحيل “الرفع والتحويل” أنتجت فواتير سحابية أعلى 3-5 أضعاف من التكاليف المحلية لأنها استوردت هدرها المحلي إلى نموذج الدفع مقابل الاستخدام. الذكاء الاصطناعي في 2026 في هذه المرحلة تحديداً: حماس القدرات في 2023-2024 يصطدم بالواقع الاقتصادي لاستهلاك الرموز على نطاق الأنظمة الوكيلية.
الانضباطات التي روّضت تكاليف السحابة — أطر FinOps، والتزامات السعة المحجوزة، والوسم والتكليف بالتكاليف، وأتمتة ضبط الحجم — تُتكيَّف مباشرة للذكاء الاصطناعي. الفرق أن إدارة تكاليف الذكاء الاصطناعي تمتلك رافعة إضافية لم تتوفر في FinOps السحابية: اختيار النموذج وهندسة المطالبات تؤثران مباشرة على التكلفة، لا فقط أنماط الاستخدام. المؤسسات التي تبني كفاءة حقيقية في AI FinOps في 2026 — القياس وتوجيه النماذج وتحسين السياق وحوكمة عمق الحلقات — ستكون أكثر تنافسية من حيث التكلفة في 2028 حين يصبح الذكاء الاصطناعي الوكيلي سائداً تماماً والفارق التكلفي بين البنى الكفؤة وغير الكفؤة يُقاس بملايين الدولارات سنوياً.
الأسئلة الشائعة
لماذا تُكلّف سير الأعمال الوكيلية في الذكاء الاصطناعي أكثر بكثير من التفاعلات أحادية الدور؟
التفاعل أحادي الدور (سؤال يجيب عنه نموذج) يستهلك الرموز مرة واحدة. أما سير العمل الوكيلي — حيث يستخدم نظام الذكاء الاصطناعي الأدوات ويبحث في قواعد البيانات ويكتب الكود وينفّذه ويتكرر نحو هدف — فيضرب النموذج اللغوي 10 إلى 20 مرة لإكمال المهمة الواحدة. في كل خطوة يُعاد ضخ السياق (تاريخ المحادثة، ونتائج الأدوات، والتعليمات)، مما يُضاعف استهلاك الرموز. أضف عبء سياق RAG ووكلاء المراقبة الدائمة، وقد تصل تكاليف الذكاء الاصطناعي المؤسسية في البنى الوكيلية إلى 20-50 ضعف ما تُكلّفه الكميات المعادلة من التفاعلات أحادية الدور، حتى بالسعر ذاته للرمز الواحد.
ما هو AI FinOps، وكيف يختلف عن إدارة تكاليف السحابة العادية؟
FinOps (العمليات المالية) هو انضباط لإدارة تكاليف السحابة، يجمع بين المدخلات الهندسية والمالية والتجارية لتحسين الإنفاق. يمتد AI FinOps ليشمل الاستدلال على الذكاء الاصطناعي تحديداً. الفرق عن FinOps السحابية أن تكاليف الذكاء الاصطناعي تمتلك رافعة تحسين إضافية: هندسة المطالبات واختيار النموذج يخفّضان التكلفة لكل تفاعل مباشرة، لا فقط حجم الاستخدام. تستطيع المؤسسات تخفيض فواتير الذكاء الاصطناعي بضبط حجم اختيار النماذج، وضغط المطالبات، وتحديد عمق حلقات الوكيل، وتوجيه المهام المنخفضة التعقيد نحو نماذج أرخص — وهي إجراءات لا تمتلك مقابلاً مباشراً في إدارة تكاليف السحابة.
ما هو الهدف الواقعي لخفض التكاليف من خلال تقنيات AI FinOps؟
استناداً إلى النتائج المُبلَّغ عنها من مؤسسات عملاقة، يُحقق توجيه النماذج (توجيه المهام نحو نماذج بتكلفة مناسبة) باستمرار تخفيضاً في التكاليف يتراوح بين 30 و60% دون تدهور في جودة المخرجات. يُضيف ضغط المطالبات وتطبيق أسقف نافذة السياق عادةً 15 إلى 25% إضافية فوق ذلك. تُبلّغ المؤسسات التي تطبّق كلتا التقنيتين مجتمعتَين عن تخفيضات إجمالية في تكاليف الاستدلال تتراوح بين 40 و70% مقارنة بالبنى غير المُحسَّنة التي تشغّل الأعمال ذاتها. التحفظ الرئيسي أن هذه الوفورات تستلزم استثماراً هندسياً مسبقاً يستغرق 2 إلى 4 أسابيع لكل سير عمل لتطبيقها بصورة صحيحة — فهي ليست مجانية.











