لم يُصمَّم معظم البرامج لتكون آلية. لقد صُمِّمت للبشر — أعين تقرأ الشاشات، وأيدٍ تحرّك الفأرة، وأصابع تضغط على المفاتيح. تتراكم عقود من البنية التحتية لتقنية المعلومات المؤسسية في صورة غابات كثيفة من الواجهات الرسومية، دون أي وصول عبر واجهة برمجة التطبيقات (API)، ودون تصدير بيانات منظّمة، ودون نقاط اتصال موثّقة. كان هذا يمثّل حاجزاً منيعاً أمام الأتمتة التقليدية. أما بالنسبة لجيل جديد من وكلاء الذكاء الاصطناعي، فهو باب مفتوح على مصراعيه.
وكلاء “استخدام الحاسوب” — أنظمة ذكاء اصطناعي تُدرك الشاشات بصرياً وتتفاعل معها عبر نقرات فأرة وضغطات لوحة مفاتيح محاكاة — برزت بوصفها تقنية تجارية جدية في أواخر عام 2024. وهي تمثّل أحد أكثر التحولات أهمية في الأتمتة منذ ظهور أتمتة العمليات الآلية (RPA) في مطلع الألفية الثالثة، وتتقدم بوتيرة أسرع بكثير.
Anthropic تفتح الباب: Claude Computer Use
في أكتوبر 2024، أطلقت Anthropic Claude Computer Use في نسخة تجريبية عامة. جاء الإعلان هادئاً بمعايير إعلانات التكنولوجيا، لكن تداعياته كانت صاخبة. أصبح Claude قادراً على التقاط لقطة شاشة، وفهم محتواها — بما في ذلك الأزرار والنماذج والقوائم وحقول النصوص — وتوليد سلسلة من الإجراءات لإنجاز هدف محدد. فتح متصفحاً، والبحث عن سعر، ونسخه إلى جدول بيانات، وإرسال النموذج — كل ذلك دون أي كود تكامل مخصص.
تعتمد التقنية الأساسية على قدرة نماذج الرؤية واللغة (VLM): يعالج Claude لقطات الشاشة كصور، ويربطها بفهم دلالي (“هذا زر إرسال”، “هذا الحقل يتطلب تاريخاً”)، ويولّد استدعاءات أدوات لتحريك الفأرة والنقر والكتابة. وعلى خلاف RPA التقليدية التي تعتمد على محددات عناصر هشّة مرتبطة بإحداثيات واجهة محددة، يُفسّر Claude الشاشات كما يفعل الإنسان — بصورة سياقية.
أفاد أوائل المختبرين من المؤسسات بأن Claude Computer Use استطاع التعامل مع مهام كانت تستلزم سابقاً تطوير روبوتات RPA مخصصة: التنقل في البوابات الحكومية القديمة، واستخراج البيانات من شاشات معالجة مطالبات التأمين، وملء نماذج المشتريات متعددة الخطوات في SAP. ليس بشكل مثالي، لكن بفاعلية، ودون أشهر من وقت تطوير الروبوتات.
OpenAI تنضم مع Operator
أعقبت OpenAI ذلك في يناير 2025 بإطلاق Operator، وهو وكيل مبني على GPT-4o بقدرات مماثلة، متاح في البداية لمشتركي ChatGPT Pro. وُضع Operator صراحةً بوصفه وكيل أتمتة متصفح: حجز مطاعم، وطلب البقالة، وملء النماذج الإلكترونية، وإدارة سير العمل على الويب. كان التوجه المبدئي للمستهلكين، لكن حالات الاستخدام المؤسسي ظهرت على الفور.
ما أضافه Operator للنقاش هو نموذج الثقة والتحقق. قبل اتخاذ أي إجراءات لا رجعة فيها — كإتمام دفعة أو إرسال رسالة — يتوقف Operator ويطلب تأكيد المستخدم. أصبح هذا التصميم “توقف وتأكيد” نموذجاً مرجعياً لكيفية تعامل وكلاء استخدام الحاسوب مع الإجراءات ذات العواقب، إقراراً بمخاوف الأمان التي أثارها المجال تقريباً فور الإطلاق.
أطلقت Google وMicrosoft (عبر Copilot) وعدد من الشركات الناشئة ذات التمويل الجيد، من بينها Browserbase وSkyvern وMultiOn، تطبيقات منافسة طوال عام 2025، كل منها بفلسفة واجهة وعمق تكامل مختلفَين.
كيف تُتيح نماذج الرؤية واللغة فهم الواجهات الرسومية
السبب الذي يجعل وكلاء استخدام الحاسوب يعملون — والسبب الذي يميّزهم نوعياً عن أدوات التقاط الشاشة الأقدم — هو طبقة نموذج الرؤية واللغة.
تبني أدوات RPA التقليدية مثل UiPath وAutomation Anywhere سير العمل عبر تسجيل إجراءات المستخدم وربطها بمحددات العناصر: “انقر على الزر عند الإحداثيات (847, 312)” أو “ابحث عن العنصر بمعرّف submit-btn”. يعمل هذا حتى تتغير الواجهة. نسخة جديدة من البرنامج، أو دقة شاشة مختلفة، أو تصميم نموذج معاد يُعطل الروبوت تماماً، مما يستلزم إصلاحاً يدوياً.
لا تستخدم الوكلاء المبنية على نماذج VLM محددات العناصر. إنها تقرأ الشاشة دلالياً. إذا تحرك زر أو تغيّر لونه أو أعيدت تسميته، يتكيّف الوكيل — لأنه يفهم مفهومياً كيف تبدو إجراءات “الإرسال”، لا مكانها في المرة الأخيرة. يُقلل هذا بشكل كبير من أعباء الصيانة، التي كانت تاريخياً التكلفة الخفية التي تجعل مشاريع RPA باهظة.
المقايضة هي زمن الاستجابة والتكلفة. تتضمن كل دورة من “لقطة شاشة إلى إجراء” استدعاء استدلال لنموذج ضخم. بالنسبة للعمليات التي تتطلب مئات من تفاعلات الواجهة، يتراكم ذلك من حيث الوقت وتكلفة API — قيد بدأت النماذج المتخصصة الأصغر القابلة للنشر محلياً في معالجته.
حالات الاستخدام الناشئة في 2026
بحلول مطلع 2026، تبلورت عدة فئات من حالات الاستخدام بوصفها أهدافاً عالية العائد على الاستثمار لوكلاء استخدام الحاسوب:
تكامل الأنظمة القديمة. المؤسسات التي تشغّل أنظمة ERP قديمة أو بوابات حكومية أو برامج قطاعية محددة بلا واجهات API حديثة هي المستفيد الرئيسي. يمكن لوكلاء استخدام الحاسوب أن يعملوا طبقات ترجمة — تجسير مسارات البيانات الحديثة مع الواجهات التي لا يمكن تحديثها دون تكاليف باهظة.
سير العمل متعدد التطبيقات. المهام التي تتطلب نقل البيانات بين تطبيقات متعددة — سحب سجل من نظام CRM، ونسخه إلى أداة فوترة، وإرفاق ملف PDF من مكتبة مستندات — تتلاءم بطبيعتها مع هذا النهج. هذه التدفقات شائعة وذات حجم عالٍ، وكانت تستلزم سابقاً جهداً يدوياً أو تكاملات نقطة إلى نقطة باهظة الثمن.
البحث واستخراج البيانات من الويب. الاستخبارات التنافسية، ومسوحات الأسعار، والإيداعات التنظيمية، وأبحاث المشتريات التي تتطلب التنقل في مواقع الويب العامة، تم تطبيق الأتمتة عليها من قِبَل الرواد الأوائل في المال والتأمين والاستشارات.
العمليات الامتثالية المكثفة بالنماذج. سير عمل KYC المصرفي، ومعالجة مطالبات التأمين، وطلبات التصاريح الحكومية تنطوي على ملء نماذج متكرر يناسب تماماً الوكلاء القادرين على قراءة النماذج المنظّمة وتفسيرها وإكمالها بشكل موثوق.
إعلان
سوق RPA يواجه اختباراً حقيقياً
قُدِّر سوق RPA بنحو 13 مليار دولار في 2025، مع هيمنة UiPath وAutomation Anywhere على الحصص المؤسسية الكبرى. ردّت كلتا الشركتين على وكلاء استخدام الحاسوب لا بتجاهلها، بل بدمج قدرات VLM في منصاتهما الحالية — استراتيجية استيعاب لا منافسة.
أطلقت UiPath وحدة GenAI Activities التي تتيح للوكلاء داخل تدفقات UiPath استخدام الفهم البصري للشاشات للعناصر التي لا تستطيع المحددات التقليدية التعامل معها. أضافت Automation Anywhere قدرات مماثلة لمنتجها Automation Co-Pilot. الرسالة من بائعي RPA التقليديين: نحن نضيف الطبقة الجديدة، لسنا مُستبدَلين بها.
هذا تموضع مؤقت على الأرجح. المسار طويل الأمد يشير نحو منصات مبنية أصلاً للوكلاء تعتبر استخدام الحاسوب قدرة جوهرية لا إضافة، لتحلّ تدريجياً محل منشئي سير العمل القائمين على النقر والسحب بوصفهم النموذج السائد للأتمتة.
الموثوقية والهلوسة على الشاشات
مسألة الموثوقية جدية وأقل تغطية مما تستحق. الوكلاء المبنية على نماذج VLM تُهلوس — والهلوسة على شاشة حاسوب حيّة لها عواقب لا تملكها هلوسة النصوص. وكيل يخطئ في تمييز زر “حذف” على أنه “تنزيل”، أو يسيء قراءة مبلغ بالدولار في حقل نموذج، قد يتسبب في فقدان بيانات أو معاملات خاطئة أو انتهاكات امتثال.
تشمل استراتيجيات التخفيف الحالية نقاط تأكيد بشرية، وتسجيل الإجراءات مع قدرة التراجع، وبيئات متصفح معزولة، وعتبات ثقة تعلّق التنفيذ عندما تنخفض درجة يقين النموذج دون مستوى محدد. لا تحل أي من هذه الأساليب المشكلة بشكل كامل؛ بل تديرها فحسب.
تعكس أنماط التبني المؤسسي هذا الواقع. معظم المؤسسات التي تُجري تجارب مع وكلاء استخدام الحاسوب في 2026 تشغّلها أولاً على تدفقات عمل محدودة المخاطر أو قابلة للعكس أو سهلة التدقيق — قراءة البيانات ونسخها بدلاً من إرسالها أو حذفها. الثقة التدريجية لا النشر الشامل هو النمط السائد.
المخاطر الأمنية للوصول المستقل إلى الشاشات
وكيل استخدام الحاسوب الذي يصل إلى شاشة مستخدم يصل إلى كل شيء على تلك الشاشة: كلمات المرور المكتوبة في حقول مرئية، والوثائق السرية المفتوحة في الخلفية، ورموز الجلسة في أشرطة عناوين URL للمتصفحات. سطح الهجوم لحقن التوجيه (prompt injection) — حيث تختطف محتوى خبيث على صفحة ويب تعليمات الوكيل — كبير ويُستغل بنشاط في بيئات البحث.
يُنصح المؤسسات التي تنشر وكلاء استخدام الحاسوب في 2026 بتشغيل الوكلاء في جلسات متصفح معزولة بصلاحيات محدودة، وتسجيل جميع الإجراءات للتدقيق، ومعاملة جلسات الوكيل كجلسات وصول ذات امتياز تستلزم ضوابط أمان مماثلة لجلسات المسؤول البشري.
إعلان
رادار القرار (منظور الجزائر)
| البُعد | التقييم |
|---|---|
| الصلة بالجزائر | متوسطة-مرتفعة — تعتمد العديد من الشركات الجزائرية على برامج قديمة بلا واجهات API؛ يمكن لوكلاء استخدام الحاسوب الأتمتة دون جهد تكامل |
| البنية التحتية جاهزة؟ | جزئياً — الحوسبة السحابية ضرورية للاستدلال الكامل بنماذج VLM؛ النشر المحلي ممكن للبيانات الحساسة بنماذج أصغر |
| المهارات متوفرة؟ | لا — تنسيق الوكلاء والهندسة التوجيهية لتدفقات استخدام الحاسوب فئة مهارة جديدة لم تُدرَّس بعد محلياً |
| الجدول الزمني للعمل | 6-12 شهراً — يمكن للرواد الأوائل في البنوك والتأمين والاتصالات تجربة تدفقات محدودة المخاطر الآن |
| أصحاب المصلحة الرئيسيون | أقسام تقنية المعلومات في المؤسسات الكبرى، مستشارو RPA، فرق أتمتة القطاع المصرفي، وحدات التحول الرقمي الحكومي |
| نوع القرار | استراتيجي |
خلاصة: يشغّل القطاعان العام والخاص في الجزائر كميات ضخمة من البرامج القديمة — أنظمة جمركية ومنصات مصرفية وبوابات تأمين — بلا طبقة API حديثة ويصعب استبدالها. يقدّم وكلاء استخدام الحاسوب مساراً نحو الأتمتة دون استبدال مكلف للأنظمة. ينبغي على المسؤولين عن تقنية المعلومات في القطاع المصرفي والتأمين إطلاق تجارب مُحكمة الآن، بدءاً من تدفقات العمل للقراءة فقط أو ذات العواقب المحدودة، قبل أن تنضج التقنية ويتعمّق الارتباط بمنصات الرواد الأوائل.





إعلان