La plupart des logiciels n’ont jamais été conçus pour être automatisés. Ils ont été conçus pour les humains — des yeux qui lisent des écrans, des mains qui déplacent des souris, des doigts qui appuient sur des touches. Des décennies d’infrastructure informatique d’entreprise existent sous forme d’interfaces graphiques denses, sans accès API, sans exportation de données structurées, sans points d’entrée documentés. Pour l’automatisation traditionnelle, c’était un mur. Pour une nouvelle catégorie d’agents IA, c’est une porte grande ouverte.

Les agents computer-use — des systèmes d’IA qui perçoivent les écrans visuellement et interagissent avec eux via des clics de souris et des frappes au clavier simulés — sont devenus une technologie commerciale sérieuse fin 2024. Ils représentent l’un des changements les plus importants dans l’automatisation depuis l’émergence de la RPA (Robotic Process Automation) au début des années 2000, et ils progressent beaucoup plus vite.

Anthropic Ouvre la Voie : Claude Computer Use

En octobre 2024, Anthropic a lancé Claude Computer Use en version bêta publique. L’annonce était discrète par les standards des annonces technologiques, mais ses implications étaient retentissantes. Claude pouvait désormais prendre une capture d’écran, comprendre son contenu — boutons, formulaires, menus, champs de texte — et générer une séquence d’actions pour accomplir un objectif. Ouvrir un navigateur, rechercher un prix, le copier dans un tableur, soumettre le formulaire. Claude le faisait sans aucun code d’intégration personnalisé.

La technologie sous-jacente repose sur une capacité de modèle vision-langage (VLM) : Claude traite les captures d’écran comme des images, les associe à une compréhension sémantique (« c’est un bouton Soumettre », « ce champ attend une date ») et génère des appels d’outils pour le déplacement de la souris, les clics et la frappe. Contrairement à la RPA traditionnelle, qui s’appuie sur des sélecteurs d’éléments fragiles liés à des coordonnées d’interface spécifiques, Claude interprète les écrans comme le ferait un humain — de manière contextuelle.

Les premiers testeurs en entreprise ont rapporté que Claude Computer Use pouvait gérer des tâches qui nécessitaient auparavant des robots RPA sur mesure : naviguer dans des portails gouvernementaux vieillissants, extraire des données depuis des écrans de gestion de sinistres d’assurance, remplir des formulaires d’approvisionnement en plusieurs étapes dans SAP. Pas parfaitement — mais fonctionnellement, et sans des mois de développement de robots.

OpenAI Répond avec Operator

OpenAI a suivi en janvier 2025 avec Operator, un agent basé sur GPT-4o aux capacités similaires, initialement disponible pour les abonnés ChatGPT Pro. Operator a été positionné explicitement comme un agent d’automatisation de navigateur : réserver des restaurants, commander des courses, remplir des formulaires en ligne, gérer des flux de travail web. L’approche était d’abord grand public, mais les cas d’usage en entreprise ont émergé immédiatement.

Ce qu’Operator a apporté au débat, c’est un modèle de confiance et de vérification. Avant d’effectuer des actions irréversibles (valider un paiement, envoyer un message), Operator marque une pause et demande confirmation à l’utilisateur. Cette architecture pause-et-confirmation est devenue un modèle de référence pour la gestion des actions à conséquences par les agents computer-use — reconnaissant ainsi les préoccupations de sécurité que le secteur avait soulevées presque immédiatement.

Google, Microsoft (via Copilot) et plusieurs startups bien financées, dont Browserbase, Skyvern et MultiOn, ont lancé des implémentations concurrentes tout au long de 2025, chacune avec une philosophie d’interface et une profondeur d’intégration différentes.

Comment les Modèles Vision-Langage Permettent la Compréhension des Interfaces

Si les agents computer-use fonctionnent, c’est grâce à la couche de modèle vision-langage — et c’est ce qui les différencie qualitativement des outils d’automatisation par capture d’écran plus anciens.

Les outils RPA traditionnels comme UiPath et Automation Anywhere construisent des flux de travail en enregistrant les actions de l’utilisateur et en les associant à des sélecteurs d’éléments : « cliquer sur le bouton aux coordonnées (847, 312) » ou « trouver l’élément avec l’ID submit-btn ». Cela fonctionne jusqu’au changement de l’interface. Une nouvelle version du logiciel, une résolution d’écran différente ou un formulaire redessiné brise le robot entièrement, nécessitant une réparation manuelle.

Les agents basés sur des VLM n’utilisent pas de sélecteurs. Ils lisent l’écran sémantiquement. Si un bouton se déplace, change de couleur ou est renommé, l’agent s’adapte — parce qu’il comprend conceptuellement à quoi ressemble une action de « soumission », et non l’endroit où elle se trouvait la dernière fois. Cela réduit considérablement la charge de maintenance, qui a toujours été le coût caché rendant les projets RPA onéreux.

La contrepartie est la latence et le coût. Chaque cycle capture d’écran-vers-action implique un appel d’inférence à un grand modèle. Pour les processus nécessitant des centaines d’interactions avec l’interface, cela s’accumule en temps et en coût d’API — une limitation que des modèles spécialisés et plus petits déployables localement commencent à adresser.

Cas d’Usage Émergents en 2026

Début 2026, plusieurs catégories de cas d’usage se sont cristallisées comme des cibles à fort retour sur investissement pour les agents computer-use :

Intégration des systèmes legacy. Les organisations exploitant des ERP vieillissants, des portails gouvernementaux ou des logiciels sectoriels sans API modernes sont les principales bénéficiaires. Les agents computer-use peuvent agir comme des couches de traduction — reliant des pipelines de données modernes à des interfaces qui ne peuvent pas être modernisées sans coût prohibitif.

Flux de travail multi-applications. Les tâches nécessitant de déplacer des données entre plusieurs applications — extraire un enregistrement d’un CRM, le copier dans un outil de facturation, joindre un PDF depuis une bibliothèque de documents — sont des candidats naturels. Ces flux sont fréquents, à volume élevé, et nécessitaient auparavant soit un effort manuel, soit des intégrations point à point coûteuses.

Recherche et extraction de données web. La veille concurrentielle, les enquêtes tarifaires, les dépôts réglementaires et la recherche en approvisionnement nécessitant la navigation sur des sites web publics ont été automatisés par des pionniers dans la finance, l’assurance et le conseil.

Processus de conformité intensifs en formulaires. Les flux KYC bancaires, le traitement des sinistres d’assurance et les demandes de permis gouvernementaux impliquent un remplissage répétitif de formulaires qui convient parfaitement aux agents capables de lire, d’interpréter et de compléter des formulaires structurés de manière fiable.

Advertisement

Le Marché de la RPA Face à un Bouleversement

Le marché de la RPA était évalué à environ 13 milliards de dollars en 2025, UiPath et Automation Anywhere contrôlant les plus grandes parts d’entreprise. Les deux sociétés ont répondu aux agents computer-use non pas en les ignorant, mais en intégrant des capacités VLM dans leurs plateformes existantes — une stratégie d’absorption plutôt que de concurrence.

UiPath a lancé son module GenAI Activities, permettant aux agents dans les flux UiPath d’utiliser la compréhension visuelle des écrans pour les éléments que les sélecteurs traditionnels ne peuvent pas gérer. Automation Anywhere a ajouté des capacités similaires à son produit Automation Co-Pilot. Le message des éditeurs RPA historiques : nous ajoutons la nouvelle couche, nous ne sommes pas remplacés par elle.

Il s’agit presque certainement d’un positionnement temporaire. La trajectoire à long terme pointe vers des plateformes agent-native qui traitent le computer-use comme une capacité de premier ordre plutôt qu’un module complémentaire, déplaçant progressivement les constructeurs de flux de travail point-and-click comme paradigme d’automatisation dominant.

Fiabilité et Hallucinations sur les Écrans

La question de la fiabilité est sérieuse et sous-rapportée. Les agents basés sur des VLM hallucinent — et les hallucinations sur un écran d’ordinateur en activité ont des conséquences que les hallucinations textuelles n’ont pas. Un agent qui confond un bouton « Supprimer » avec « Télécharger », ou qui lit mal un montant en dollars dans un formulaire, peut provoquer une perte de données, des transactions incorrectes ou des violations de conformité.

Les stratégies d’atténuation actuelles incluent des points de confirmation humain, la journalisation des actions avec capacité de rollback, des environnements de navigateur isolés et des seuils de confiance qui suspendent l’exécution lorsque la certitude du modèle tombe en dessous d’un niveau défini. Aucune de ces approches ne résout complètement le problème ; elles le gèrent.

Les modèles d’adoption en entreprise reflètent cette réalité. La plupart des organisations pilotant des agents computer-use en 2026 les exécutent d’abord sur des flux de travail à faibles enjeux, réversibles ou facilement auditables — lire et copier des données plutôt que soumettre ou supprimer. La confiance progressive, et non le déploiement en masse, est le modèle dominant.

Risques de Sécurité d’un Accès Autonome aux Écrans

Un agent computer-use ayant accès à l’écran d’un utilisateur a accès à tout ce qui s’y trouve : mots de passe saisis dans des champs visibles, documents confidentiels ouverts en arrière-plan, jetons de session dans les barres d’URL des navigateurs. La surface d’attaque pour l’injection de prompt — où du contenu malveillant sur une page web détourne les instructions de l’agent — est significative et activement exploitée dans des contextes de recherche.

Les organisations déployant des agents computer-use en 2026 sont conseillées d’exécuter les agents dans des sessions de navigateur isolées avec des permissions minimales, de journaliser toutes les actions pour audit, et de traiter les sessions d’agent comme des sessions d’accès privilégié nécessitant les mêmes contrôles de sécurité que les sessions administrateur humaines.

Advertisement

Radar de Décision (Prisme Algérie)

Dimension Évaluation
Pertinence pour l’Algérie Moyen-Élevé — de nombreuses entreprises algériennes dépendent encore de logiciels legacy sans API ; les agents computer-use pourraient automatiser sans travail d’intégration
Infrastructure prête ? Partielle — calcul cloud nécessaire pour l’inférence VLM complète ; déploiement local possible pour les données sensibles avec des modèles plus petits
Compétences disponibles ? Non — l’orchestration d’agents et le prompt engineering pour les flux computer-use sont une nouvelle catégorie de compétences non encore enseignée localement
Calendrier d’action 6-12 mois — les premiers adopteurs en banque, assurance et télécoms peuvent piloter des flux à faibles risques dès maintenant
Parties prenantes clés Départements IT des grandes entreprises, consultants RPA, équipes d’automatisation du secteur bancaire, unités de transformation numérique gouvernementale
Type de décision Stratégique

En bref : Les secteurs public et privé algériens exploitent de larges volumes de logiciels legacy — systèmes douaniers, plateformes bancaires, portails d’assurance — sans couche API moderne et difficilement remplaçables. Les agents computer-use offrent une voie vers l’automatisation sans remplacement coûteux des systèmes. Les responsables informatiques du secteur bancaire et de l’assurance devraient lancer des pilotes contrôlés maintenant, en commençant par des flux de travail en lecture seule ou à faibles conséquences, avant que la technologie ne mûrisse et que le verrouillage fournisseur ne se solidifie autour des plateformes des premiers adopteurs.

Sources et Lectures Complémentaires