Le modèle qui veut votre souris
Le 5 mars 2026, OpenAI a lancé GPT-5.4 — et la fonctionnalité phare ne concernait ni les tokens, ni les paramètres, ni les données d’entraînement. Il s’agissait d’un curseur de souris.
Pour la première fois dans l’histoire de l’IA commerciale, un grand modèle de langage généraliste est livré avec des capacités natives d’utilisation d’ordinateur. GPT-5.4 peut voir votre écran, déplacer votre souris, cliquer sur des boutons, saisir du texte dans des champs, naviguer entre les applications et enchaîner des flux de travail multi-étapes sur l’ensemble de votre système d’exploitation — le tout sans scripts personnalisés, extensions de navigateur ou wrappers spécialisés.
Les capacités d’utilisation d’ordinateur de GPT-5.4 sont disponibles via l’API et Codex, les développeurs passant un type d’outil computer_use pour activer l’interaction avec l’écran. Le modèle gère les mouvements de souris, les entrées clavier, l’analyse de captures d’écran et le basculement entre applications comme des capacités de premier ordre aux côtés de la génération de texte et du raisonnement.
Lorsqu’un modèle de fondation peut utiliser un ordinateur comme le fait un humain, chaque logiciel doté d’une interface graphique devient programmable en langage naturel. Pas d’API nécessaire. Pas de travail d’intégration. Dites simplement à l’IA ce que vous voulez accomplir et regardez-la naviguer sur l’écran.
Ce que GPT-5.4 fait concrètement
Architecture et utilisation de l’ordinateur
GPT-5.4 succède à GPT-5.0 (août 2025) et GPT-5.2 (décembre 2025) dans la famille de modèles GPT-5. Le modèle prend en charge une fenêtre de contexte standard de 272 000 tokens, avec un contexte expérimental d’un million de tokens disponible via la configuration de Codex et de l’API. OpenAI rapporte que les affirmations individuelles sont 33 % moins susceptibles d’être fausses par rapport à GPT-5.2, sur la base de l’évaluation de prompts utilisateurs dé-identifiés.
La fonctionnalité déterminante est l’utilisation intégrée de l’ordinateur. Plutôt que de greffer des capacités d’interaction avec l’écran sur des modèles existants via des outils externes, GPT-5.4 traite les captures d’écran en entrée et renvoie des actions structurées — clics de souris, glissements, défilements et frappes clavier — comme sorties natives. Les systèmes précédents d’utilisation d’ordinateur reposaient sur une approche en pipeline : capturer l’écran, l’envoyer à un modèle de vision, obtenir une description textuelle, raisonner sur l’étape suivante, puis traduire ce raisonnement en action via un contrôleur externe. Chaque transfert introduisait de la latence et une propagation d’erreurs. GPT-5.4 condense une grande partie de ce pipeline en un flux de travail plus intégré.
Variantes Thinking et Pro
GPT-5.4 est proposé en plusieurs niveaux. Le modèle de base gère les tâches standard d’utilisation d’ordinateur. GPT-5.4 Thinking introduit un mode de raisonnement étendu qui planifie des séquences multi-étapes avant de les exécuter, échangeant la latence contre la précision sur les flux de travail complexes. GPT-5.4 Pro, disponible pour les abonnés ChatGPT Pro, débloque des capacités supplémentaires pour les sessions prolongées.
La variante Thinking est particulièrement pertinente pour les déploiements en entreprise. Face à une tâche comme « trouver les chiffres de revenus du dernier trimestre dans notre tableau de bord Salesforce, les comparer avec les projections dans Google Sheets et rédiger un e-mail de synthèse » — GPT-5.4 Thinking construit un plan d’exécution étape par étape, le vérifie par rapport à l’état actuel de l’écran et l’exécute avec des points de contrôle explicites. Si une application se charge différemment de ce qui est attendu, le modèle replanifie à partir de l’état actuel plutôt que de continuer aveuglément.
Le contexte d’un million de tokens
La fenêtre de contexte expérimentale d’un million de tokens permet au modèle de maintenir la conscience de tout ce qu’il a vu et fait pendant les sessions prolongées. Ouvrez plusieurs onglets de navigateur, basculez entre les applications et faites défiler de longs documents — GPT-5.4 conserve le contexte. C’est ce qui rend possibles les flux de travail soutenus et multi-applications plutôt que des actions isolées ponctuelles. Le contexte étendu compte contre les limites d’utilisation au double du tarif normal pour les requêtes dépassant la fenêtre standard de 272K.
Les benchmarks qui ont changé la conversation
OSWorld : 75 % et au-dessus du seuil humain
Le benchmark qui a frappé le plus fort est OSWorld, développé par des chercheurs de Carnegie Mellon University et de l’University of Hong Kong. OSWorld teste les systèmes d’IA sur des tâches informatiques réelles à travers plusieurs systèmes d’exploitation, avec 369 tâches couvrant la gestion de fichiers, la navigation web, l’édition de documents, les e-mails, les tableurs et la coordination multi-applications.
GPT-5.4 a obtenu 75 % sur OSWorld — dépassant le seuil humain de 72,36 % établi par les créateurs du benchmark. Cela signifie que GPT-5.4 a réussi trois tâches informatiques réelles sur quatre, surpassant les participants humains non experts moyens sur le même ensemble de tâches.
Pour être précis sur ce que cela signifie : GPT-5.4 est plus fiable pour utiliser un ordinateur via son interface graphique que la personne moyenne ayant participé à l’étude. Pas meilleur que les utilisateurs experts ou les professionnels de l’informatique, mais plus fiable qu’un employé de bureau typique naviguant dans un logiciel inconnu.
GDPval : 83 % de correspondance professionnelle dans 44 métiers
Le second benchmark majeur était GDPval — Generalized Digital Proficiency Validation — le cadre d’évaluation d’OpenAI qui mesure la capacité des systèmes d’IA à effectuer des tâches professionnelles réelles. GDPval couvre 44 métiers dans 9 secteurs, avec des tâches demandant de vrais produits de travail tels que des présentations commerciales, des tableurs comptables, des plannings de soins urgents et des diagrammes de fabrication.
GPT-5.4 a égalé ou dépassé les professionnels dans 83 % des comparaisons à travers ces 44 métiers — contre 70,9 % pour GPT-5.2. Cela ne signifie pas que GPT-5.4 peut remplacer 44 professions. Cela signifie qu’il peut gérer les portions routinières et basées sur l’écran de ces emplois — les parties impliquant des flux de travail établis, le remplissage de formulaires, le transfert de données entre applications et les procédures documentées. Les composantes créatives, interpersonnelles et profondément analytiques restent au-delà des capacités actuelles.
Publicité
Ce qui change maintenant
Pour les logiciels et l’entreprise
Chaque entreprise SaaS dotée d’une interface graphique vient de gagner — ou de perdre — une couche d’intégration qu’elle n’a pas construite. La capacité d’utilisation d’ordinateur de GPT-5.4 signifie que toute application dotée d’un écran peut être automatisée en langage naturel, qu’elle propose ou non une API.
Cela crée un paradoxe. Les entreprises ayant investi dans des API robustes font face à la concurrence d’un modèle capable de simplement cliquer à travers leur interface. À l’inverse, les applications héritées n’ayant jamais construit d’API — systèmes ERP anciens, portails gouvernementaux, outils spécifiques à un secteur — deviennent soudainement automatisables du jour au lendemain.
Les départements informatiques des entreprises font face à une nouvelle catégorie de défi en matière de contrôle d’accès. Lorsqu’un agent IA peut voir votre écran et manipuler votre souris, il hérite de tous les accès de l’utilisateur connecté à travers toutes les applications visibles. OpenAI répond à cela par un cadre de permissions configurable dans l’API, où les développeurs peuvent ajuster le profil de sécurité du modèle et les politiques de confirmation pour correspondre à la tolérance au risque de leur application.
Pour les travailleurs
Les résultats GDPval quantifient ce que de nombreux travailleurs du savoir ressentaient : l’IA approche le niveau de capacité nécessaire pour gérer les tâches numériques routinières. La correspondance de 83 % à travers 44 métiers mesure l’achèvement de tâches sur des flux de travail bien définis. Les emplois réels impliquent ambiguïté, changements de contexte, négociation interpersonnelle et jugements que GPT-5.4 ne peut pas reproduire. Mais la portion de « travail fastidieux » de nombreux postes — les heures passées à naviguer entre les applications, copier des données, remplir des formulaires, suivre des procédures — est désormais automatisable d’une manière qualitativement différente.
Le paysage concurrentiel
Claude rattrape son retard
Anthropic a lancé Claude Computer Use en bêta en octobre 2024, accumulant environ 17 mois de données réelles avant le lancement de GPT-5.4. Cette avance compte — Anthropic a construit des systèmes robustes de récupération d’erreurs grâce à des tests de production approfondis. Claude Opus 4.6 obtient désormais 72,7 % sur OSWorld, juste en dessous du seuil humain mais derrière les 75 % de GPT-5.4.
Fait notable, Anthropic a élargi les capacités d’utilisation d’ordinateur de Claude en disponibilité générale fin mars 2026, permettant aux utilisateurs d’envoyer une tâche à Claude depuis leur téléphone et de laisser l’agent la compléter sur leur ordinateur — signalant que l’utilisation de l’ordinateur devient une fonctionnalité standard, non un différenciateur.
L’approche navigateur de Google
Google DeepMind a pris un chemin différent avec Project Mariner et le modèle Gemini 2.5 Computer Use. Plutôt qu’un contrôle de bureau généraliste, Google s’est concentré sur l’automatisation basée sur le navigateur avec une intégration profonde de Chrome et Google Workspace. L’approche est plus contrainte mais fiable dans son périmètre — Project Mariner atteint 83,5 % sur le benchmark WebVoyager pour les tâches spécifiques au web.
Les agents open source réduisent l’écart
Les agents d’utilisation d’ordinateur open source ont fait des progrès significatifs. OS-Symphony a atteint 65,8 % sur OSWorld, tandis que des agents commerciaux construits sur des fondations ouvertes ont poussé encore plus haut. L’écart entre les modèles open source et les modèles de pointe s’est considérablement réduit par rapport à il y a un an.
La question de la sécurité
Les données d’écran comme surface d’attaque
Les agents d’utilisation d’ordinateur introduisent une nouvelle surface de sécurité : tout ce qui est visible à l’écran devient une entrée potentielle. Cela inclut des informations que les utilisateurs ne perçoivent pas consciemment — notifications pop-up, onglets de navigateur en arrière-plan, noms de fichiers sur le bureau. OpenAI a mis en place des comportements de sécurité configurables et des politiques de confirmation, et GPT-5.4 est classé « High cyber capability » dans le cadre de préparation d’OpenAI avec les systèmes de surveillance et contrôles d’accès correspondants.
Le problème des hallucinations d’actions
Les hallucinations textuelles sont problématiques. Les hallucinations d’actions sont dangereuses. Lorsque GPT-5.4 identifie mal un bouton, clique sur le mauvais élément ou lit incorrectement le texte à l’écran, les conséquences sont des modifications physiques sur des systèmes réels. Un taux d’échec de 25 % sur OSWorld signifie qu’une tâche sur quatre se termine par un résultat incorrect. Dans les environnements à enjeux élevés — systèmes financiers, dossiers médicaux, documents juridiques — ce taux d’erreur nécessite une supervision humaine dans la boucle.
Et ensuite
GPT-5.4 établit l’utilisation de l’ordinateur comme une capacité standard des modèles d’IA de pointe plutôt qu’un ajout expérimental. Des entreprises comme Induced AI, MultiOn et Perplexity Computer construisent des solutions verticales sur ces capacités, tandis que l’acquisition par Anthropic de la startup Vercept spécialisée dans l’utilisation d’ordinateur montre à quel point le secteur prend cette direction au sérieux.
La trajectoire à long terme pointe vers des agents IA qui orchestrent des flux de travail numériques entiers à travers des dizaines d’outils, maintenant le contexte et portant des jugements sur des opérations autonomes prolongées. GPT-5.4 est la première étape de production sur cette voie.
La souris a changé de mains.
Questions Fréquemment Posées
GPT-5.4 peut-il vraiment utiliser un ordinateur mieux qu’un humain ?
Sur le benchmark OSWorld, GPT-5.4 a obtenu 75 %, ce qui dépasse le seuil humain de 72,36 % sur le même ensemble de 369 tâches. Cependant, ce benchmark mesure la performance sur des tâches de bureau bien définies et isolées. Les utilisateurs experts et les professionnels de l’informatique surpassent encore le modèle sur des tâches complexes et ambiguës nécessitant du jugement et de l’improvisation. GPT-5.4 est plus fiable que l’employé de bureau moyen pour naviguer dans un logiciel inconnu, mais pas meilleur que quelqu’un qui connaît profondément ses outils.
Comment GPT-5.4 se compare-t-il à l’utilisation d’ordinateur de Claude ?
Claude Computer Use a été lancé en bêta 17 mois plus tôt (octobre 2024) et Claude Opus 4.6 obtient 72,7 % sur OSWorld — proche du seuil humain mais en dessous des 75 % de GPT-5.4. Anthropic a élargi la disponibilité générale fin mars 2026. GPT-5.4 est en tête sur les benchmarks bruts, tandis que Claude bénéficie d’une plus longue expérience de déploiement en production et d’une récupération d’erreurs plus mature. Google adopte une approche différente avec Project Mariner, se concentrant sur l’automatisation basée sur le navigateur avec 83,5 % sur WebVoyager.
Quels emplois sont les plus touchés par les capacités de GPT-5.4 ?
Le benchmark GDPval montre que GPT-5.4 égale la performance professionnelle dans 83 % des comparaisons à travers 44 métiers couvrant 9 secteurs — des développeurs logiciels et avocats aux infirmiers et ingénieurs mécaniques. Les postes dominés par des flux de travail routiniers basés sur l’écran présentent le plus grand potentiel d’automatisation. Cependant, GDPval mesure des tâches numériques isolées, non des rôles professionnels complets. Les composantes créatives, interpersonnelles et nécessitant du jugement du travail du savoir restent au-delà des capacités actuelles de l’IA.
Sources et lectures complémentaires
- Introducing GPT-5.4 — OpenAI
- OpenAI launches GPT-5.4 with Pro and Thinking versions — TechCrunch
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks — arXiv
- GDPval: Measuring AI Performance on Real-World Tasks — OpenAI
- GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks — DataCamp
- OpenAI’s GPT-5.4 Doubles Down on Safety — Help Net Security
- Introducing the Gemini 2.5 Computer Use Model — Google
















