Tout ce que vous devez savoir sur l’agent basé sur navigateur d’OpenAI, Operator

OpenAI est enfin entré dans la course à l'IA agentique avec la sortie de son Operator AI en janvier. Le système agentique est conçu pour fonctionner de manière autonome au nom de son utilisateur et est prêt à rivaliser avec des concurrents déjà établis du secteur, tels que l'API Computer Use de Claude et les agents Copilot de Microsoft , du moins une fois qu'il aura perdu son statut d'« aperçu de la recherche ». Voici tout ce que vous devez savoir sur le nouvel agent d'OpenAI et quand vous pourrez peut-être l'essayer par vous-même.

Qu'est-ce qu'un opérateur ?

L'opérateur d'OpenAI est une IA agent , ce qui signifie qu'il est conçu pour prendre des mesures autonomes en fonction des informations dont il dispose. Mais contrairement aux programmes conventionnels, les agents IA sont capables d’examiner les conditions changeantes en temps réel et de réagir en conséquence, plutôt que de simplement exécuter des commandes prédéterminées. En tant que tels, les agents IA sont capables d'effectuer une variété de tâches complexes en plusieurs étapes, allant de la transcription, la synthèse et la génération d'éléments d'action lors d'une réunion d'affaires à la réservation du vol, de l'hébergement à l'hôtel et de la voiture de location pour des vacances à venir en fonction des différents horaires de votre famille, à la recherche autonome de sujets et à l'assemblage d'études de plusieurs pages sur ces sujets.

L'opérateur fonctionne légèrement différemment des autres agents actuellement disponibles. Alors que Claude's Computer Use est une API et que les agents IA de Microsoft fonctionnent dans l'interface utilisateur de chat Copilot elle-même, Operator est conçu pour fonctionner dans une fenêtre de navigateur Web dédiée qui s'exécute sur les serveurs d'OpenAI et exécute ses tâches à distance. Votre navigateur Web local n'a rien à voir avec le processus et peut être utilisé normalement même lorsque Operator est en cours d'exécution.

L'application Operator est alimentée par un nouveau modèle « Computer-Using Agent » (CUA) qui est, à son tour, construit sur GPT-4o, qui fournit les capacités multimodales de l'application. OpenAI affirme que CUA a été formé de la même manière que ses modèles de raisonnement o1 et o3. En tant que tel, le modèle CUA décomposera les tâches complexes en problèmes qui les composent avant d'essayer de les résoudre séquentiellement, en revenant en arrière s'il se heurte à des obstacles logiques.

Quand Operator est-il sorti ?

OpenAI a publié Operator le 23 janvier 2025. Il n'est actuellement disponible que pour les utilisateurs Pro à 200 $/mois aux États-Unis via le site Web Operator.chatgpt.com . "Notre plan est de nous étendre aux utilisateurs Plus, Team et Enterprise et d'intégrer ces fonctionnalités dans ChatGPT à l'avenir", a écrit la société dans son message d'annonce .

Comment fonctionne l'Opérateur ?

Les utilisateurs peuvent activer l'agent à partir de l'écran d'accueil de ChatGPT, qui affiche une page de navigateur Web dédiée dans une fenêtre latérale permettant à l'opérateur d'effectuer ses tâches. L'IA fournit un récit continu de ce qu'elle fait actuellement et l'utilisateur peut reprendre le processus à tout moment. L'opérateur demandera l'aide de l'utilisateur pour certaines tâches, telles que la connexion à des sites Web sécurisés spécifiques, et obtiendra la confirmation de l'utilisateur avant d'exécuter des tâches importantes. Il peut interagir avec les sites Web à la fois visuellement (c'est-à-dire via des captures d'écran) et tactiquement, lorsqu'il imite les frappes au clavier et les clics de souris de l'utilisateur.

Que peut faire Operator et dans quelle mesure peut-il le faire ?

Puisqu'il est limité au navigateur, l'opérateur ne peut actuellement effectuer que des tâches simples basées sur Internet, telles que réserver des billets de concert, commander DoorDash ou remplir des commandes Instacart. La société affirme également que l'agent sera capable d'automatiser des tâches telles que la réservation d'hôtels et de compagnies aériennes, la réservation de tables dans des restaurants et même vos achats en ligne.

OpenAI a opposé Operator à l'utilisation de l'ordinateur d'Anthropic, ainsi qu'à l'agent Mariner de Google DeepMind, dans un certain nombre de tests de référence du secteur et affirme qu'Operator les a battus dans tous les domaines. Sur le benchmark OSWorld , qui mesure la capacité d'un agent à accomplir des tâches telles que la fusion de fichiers PDF, CUA a battu l'utilisation de l'ordinateur de 38,1 % à 22,0 % — pour référence, les humains réussissent en moyenne environ 72 % sur ces tâches. Sur le benchmark WebVoyager, CUA a surpassé Mariner de 87 % à 83,5 %. L'utilisation de l'ordinateur a obtenu un score dérisoire de 56 %.

Cependant, les premières réactions des utilisateurs à l’égard de l’agent IA ont été mitigées. Par exemple, le chroniqueur du New York Times, Kevin Roost, a écrit : « Dans l'ensemble, j'ai trouvé que l'utilisation d'Operator posait généralement plus de problèmes qu'elle n'en valait la peine. La plupart de ce que cela m’a apporté, j’aurais pu le faire moi-même plus rapidement, avec moins de maux de tête.

"Même lorsque cela fonctionnait", a-t-il poursuivi, "il fallait tellement de confirmations et de réconfort avant d'agir que j'avais moins l'impression d'avoir un assistant virtuel et plus comme si je supervisais le stagiaire le plus précaire au monde."

Comment puis-je essayer Operator par moi-même ?

Pour accéder à l'agent Operator d'OpenAI, vous devrez vous inscrire à l'abonnement au niveau Pro d'OpenAI, puis y accéder via le site Web Operator.chatgpt.com .