Tout à l’heure, OpenAI a sorti son premier agent IA ! Vous aide automatiquement à commander de la nourriture et des courses, à diffuser en direct et à rouler, vous devez connaître ces détails avant de l’utiliser

24 janvier 2025 Hibou Gourou

Tôt ce matin, Sam Altman, PDG d'OpenAI, a annoncé deux grandes nouvelles.

La première est que les utilisateurs de ChatGPT bénéficieront non seulement d’une opportunité d’essai gratuit d’o3-mini, mais que les membres de l’abonnement payant Plus bénéficieront également d’un quota d’utilisation plus important.

L'autre est le lancement officiel du très attendu premier produit d'agent intelligent, l'aperçu de la recherche Operator. La bonne nouvelle est que cela peut vous aider à faire automatiquement des achats en ligne, mais la mauvaise nouvelle est qu'il peut être plus facile de « se retourner ».

Le président d'OpenAI, Greg Brockman, a publié sur la plateforme X : "Opérateur – un agent qui peut utiliser son propre navigateur pour effectuer des tâches à votre place. 2025 sera l'année de l'agent."

OpenAI permet à l'IA d'apprendre à « utiliser les ordinateurs » ? C'est le premier pas vers l'AGI

En tant que premier assistant IA d'OpenAI qui simule véritablement les humains utilisant un navigateur Web, Operator peut effectuer automatiquement des tâches complexes telles que la réservation d'un hébergement de voyage, les réservations de restaurant et les achats en ligne.
Les utilisateurs peuvent choisir différentes tâches d'automatisation dans plusieurs catégories, couvrant des domaines tels que les achats, la livraison, la restauration et les voyages.

Cette fonctionnalité sera d'abord disponible pour les utilisateurs américains qui souscrivent au forfait Pro à 200 $, et sera progressivement étendue aux utilisateurs de niveau Plus, Team et Enterprise.

L'API devrait être disponible d'ici quelques semaines.

Les utilisateurs peuvent accéder au service via Operator.chatgpt.com. OpenAI prévoit de l'intégrer à ChatGPT à l'avenir. Cependant, ChatGPT s'est à nouveau effondré tôt ce matin.

Pour faire simple, lorsque l'utilisateur active l'opérateur, le système affiche une petite fenêtre pour afficher l'interface de fonctionnement du navigateur Web dédié et expliquer les tâches effectuées en temps réel. Pendant cette période, l'utilisateur est autorisé à reprendre le contrôle à tout moment.

Au niveau technique, l'opérateur utilise un navigateur cloud distant pour effectuer des tâches sans recourir aux API du site Web.

Il identifie les éléments de l'interface au moyen de captures d'écran, planifie les actions de suivi et forme une boucle fermée « observation-planification-exécution » jusqu'à ce que la tâche soit terminée. Le système prend en charge le traitement parallèle multitâche, présente une efficacité opérationnelle élevée et peut conserver le statut de connexion.

OpenAI s'est associé à des sociétés telles que DoorDash, Instacart, Priceline, StubHub et Uber.

Daniel Danker, directeur produit d'Instacart, a souligné que « l'opérateur d'OpenAI est une avancée technologique qui rend les processus tels que la commande de produits d'épicerie extrêmement simples ».

Comme d'habitude, OpenAI a également tenu une conférence de presse au même moment. Sam Altman rejoint Yash Kumar, Casey Chu et Reiichiro Nakano pour présenter et démontrer l'opérateur.

La démonstration couvrait plusieurs scénarios d'application pratiques, tels que la réservation d'une place pour deux personnes au restaurant Beretta via OpenTable. Le créneau initial de 7 heures n'était pas disponible, puis a été réservé à 7h45.

Utilisez le système d'achat Instacart pour identifier votre liste de courses (œufs, épinards, champignons, pilons de poulet, chips) et prenez le relais pour ajouter plus d'œufs et plus en cours de route.

Essayez de rechercher et d'acheter des billets pour le match Warriors avec un budget de 500 $ sur StubHub ; et prévoyez de commander de la nourriture, des pizzas barbecue et bien plus encore via DoorDash.

L'idéal est beau, mais la réalité est très maigre. Le plus gros problème d'Operator à l'heure actuelle est qu'il n'est pas assez stable. La démonstration s'est déroulée sans problème au début, mais a rencontré une série de « retournements » au cours des étapes intermédiaire et ultérieure de la démonstration, et n'a même pas réussi à charger correctement les pages Web pertinentes.

Peut-être pour assurer le succès de la démonstration, les mots d'invite saisis par le présentateur devenaient de plus en plus longs.

La célébrité de la plateforme X @rowancheung a également expérimenté et partagé ses observations sur Operator à l'avance.

Par exemple, bien que Operator fonctionne dans ChatGPT, ses fonctions sont complètement différentes. Il se concentre principalement sur les opérations sur les pages Web (clic, défilement, saisie) plutôt que sur la génération de texte long. Il existe encore des limites dans le système, notamment certains sites Web bloquant l'accès à l'IA et l'intégration limitée des partenaires.

Il a souligné qu'Operator nécessite des méthodes d'utilisation spécifiques pour optimiser l'effet, tout comme GPT-4 convient aux invites CoT, mais les recherches actuelles sur la meilleure utilisation d'Operator sont encore préliminaires.

Cependant, il reste optimiste quant au fait que cette technologie peut aider les gens à automatiser des tâches ennuyeuses afin qu’ils puissent consacrer leur temps à des tâches plus précieuses.

Auparavant, il a été signalé que le contenu des captures d'écran utilisées par l'opérateur lors de l'exécution de tâches pouvait être utilisé de manière malveillante, conduisant à des « attaques par injection rapide », posant de sérieux risques de sécurité.

Par conséquent, garantir l’utilisation sûre des opérateurs est une priorité absolue.

Selon le blog officiel, OpenAI utilise principalement plusieurs niveaux de mesures de protection pour prévenir les abus et garantir que les utilisateurs contrôlent fermement l'opérateur.

Mode de prise de contrôle : l'Opérateur demande à l'utilisateur de prendre le relais lors de la saisie d'informations sensibles dans le navigateur, telles que les identifiants de connexion ou les informations de paiement. En mode prise de contrôle, l'opérateur ne collectera ni ne capturera les informations saisies par l'utilisateur.
Confirmation de l'utilisateur : l'opérateur doit demander l'approbation avant d'effectuer toute action importante (telle que la soumission d'une commande ou l'envoi d'un e-mail).
Restrictions de tâches : les opérateurs sont formés pour refuser certaines tâches sensibles, telles que les transactions bancaires, ou celles qui nécessitent des décisions à enjeux élevés, comme prendre une décision sur une candidature à un emploi.
Mode surveillance : Sur les sites particulièrement sensibles, comme la messagerie électronique ou les services financiers, l'Opérateur doit surveiller de près son comportement afin que les utilisateurs puissent détecter directement d'éventuelles erreurs.

De plus, OpenAI a mis en œuvre des mesures complètes de protection de la confidentialité et de sécurité pour l'opérateur. En termes de gestion de la confidentialité, les utilisateurs peuvent choisir de quitter la formation du modèle, de supprimer les données de navigation et l'historique des conversations en un seul clic et de se déconnecter de tous les sites Web.

Pour prévenir les attaques provenant de sites Web malveillants, le système a établi un mécanisme de défense à plusieurs niveaux, comprenant la détection et l'ignorance des injections rapides, la surveillance des comportements suspects et l'établissement d'un pipeline d'identification des menaces. Dans le même temps, l'opérateur dispose d'un système d'audit pour rejeter les demandes nuisibles et les contenus inappropriés, et émettre des avertissements ou révoquer les droits d'accès en cas de violation.

Le « Rapport d'expérience » a été annoncé. Quelle est la force de la technologie CUA derrière Operator ?

L'agent utilisant un ordinateur (CUA) est la technologie de base supportant Operator. Il combine les capacités de reconnaissance visuelle de GPT-4o et les capacités de raisonnement avancées basées sur l'apprentissage par renforcement.

CUA a été formé pour maîtriser la capacité d'interagir avec les interfaces utilisateur graphiques (GUI), les boutons de commande, les menus et les zones de texte à l'écran comme les humains, sans s'appuyer sur un système d'exploitation ou une API réseau spécifique.

Il est rapporté que son innovation réside dans l'utilisation d'une méthode d'interface universelle, qui permet à l'IA d'exploiter divers outils logiciels comme les humains, brisant ainsi de nombreux scénarios d'application de niche auxquels l'IA traditionnelle est difficile à gérer.

Cependant, OpenAI a admis que CUA a encore de nombreux domaines à améliorer. Par exemple, il est actuellement incapable de garantir un fonctionnement stable dans tous les scénarios.

Le système CUA déployé par OpenAI dans Operator démontre les performances dans différents scénarios. Par exemple, il fonctionne bien sur les opérations Web de base et les tâches répétitives, telles que la recherche et le filtrage, la création de listes de courses et de listes de lecture musicales, avec un taux de réussite de 10/10.

Il maintient également un taux de réussite élevé de 9/10 lors de la recherche de produits sur les sites de commerce électronique. Mais lorsqu’il s’agit de tâches telles que des recherches immobilières complexes, le taux de réussite tombe à 3/10.

Le test a également révélé que la qualité des mots d'invite affectera considérablement le taux de réussite de la tâche. Par exemple, dans la tâche de réservation de salle, après avoir ajouté des directives spécifiques en matière de temps et de fonctionnement, le taux de réussite est passé de 3/10 à 8/10.

Le système fonctionne mal lorsqu'il s'agit d'interfaces d'interface utilisateur et d'édition de texte inconnues. Des essais et des erreurs et des opérations inefficaces se produisent souvent. Le taux de réussite des tâches d'édition de texte n'est que de 4/10.

Afin de mieux quantifier les indicateurs de performance d'Operator, les présentateurs de la conférence ont également évoqué les tests OS World et Web Arena.
OS World est utilisé pour évaluer la capacité de navigation des agents d'IA sur des systèmes d'exploitation tels que Linux. L'opérateur a obtenu un score de 38,1 %, ce qui est supérieur à celui des autres systèmes publics mais inférieur au niveau humain (72,4 %).

Web Arena teste et évalue la capacité de navigation des agents d'IA sur les sites de commerce électronique et les forums sociaux. L'opérateur a obtenu un score de 58,1 %, ce qui dépasse également les autres systèmes d'IA publics mais reste en deçà des niveaux humains.

En termes de sécurité, la session de démonstration a introduit trois principales considérations de sécurité. La première est que le système refuse d’effectuer des tâches nuisibles, utilise un modèle d’audit et de détection ultérieure, et bloque des sites Web spécifiques.

Deuxièmement, concernant d'éventuelles erreurs dans le modèle, le système doit obtenir la confirmation de l'utilisateur avant d'effectuer des opérations clés telles que les achats et les réservations, limiter les tâches à haut risque telles que les transactions bancaires et activer le mode observation sur les sites Web sensibles.

En particulier pour les attaques contradictoires sur les sites Web (telles que l'injection rapide, le jailbreak et le phishing), le système a conçu un mécanisme de navigation prudent pour identifier et ignorer l'injection rapide, un modèle de surveillance en temps réel pour détecter le contenu suspect et un pipeline de détection pour identifier rapidement les contenus suspects. modèles d’accès.

Enfin, le système est équipé d'un moniteur d'injection (moniteur d'injection rapide), similaire à un logiciel antivirus. Le modèle de surveillance en temps réel détecte le contenu suspect et suspend l'exécution lorsqu'un comportement suspect est découvert.
Considérant qu’il est impossible de prévoir tous les risques de sécurité, OpenAI ne peut commencer qu’avec un déploiement à petite échelle et améliorer le mécanisme de sécurité en collectant continuellement des commentaires.

L'essor de ChatGPT a prouvé que les excellents produits naissent souvent d'innombrables tentatives « imparfaites ».

OpenAI admet également franchement que l'opérateur actuellement pris en charge par CUA n'est qu'une première technologie. Bien qu'il se soit révélé utile dans des scénarios spécifiques, il nécessite encore une amélioration continue grâce aux commentaires des utilisateurs.

En outre, ils prévoient d'améliorer l'adaptabilité du système aux interfaces inconnues, d'améliorer la précision de l'édition de texte, d'optimiser la compréhension des différents mots d'invite et d'élargir la gamme de tâches fiables.

Altman a déclaré dans un article de blog au début du mois qu'OpenAI était confiant dans la construction d'une intelligence artificielle générale (AGI) et a prédit que le premier groupe d'agents d'IA « rejoindrait le marché du travail » en 2025.

Y compris Zhipu a également annoncé hier le lancement de GLM-PC.

Celui-ci est basé sur CogAgent, un vaste modèle multimodal de Wisdom Spectrum, et constitue le premier agent informatique public prêt à l'emploi au monde. Il peut « observer » et « faire fonctionner » des ordinateurs comme des humains, aidant ainsi les utilisateurs à accomplir efficacement diverses tâches informatiques.

Il est prévisible que ces agents intelligents disposeront à l'avenir de fortes capacités autonomes de prise de décision et d'exécution de tâches, seront capables de gérer des tâches complexes, voire de remplacer le travail humain dans certains domaines, et de modifier fondamentalement les méthodes de production et la production des entreprises.

Dans la feuille de route AGI à cinq niveaux d'OpenAI, l'agent se situe au niveau L3, qui se caractérise non seulement par la réflexion, mais également par l'action au nom de l'utilisateur et par l'exécution de tâches complexes.
De ce point de vue, Operator n’est pas seulement la première étape pour les agents OpenAI, mais aussi une étape importante vers l’AGI.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo