OpenAI vient de publier la version ChatGPT de Manus ! Ultraman : vivez l’expérience AGI

18 juillet 2025 Hibou Gourou

Au cours des six derniers mois, Agent a été l’un des concepts les plus fréquemment mentionnés dans le secteur de l’IA.

Presque tous les fabricants parlent d'Agent. Les concepts et les démonstrations ne manquent pas, mais pour une véritable implémentation produit, il manque toujours un système d'exécution complet, capable de comprendre des objectifs complexes, d'utiliser plusieurs outils pour connecter les processus et de prendre en charge l'interruption, la modification et la reprise des tâches à tout moment, en s'adaptant parfaitement au flux de travail de l'utilisateur.

Tout à l'heure, OpenAI a officiellement publié la fonction ChatGPT Agent.

En intégrant l'ontologie Operator + Deep Research + ChatGPT, les utilisateurs n'ont qu'à décrire la tâche et ChatGPT Agent peut déterminer indépendamment les outils requis, accéder automatiquement aux pages Web, extraire des informations, exécuter du code, générer des diapositives ou des tableaux, etc., et peut afficher les étapes en temps réel, accepter les interruptions et modifier les instructions pendant l'exécution.

Après la conférence, le PDG d'OpenAI, Sam Altman, a écrit sur les réseaux sociaux :

Regarder ChatGPT Agent utiliser des ordinateurs pour accomplir des tâches complexes a été pour moi un véritable moment de « sensation AGI » ; il y avait quelque chose de si spécial à voir un ordinateur penser, planifier et exécuter.

Les points saillants sont les suivants :

L'agent ChatGPT combine l'opérateur, la recherche approfondie et l'ontologie ChatGPT en un seul pour créer un système d'agent intelligent unifié.
Navigateur graphique/texte intégré, terminal et appelant API et autres outils, prend en charge l'utilisation du téléphone mobile et envoie automatiquement les résultats une fois la tâche terminée ;
Peut se connecter à des applications tierces telles que Gmail et GitHub, profondément intégrées dans le flux de travail réel de l'utilisateur ;
En tête de plusieurs tests de référence, ses performances globales se classent parmi les meilleures du secteur ;
Les utilisateurs Pro disposent d'un quota mensuel de 400 appels, tandis que les autres utilisateurs payants disposent d'un quota mensuel de 40 appels. Ce quota peut être augmenté à la demande.

L'agent ChatGPT est officiellement lancé, il peut stocker et écrire des PPT, votre navigateur sera pris en charge par l'IA

À partir d'aujourd'hui, vous pouvez activer cette fonctionnalité dans n'importe quelle conversation en sélectionnant « Mode Agent » dans le menu déroulant « Outils » dans le coin inférieur gauche de l'interface de chat.

Décrivez simplement la tâche que vous souhaitez effectuer et ChatGPT parcourra intelligemment le site, filtrera les résultats, vous invitera en toute sécurité à vous connecter lorsque cela est nécessaire, exécutera du code, effectuera des analyses et produira même des diapositives et des feuilles de calcul modifiables résumant les résultats de la tâche.

L'ensemble du processus d'exécution est visuel : les étapes de l'opération seront affichées à l'écran en temps réel et les utilisateurs peuvent interrompre, modifier les instructions ou même « prendre le contrôle du navigateur » manuellement pour continuer l'opération à tout moment afin de garantir que la tâche répond toujours à vos objectifs et besoins.

Lors d'une démonstration tôt ce matin, OpenAI a démontré les capacités d'application de ChatGPT Agent dans des scénarios réels.

Par exemple, la préparation d'un mariage a toujours été un défi. Désormais, il suffit d'envoyer une requête et ChatGPT Agent crée rapidement un environnement virtuel, détermine de manière autonome s'il faut appeler un navigateur, un analyseur de texte ou un terminal, et commence à récupérer la date du mariage, à vérifier la météo du lieu, à recommander des costumes et à sélectionner des hôtels. Au cours de ce processus, le modèle peut interagir avec les chercheurs d'OpenAI et demander confirmation des exigences aux nœuds appropriés.

Plus important encore, les utilisateurs peuvent interrompre la tâche à tout moment.

Par exemple, alors que l'agent recommandait un costume, un chercheur d'OpenAI a temporairement inséré la requête : « Aidez-moi à trouver une paire de chaussures noires de taille 44. » Le modèle a immédiatement interrompu la tâche en cours et s'est tourné vers la nouvelle requête.

De même, l'agent vous demandera proactivement des informations complémentaires lorsqu'il le jugera nécessaire, garantissant ainsi que la tâche soit toujours en phase avec vos objectifs. Si une tâche prend plus de temps que prévu ou est bloquée, vous pouvez choisir de la suspendre, de demander un résumé de l'avancement ou simplement de la terminer et d'obtenir les résultats partiels dont vous disposez déjà.

« Ce mécanisme de conversation interruptible et à plusieurs tours est l’un des points clés de notre formation de modèle cette fois-ci », a expliqué le chercheur d’OpenAI.

Derrière cette capacité se cache l'intégration unifiée de trois systèmes majeurs par ChatGPT Agent : Operator fournit des capacités d'interaction avec les pages Web, prenant en charge le défilement automatique, le clic et le remplissage de formulaires ; Deep Research excelle dans l'intégration et l'analyse des informations ; et l'ontologie ChatGPT est responsable de la compréhension du langage naturel et du raisonnement intelligent.

L'agent ChatGPT est entraîné à des tâches complexes grâce à l'apprentissage par renforcement. Auparavant, ces trois agents présentaient des inconvénients : le premier rendait difficile l'analyse approfondie et le second ne permettait pas d'exploiter les pages web. L'agent combine les avantages de ces trois agents et est complété par des outils tels que les navigateurs, les terminaux et les appelants d'API pour former un système d'exécution complet.

Les utilisateurs peuvent non seulement démarrer le mode Agent sur le bureau, mais également sur le téléphone mobile.

Une fois la tâche terminée, la notification de résultat est automatiquement envoyée. Dans la deuxième tâche de démonstration, les chercheurs d'OpenAI ont téléchargé des modèles d'autocollants représentant Bernie Doodle, la mascotte de l'équipe, sur l'application ChatGPT. L'agent a automatiquement appelé l'API de génération d'images pour concevoir le style d'autocollant, a accédé à la plateforme e-commerce via le navigateur pour comparer les prix, sélectionner le style et ajouter le produit au panier, et a enfin réglé les détails de la commande des autocollants personnalisés.

Bien entendu, pour garantir que le processus soit sûr, flexible, clair et contrôlable, lorsqu'il s'agit de paiement impliquant des montants, l'utilisateur n'aura qu'à prendre manuellement le contrôle du navigateur pour le compléter.

Grâce aux connecteurs, les utilisateurs peuvent également connecter des applications quotidiennes telles que Gmail et GitHub à ChatGPT, permettant au modèle de lire du contenu contextuel tel que des e-mails, des calendriers ou des référentiels de code, et d'effectuer des tâches telles que résumer le contenu de la boîte aux lettres d'aujourd'hui ou trouver du temps de réunion libre la semaine prochaine.

Un scénario d'application plus courant consiste pour les chercheurs d'OpenAI à laisser l'agent ChatGPT synthétiser ses performances dans plusieurs benchmarks et les présenter sous forme de diaporama. Après réception de la commande, l'agent appelle le connecteur Google Drive pour lire le fichier de données, écrire du code dans le terminal pour créer des graphiques et générer un PowerPoint complet.

Ce type de capacité d’automatisation reflète l’intégration profonde de l’Agent dans le flux de travail.

Cependant, on constate que le PPT généré par ChatGPT Agent est globalement moyen en termes d'esthétique. De plus, bien que les feuilles de calcul puissent être téléchargées pour être modifiées dans ChatGPT ou utilisées comme modèles, le PPT généré ne prend actuellement pas en charge les modifications secondaires.

Il est à noter qu'OpenAI ne permet pas à l'agent d'ouvrir des fichiers PPT ou Excel comme un humain ni d'insérer des zones de texte et des formules en cliquant, mais génère directement du code pour créer des documents. L'avantage de cette approche est de tirer parti des avantages naturels du modèle en matière d'écriture de code, d'éviter les inefficacités ou les erreurs causées par les opérations de clic simulées et de réduire la consommation de ressources de calcul.

L'information a rapporté que si ChatGPT veut éditer directement des fichiers PPT ou Excel, il doit démarrer une « machine virtuelle » (c'est-à-dire un environnement informatique virtuel exécuté via ChatGPT), ce qui utilisera davantage de ressources informatiques.

Générer du code directement est plus léger et plus efficace. Malgré son fort potentiel, cette fonctionnalité aura difficilement un impact sur Microsoft Office ou Google Workspace à court terme.

Pour la fonctionnalité ChatGPT Agent, les utilisateurs Pro y auront accès aujourd'hui ; les utilisateurs Plus et Team pourront y accéder dans les prochains jours ; les versions Enterprise et Education seront disponibles dans les semaines à venir.

Les utilisateurs Pro peuvent utiliser 400 messages par mois, et les autres utilisateurs payants peuvent utiliser 40 messages par mois et peuvent en acheter davantage via le plan de crédit flexible.

Les records de « score courant » sont actualisés sur toute la ligne et le champ de bataille de l'Agent accueille l'adversaire le plus fort

L'amélioration des capacités de ChatGPT Agent se reflète également dans le lien « score d'exécution ».

Lors du Humanity's Last Exam (HLE), un test de référence pour évaluer la capacité de l'IA à résoudre des problèmes interdisciplinaires de niveau expert, le modèle ChatGPT avec agent a établi un nouveau record avec un score de réussite de 41,6. Après l'activation de la stratégie d'exécution parallèle, le score a encore été amélioré pour atteindre 44,4.

Dans FrontierMath, qui est actuellement considéré comme le benchmark mathématique le plus difficile, confronté à des questions extrêmement difficiles et jamais publiées auparavant, ChatGPT Agent a atteint un taux de précision de 27,4 % tout en disposant de capacités d'exécution de code terminal, ce qui est bien supérieur aux modèles précédents.

Lors des tests d'évaluation internes de cette tâche de travail de connaissances complexe et de grande valeur, ChatGPT Agent a obtenu une qualité de sortie égale ou supérieure aux niveaux humains dans environ la moitié des tâches, et a obtenu des résultats nettement supérieurs à ceux des modèles o3 et o4-mini.

Les agents ChatGPT ont également obtenu des résultats nettement supérieurs à ceux des modèles Deep Research et o3 lors d'un benchmark interne de tâches de modélisation en banque d'investissement. Chaque tâche est évaluée selon des centaines de critères de notation, tels que l'exactitude des formules et le formatage.

De plus, lors du benchmark BrowseComp, qui évalue publiquement les capacités de recherche d'informations des modèles, Agent a établi un nouveau record avec un taux de précision de 68,9 %, soit 17,4 points de pourcentage de plus que Deep Research. Dans l'évaluation WebArena, sa capacité d'exécution de tâches sur les pages web est également supérieure à celle du modèle CUA basé sur o3.

Du point de vue de la plateforme, l’interface sous-jacente des capacités de l’agent est le navigateur.

Dans une récente interview, Aravind Srinivas, PDG de Perplexity AI, a déclaré que le navigateur serait l'application phare de l'IA. Selon lui, le navigateur réunit toutes les conditions pour faire véritablement évoluer l'IA.

Contrairement aux chatbots traditionnels, l'agent IA idéal ne consiste pas à générer du texte dans une boîte de dialogue, mais à effectuer des actions concrètes : accéder à des pages web, extraire des informations, remplir des formulaires ou effectuer des opérations multiplateformes. Pour ce faire, le navigateur dispose des autorisations d'utilisation et des capacités d'acquisition de contexte nécessaires.

Le navigateur peut lire directement les pages, simuler des clics et effectuer automatiquement des tâches sans presque aucune autorisation supplémentaire.

Dans ce processus, les utilisateurs et l'IA cohabitent dans un même espace interactif : l'IA peut exécuter automatiquement des tâches, et les utilisateurs peuvent les interrompre ou prendre le relais à tout moment pour éviter l'incertitude inhérente aux opérations en boîte noire. Cette contrôlabilité et cette transparence sont des capacités que de nombreux protocoles contextuels actuels peinent encore à atteindre.

Maintenant que la fonctionnalité ChatGPT Agent est officiellement lancée, tous les fabricants qui prétendent être des agents devront peut-être réexaminer leurs parcours de produits.

Lorsque ChatGPT est passé d'un outil d'interaction linguistique à un système d'exécution doté de capacités de collaboration, de planification et de prise de tâches, et a commencé à se connecter aux flux de travail réels des utilisateurs, le seuil d'utilisabilité d'Agent a été considérablement augmenté à ce moment-là.

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo