Tout à l’heure, OpenAl a publié la boîte à outils Agent, internaute : Merci Manus AI

12 mars 2025 Hibou Gourou

Tout à l'heure, OpenAI a publié une série de nouveaux outils et API conçus pour créer des agents IA, aidant ainsi les développeurs à créer plus facilement des agents IA (agents intelligents) capables d'effectuer automatiquement des tâches.

OpenAI estime que même si le raisonnement avancé, l'interaction multimodale et d'autres capacités de modèle lancées au cours de l'année écoulée ont jeté les bases d'Agent, les développeurs rencontreront encore de nombreuses difficultés lors de la création d'agents au niveau de la production.

À cette fin, les produits principaux publiés cette fois incluent une nouvelle API Responses, trois outils intégrés et un SDK Agents open source.

La version à économie de débit est la suivante :

API Responses : une nouvelle interface API qui combine la simplicité de l'API Chat Completions avec la puissance de l'outil API Assistants.
Outil de recherche Web : un outil qui permet aux modèles d'accéder à Internet pour obtenir les dernières informations
Outil de recherche de fichiers : outil amélioré pour récupérer des informations pertinentes à partir de grandes quantités de documents
Outil d'utilisation de l'ordinateur : un outil d'automatisation des opérations informatiques pris en charge par le modèle Computer-Using Agent (CUA), permettant à l'IA d'exploiter l'interface de l'ordinateur comme un humain.
SDK Agents : mis à niveau sur la base du framework Swarm, un framework open source qui simplifie l'orchestration des flux de travail multi-agents

Plus précisément, l'API Responses combine la simplicité de l'API Chat Completions (principalement utilisée pour générer des réponses de conversation) et les capacités d'utilisation des outils de l'API Assistants (qui permet à l'IA d'appeler des fonctions externes, telles que la vérification des informations et l'exploitation des éléments), devenant ainsi une nouvelle base pour la création d'applications d'agent.

En termes d'outils intégrés, l'outil de recherche Web prend en charge les modèles GPT-4o et GPT-4o-mini pour obtenir les dernières informations sur le Web et fournir des références claires. Dans le test de référence SimpleQA, les versions préliminaires de recherche de ces deux modèles ont atteint des taux de précision impressionnants de 90 % et 88 % respectivement.

L'outil de recherche de fichiers mis à niveau est encore plus puissant, prenant en charge plusieurs formats de fichiers, optimisant les requêtes, filtrant les métadonnées et personnalisant le tri, permettant aux développeurs de trouver rapidement des informations clés dans des montagnes de documents.

L'outil d'utilisation informatique est alimenté par le même modèle Computer-Using Agent (CUA) que Operator, qui capture les opérations de souris et de clavier générées par le modèle, atteignant des scores de 38,1 %, 58,1 % et 87 % respectivement dans les tests OSWorld, WebArena et WebVoyager.

OpenAI a également lancé le SDK open source Agents, spécialement conçu pour simplifier l'orchestration des flux de travail multi-agents.

Par rapport au framework expérimental Swarm publié l'année dernière, ce nouveau SDK a été considérablement amélioré. Il offre une intégration LLM facile à configurer avec des outils intégrés, un contrôle de transfert intelligent entre agents, des contrôles de sécurité configurables, un suivi visuel et d'autres fonctions. Il convient à l'automatisation du support client, à la recherche en plusieurs étapes, à la génération de contenu et à d'autres scénarios d'application.

Certains premiers utilisateurs tests font déjà de réels progrès avec ces nouveaux outils.

Dans les cas répertoriés sur le site officiel, Hebbia utilise des outils de recherche sur le Web pour aider les gestionnaires d'actifs et les praticiens du droit à extraire des informations exploitables à partir de données massives ; Navan applique des outils de recherche de fichiers aux agents de voyages IA pour fournir aux utilisateurs des réponses précises en matière de politique de voyage.

Unify et Luminai utilisent des outils informatiques pour automatiser des processus opérationnels complexes, en particulier pour les systèmes traditionnels dépourvus d'API ; Box utilise le SDK Agents pour créer et déployer rapidement des applications de recherche de données d'entreprise.

Après la sortie du produit, les internautes ont également fait des blagues dans la zone de commentaires d'OpenAI, et certains internautes ont même laissé des messages spéciaux pour remercier Manus AI.

Lors de la diffusion en direct à 1 heure du matin aujourd'hui, le présentateur nous a également montré un cas d'application de l'Agent « styliste personnel » pour démontrer les capacités de divers nouveaux outils.

Par exemple, ils ont d'abord utilisé un outil de recherche de fichiers pour parcourir les données sur les préférences vestimentaires des utilisateurs (telles que « Kevin »), et le système a facilement trié les styles vestimentaires de ces personnes.

Ensuite, combiné à l'outil de recherche Web, le système peut rechercher des magasins associés à proximité en fonction de l'emplacement de l'utilisateur (« Tokyo » est utilisé comme emplacement de Kevin dans la démonstration) et recommande à Kevin les magasins Patagonia de Tokyo.

Ensuite, l'outil d'utilisation informatique est entré en scène et a automatiquement exploité l'interface Web pour acheter une veste Patagonia noire pour Kevin. L'ensemble du processus s'est déroulé de manière fluide et transparente : cliquez, glissez et déposez et remplissez les informations, tout comme une vraie personne qui la contrôle.

Enfin, la fonction de handover entre agents est également démontrée. Un agent transmet de manière transparente la demande de retour à l'agent du service client, qui peut appeler des fonctions telles que l'obtention de mots de passe et la soumission de demandes de remboursement pour aider les utilisateurs à finaliser le retour des vestes Patagonia.

On peut dire qu'avec la coopération tacite de nouveaux outils et API, ces agents d'IA peuvent non seulement comprendre les préférences des utilisateurs, obtenir des informations en temps réel et effectuer des opérations complexes, mais peuvent également basculer de manière flexible entre différentes tâches, couvrant parfaitement l'ensemble du processus, de la recommandation à l'achat en passant par le retour.

En ce qui concerne l'agencement de l'API existante, OpenAI a déclaré qu'il continuerait à prendre pleinement en charge l'API Chat Completions afin de fournir de nouveaux modèles et fonctions aux développeurs qui n'ont pas besoin d'outils intégrés.

Sur la base des commentaires de la version bêta de l'API Assistants, ils ont intégré des améliorations clés dans l'API Responses. Ils prévoient de désactiver officiellement l'API Assistants à la mi-2026 une fois les fonctions alignées et fourniront un guide de migration détaillé.

Le prix des nouveaux outils a également été récemment publié. La recherche sur le Web est de 30 $ pour la recherche GPT-4o et de 25 $ pour la recherche GPT-4o-mini pour 1 000 requêtes ; la recherche de fichiers est de 2,5 $ pour 1 000 requêtes, et le stockage de fichiers est de 0,1 $/Go/jour (le premier Go est gratuit).

OpenAI a déclaré qu'à mesure que les capacités des modèles s'apparentent davantage à celles d'un agent, elles continueront à approfondir l'intégration entre les API et à fournir de nouveaux outils pour aider à déployer, évaluer et optimiser les agents dans les environnements de production.

Le PDG de Nvidia, Jensen Huang, a déclaré un jour qu'à l'avenir, le service informatique de chaque entreprise serait transformé en « département RH » d'AI Agent.

De la gestion des personnes à la gestion de l'IA, les agents deviendront bientôt une partie importante de la main-d'œuvre et amélioreront la productivité dans divers secteurs. L'ensemble d'outils publié cette fois n'est qu'une étape importante pour aider les développeurs et les entreprises à créer, déployer et développer des agents IA fiables et efficaces.

Auparavant, les développeurs devaient combiner différentes API et écrire une logique de coordination complexe pour créer des agents IA, mais de nouveaux outils simplifient considérablement ce processus.

L'API Responses intègre plusieurs fonctions dans une interface simple, tandis que les outils intégrés offrent à l'IA la capacité de « percevoir » et « d'agir », et le SDK Agents fournit un cadre standard pour coordonner plusieurs agents.

En abaissant le seuil technique, davantage d'entreprises peuvent rapidement créer et déployer des agents IA. C'est peut-être le véritable sens de ce qu'OpenAI appelle la « première année des agents » : permettre à l'IA de ne plus se limiter aux boîtes de discussion, mais de s'intégrer dans de véritables flux de travail et de devenir votre « assistant numérique » ou même votre « collègue numérique ».

Vous trouverez ci-joint les questions et réponses de l'AMA :

Q : Quel système d'exploitation est le meilleur pour une utilisation sur ordinateur : Linux, Mac ou Windows ? Une interface graphique (UI), un terminal ou d’autres méthodes sont-elles meilleures ? Quelles applications fonctionnent le mieux sur votre ordinateur, ou cela n'a-t-il pas d'importance ?
R : Le modèle CUA a été principalement conçu pour les tâches Web, mais les premiers utilisateurs ont constaté qu'il fonctionnait également étonnamment bien sur les applications de bureau. Mais il est encore tôt et nous avons encore beaucoup à améliorer !

Q : Allez-vous fournir le SDK TypeScript ?
R : Oui ! Nous lancerons bientôt le SDK TypeScript, alors restez à l’écoute !

Q : Verrons-nous o1 pro dans l'API à l'avenir ?
R : Oui, nous prévoyons de le publier bientôt dans l'API de réponses !

Q : Devons-nous gérer nous-mêmes l’environnement Docker pour utiliser les fonctions informatiques ?
R : Si vous le souhaitez, vous pouvez gérer vous-même l'environnement Docker, mais vous pouvez également utiliser un service cloud comme @browserbasehq ou @scrapybara.

Q : Quand Operator sera-t-il disponible dans l’API ?
R : À partir d’aujourd’hui, vous pouvez utiliser la même fonctionnalité qu’Operator dans l’API ! Nous avons déployé le modèle CUA qui pilote l'opérateur dans la nouvelle API Responses.

Q : Envisagerez-vous de fournir des machines virtuelles (VM) intégrées pour prendre en charge « l'utilisation de l'ordinateur », ou de travailler avec des partenaires pour réduire le besoin de créer un environnement ?
R : Cela n'est pas encore prévu, mais vous pouvez consulter l'exemple d'application CUA, qui contient des exemples d'environnements, notamment @scrapybara et @browserbasehq, pour l'hébergement à distance.

Q : Comment garantir la confidentialité des informations personnelles pendant tout le processus de transfert de l'agent ? Existe-t-il un moyen d'améliorer la protection de la vie privée des utilisateurs lors de leurs interactions avec l'agent ?
R : Nous disposons de plusieurs mécanismes de protection de la vie privée. Le SDK Agents prend en charge les mesures de sécurité définies par le développeur (garde-corps) pour la validation des entrées/sorties. De plus, vous pouvez utiliser input_filter pour limiter le contexte du message transmis lors du transfert.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo