Lancez-vous avec Button Space : un stagiaire en IA qui s’alignera activement sur vous

Agent (intelligent) et MCP (Model Context Protocol) sont les tendances les plus en vogue dans le domaine de l'IA au premier semestre 2025.

Il y a quelques jours, le produit "Button Space" de Byte's Agent a également officiellement commencé les tests internes.

Parmi la multitude de produits d'agent, Kouzi Space propose pour la première fois un « mode planification » – une capacité d'agent qui peut collaborer avec les utilisateurs étape par étape, faire une pause et confirmer aux nœuds d'étape clés, et permettre aux utilisateurs de corriger les itinéraires en temps réel.

L'équipe Button estime officiellement que la collaboration entre les personnes et les agents créera un modèle de travail plus fluide.

Application bêta interne de Button Space

Site officiel

Ai Faner a également reçu immédiatement le code d'invitation à l'espace bouton et a essayé certaines tâches légèrement imaginatives.

Nous avons agi en tant que directeur des relations publiques de « Bonjour professeur, je m'appelle Classmate He » et avons demandé aux stagiaires d'analyser les événements récents de l'opinion publique, de générer un rapport sur l'opinion publique, de fournir des contre-mesures et des suggestions, puis de rédiger une déclaration de réponse :

Invite : je suis le directeur des relations publiques de l'équipe « Bonjour professeur, je m'appelle M. He ». Récemment, notre marque a été confrontée à un incident d'opinion publique. Veuillez collecter des informations, évaluer l'impact de l'incident, comprendre le contenu des plaintes des internautes, analyser et extraire les erreurs que les internautes pensent que nous avons commises et la direction à améliorer. Vous pouvez rechercher des informations en utilisant les sites Internet et les plateformes Internet que vous jugez appropriés. Ensuite, un rapport d’opinion publique a été généré pour moi, qui présentait de manière exhaustive la chronologie, le contexte de développement, les réactions et plaintes des internautes, ainsi que les stratégies de réponse à cet incident d’opinion publique. Le rapport doit être un peu plus approfondi, notamment pour fournir diverses perspectives sur les stratégies de réponse. De plus, j'ai également besoin que vous génériez une déclaration de réponse basée sur votre stratégie de réponse qui soit sincère, n'échappe pas à vos responsabilités et comporte des mesures d'amélioration pratiques. Vous devez générer le rapport d'opinion publique dans une page Web et un fichier PDF, et la déclaration de réponse dans un document ordinaire.

Cette tâche semble relativement simple. Les principales actions sont la recherche et la génération de texte, mais cela nécessite également des connaissances professionnelles du producteur du rapport en matière d’analyse de l’opinion publique et la capacité d’affiner et de formater les rapports des médias et les publications sur les réseaux sociaux en rapports sérieux. Ce sont les capacités d'un produit agent en termes de grands modèles.

En plus des capacités du modèle à grande échelle, cette tâche permet également à Button Space de « tester ses capacités » en termes d'utilisation du navigateur/ordinateur, du code, du MCP et d'autres capacités.

et les normes de travail. Il s'agit de la partie analyse des données du rapport sur l'opinion publique généré pour la première fois :

Il s'agit d'une stratégie d'adaptation écrite par un stagiaire en IA :

En tant que « première ébauche », cette livraison répond aux normes en termes de niveau de détail du rapport d'opinion publique, de décomposition logique, de professionnalisme de l'analyse et de format de la réponse. Les détails spécifiques ne s'appliquent pas nécessairement à un scénario réel, mais au moins les résultats générés fournissent des orientations qui peuvent être utilisées pour les étapes suivantes.

Il est à noter que puisque le concept de « chronologie » a été mentionné lors de la saisie de la tâche, les résultats générés semblaient se concentrer davantage sur des événements de précommande tels que « le plagiat de projets open source » et le « clavier capable de taper tout seul ». Et ce n'est pas le but de notre mission.

De toute évidence, l’alignement des objectifs entre collègues reste important sur le lieu de travail.

Nous pouvons simplement utiliser le modèle de planification de Button Space pour nous aligner sur ce stagiaire en IA :

Après alignement, non seulement l'objectif de contenu est correct, mais la partie données du rapport d'opinion publique affiche directement la comparaison du nombre de fans, du « taux de trois séries consécutives » et du taux d'achèvement. Le pouvoir explicatif et la représentativité des données ont été renforcés :

Vous pouvez également visiter ce lien pour visionner la rediffusion complète de la mission.

Arrêtez-vous et ralentissez : les partenaires de travail en IA doivent apprendre à « s’aligner »

À en juger par les résultats des tests d'Aifaner, la plus grande différence entre Button Space et les produits d'agent intelligent/MCP traditionnels réside dans ce mode de planification qui peut « s'arrêter et ralentir ».

Pour faire simple, une fois que MCP reçoit une tâche, il décomposera automatiquement la tâche en un plan spécifié, puis commencera à exécuter la tâche et générera enfin des résultats. Mais il est inévitable qu’« un faux pas entraînera un faux pas ».

Une fois que l'espace bouton a activé le mode de planification, il peut « s'arrêter » et s'aligner avec les utilisateurs aux nœuds clés dans l'exécution de tâches complexes, permettant aux utilisateurs de corriger les erreurs et les écarts en temps réel et d'optimiser la logique d'exécution.

Cette méthode est particulièrement adaptée aux utilisateurs novices qui n'ont pas la possibilité d'inviter l'ingénierie. Lorsque vous soumettez une tâche pour la première fois, énoncez simplement vos intentions de manière brève et concise.

Il existe deux conditions de déclenchement pour le « Mode Planification » :

  • La première est que l'agent ne peut pas terminer l'étape en cours pour diverses raisons (par exemple, il ne peut pas trouver d'informations pertinentes ou il ne peut pas comprendre avec précision l'intention de l'utilisateur), ou la confiance dans le résultat n'est pas suffisamment élevée – il s'arrêtera tout seul. Lorsque la tâche est suspendue, une notification apparaîtra dans l'espace du bouton pour rappeler à l'utilisateur d'effectuer l'étape suivante.

  • L'autre est que l'utilisateur peut appuyer activement sur le « bouton pause » : pendant l'exécution étape par étape de la tâche par l'agent, les résultats étape par étape seront écrits dans un document .md, qui est utilisé pour construire une base de connaissances et aider à l'étape suivante d'exécution. La même chose est vraie pour Button Space. Si les utilisateurs trouvent des erreurs ou des écarts dans le document étape par étape, ils peuvent eux-mêmes suspendre la correction.

Ce flux de travail collaboratif de l'agent permet à l'agent d'éviter de s'écarter de l'objectif fixé pour diverses raisons telles qu'une « mauvaise analyse au début » et des hallucinations causées par la réflexion et la production continue de jetons.

Cela peut être compris de cette façon : si le grand modèle/agent traditionnel est la « conduite autonome », alors l'espace des boutons permet en fait aux utilisateurs de jouer le « copilote » (copilote) de l'IA. Une fois que l'utilisateur constate un écart, il peut immédiatement appliquer les freins et corriger manuellement le volant.

Si nous utilisons l'analogie d'un stagiaire, Button Space est un stagiaire en IA qui peut « poser des questions à tout moment si vous ne comprenez pas », puis ajuster de manière flexible la direction du travail en fonction des commentaires en temps réel.

En fait, il y a plus d’un stagiaire en IA, mais il peut y en avoir plusieurs :

  • Pour les tâches de routine, telles que le traitement de texte, la création de graphiques, l'analyse simple, etc., Button Space lui-même est un stagiaire général. Il peut être considéré comme un « petit guerrier hexagonal » doté de capacités relativement complètes, mais ne met pas l'accent sur les domaines spécialisés ;
  • Quant aux tâches dans des domaines professionnels approfondis, comme la recherche sur les utilisateurs, la recherche sur l'industrie financière, etc., la présence d'agents « experts du domaine » est requise.

Qu'il s'agisse d'un agent généraliste ou expert, il peut être programmé en un seul arrêt grâce au « Bouton Espace ».

De plus, si les agents experts existants ne suffisent pas, les développeurs peuvent également utiliser pleinement la plateforme de développement Kouzi (développement d'agents base zéro), Kouzi Compass (outil de réglage DevOps d'agent) et Eino (cadre de développement d'agents de langage Go) lancés simultanément par l'équipe Kouzi pour développer et mettre rapidement leurs propres agents experts sur le marché.

Un stagiaire en IA a enfin un cerveau

Bien entendu, dans la plupart des tests d'Aifan'er, Button Space a pu comprendre l'intention avec plus de précision et générer des résultats de haute qualité.

La guerre tarifaire a été très vive ces derniers temps, c'est pourquoi nous lui avons également laissé tenter ce problème difficile : suivre les niveaux de droits de douane américains sur les principales catégories d'importations vers la Chine.

Invite : La politique tarifaire du gouvernement américain a changé de jour en jour récemment. J'ai besoin que vous créiez un formulaire en ligne pouvant être mis à jour en temps réel pour suivre l'évolution des tarifs depuis le 1er avril. Vous devez suivre les taux d'imposition sur les principaux produits exportés de Chine vers les États-Unis, tels que les équipements électroniques grand public, les seringues, les jouets, etc. Vérifiez vous-même les produits spécifiques. Si vous ne parvenez pas à le savoir, arrêtez-vous et demandez-moi à tout moment. Notez que certaines catégories tarifaires ont été récemment ajoutées, mais certaines catégories tarifaires existaient avant 2025. Vous devez montrer comment les différentes catégories tarifaires se superposent dans le tableau. Si vous ne comprenez pas, n'hésitez pas à me demander.

Jetons d'abord un coup d'œil aux résultats générés :

Ai Faner a observé le processus de réflexion et a constaté qu'il comprenait parfaitement des concepts complexes tels que les « tarifs douaniers », ce qui peut être lié au grand modèle utilisé derrière celui-ci.

Au cours du dernier mois, nous avons en fait utilisé de nombreux outils d'agent/MCP, en particulier certains produits dotés de capacités de recherche approfondies qui prétendent être capables d'effectuer des tâches complexes pour le compte des utilisateurs. Lorsqu’ils traitent la même tâche, ils doivent effectuer des dizaines de séries de recherches. Il semble qu'ils essaient très fort de comprendre ce que dit l'utilisateur, donnant aux gens le sentiment d'utiliser trop de force, mais les résultats ne sont pas idéaux.

Il n'y a eu que six cycles de réflexion dans Button Space, dont quatre seulement ont été réellement utilisés pour rechercher et comprendre les types de tarifs (les deux cycles restants concernaient la planification et l'allocation au début de la tâche, et la génération de pages Web à la fin de la tâche.)

Les résultats générés sont toujours très convaincants d’un point de vue visuel.

Et on peut voir que ce stagiaire en IA n'a pas seulement indiqué où frapper, mais a utilisé son cerveau dans une certaine mesure et a effectué des analyses de données qui ne faisaient pas partie des exigences initiales de la tâche, mais qu'il pensait utiles. Par exemple, le calendrier des augmentations et des diminutions des tarifs cette année est indiqué :

Une analyse de l’impact à court, moyen et long terme a été réalisée :

Il existe également une méthode de présentation structurée qui combine graphiques et texte :

Et ce qui m'étonne le plus : il rend compte des différences et de la superposition de différents éléments tarifaires tels que la ligne de base, le « jour de la liberté » et l'« équivalence » il y a 25 ans.

Mais les erreurs sont également très faciles à repérer, comme le fait que les taux d’imposition dans la plupart des catégories soient complètement erronés. Quant à la raison de l'erreur, je crois comprendre que le stagiaire a utilisé une méthode de recherche pure pour les actualités et a été facilement biaisé par des informations incorrectes et intempestives, au lieu de récupérer directement les données du site Web du gouvernement américain.

Bien sûr, même un vrai stagiaire ferait probablement cela. Seuls les praticiens de l’importation et de l’exportation et les experts tarifaires savent comment obtenir les valeurs les plus actuelles et les plus précises. Cette tâche nécessite des connaissances et une expérience professionnelles bien au-delà du niveau d’un stagiaire.

Mais cela ne signifie pas que Button Space ne peut pas résoudre ce problème : après avoir activé le « mode planification », nous pouvons lui donner une définition claire de la source de données lors de la correction des erreurs, et le laisser appeler activement python/MySQL ou d'autres capacités de codage pour explorer les données les plus précises et les plus réelles ; ou, nous pouvons également télécharger manuellement des rapports avec un format et un contenu non optimisés à partir de sources faisant autorité, puis utiliser le plug-in d'extension de table multidimensionnelle officiellement pris en charge pour générer la base de connaissances requise pour la tâche.

Kouzi Space prend en charge l'appel d'outils MCP externes (version officielle) et prend actuellement en charge plus de dix extensions MCP internes et externes de ByteDance (telles que Moji Weather, Amap, etc.). Par conséquent, en théorie, les fournisseurs de bases de données professionnels du secteur de l'importation et de l'exportation peuvent également développer leurs propres extensions MCP et les intégrer dans l'espace des boutons. Même si les progrès tarifaires sont compliqués et absurdes, les stagiaires ne peuvent pas être dérangés.

Voir le replay des tâches tarifaires en ligne

Voici une autre petite tâche de code pur, qui peut être un peu exagérée. Laissez l'espace des boutons créer une imprimante Hello World et modifiez les exigences à mi-chemin.

Les dirigeants qui ne savent pas encore coder n’ont pas à craindre la fuite de leurs employés : vous pouvez également demander à des stagiaires en IA de vous apprendre à coder.

Afficher la rediffusion des tâches de code en ligne

Les tests précédents étaient tous basés sur le "stagiaire universel" activé par défaut dans Button Space.

Il y a également une entrée vers "Expert Agent" sur la page d'accueil. Actuellement, deux experts disponibles sont ouverts en phase bêta, à savoir l'expert en recherche sur les utilisateurs (officiellement développé par Kouzi) et l'assistant d'observation des actions A de Huatai (développé conjointement par Huatai Securities et Kouzi).

Prenons l'exemple de l'assistant d'observation des actions A. Son interface de saisie est légèrement différente de celle d'un stagiaire généraliste. Il permet aux utilisateurs de personnaliser les rapports quotidiens en fonction des actions et des secteurs qu'ils ont eux-mêmes sélectionnés. Il prend également en charge des fonctions de consultation individuelle, transformant l'agent en un analyste de titres que l'utilisateur peut utiliser exclusivement.

Ces deux agents experts sont également le reflet direct des capacités d’expansion MCP de l’espace des boutons. Il peut placer le grand modèle de Button et les capacités de grand modèle de fournisseurs de services tiers dans le même contexte pour réaliser une « collaboration » entre les serveurs MCP.

Quand l’IA passe d’« outil » à « partenaire » : humains et machines ne se partagent pas le travail, mais évoluent en symbiose

Le plafond de capacité des produits et outils traditionnels de grande taille détermine que leur objectif principal est de gérer le travail transactionnel et de remplacer le travail répétitif (par exemple : génération de texte, tri et formatage des données, planification de base, etc.) ; et comme mentionné précédemment, les agents/MCP intègrent la capacité de réflexion approfondie, de démontage et de planification des tâches, ainsi que l'exécution automatisée étape par étape des tâches, mais cette approche « entièrement automatisée » présente encore des inconvénients.

Par rapport aux deux premiers, Kouzi Space propose une nouvelle idée : dans un environnement où l'ensemble du processus est supervisé en temps réel par des utilisateurs réels, l'IA peut être profondément impliquée dans le flux de travail complet de résolution de problèmes et réaliser le travail collaboratif organique d'agents humains et intelligents.

« Stagiaire en IA » est en effet une analogie intéressante. Tout en travaillant avec vous, il apprend de vous, se familiarise progressivement avec vos habitudes et exigences de travail, et maîtrise votre motivation et votre logique de pensée. Tout excellent mentor espère que ses stagiaires pourront devenir des employés à temps plein responsables de leurs propres affaires, et ce type de croissance ne peut être atteint que progressivement grâce à des méthodes de travail intelligentes et à l'obtention de résultats encore et encore.

Des outils sont constamment introduits et notre façon de travailler devient cool grâce à l'IA. Mais en dernière analyse, produire des résultats de manière efficace et stable est la voie à suivre.

D'un autre point de vue, lorsque les capacités et l'obéissance des outils d'IA sont simultanément améliorées, chaque travailleur sur le lieu de travail peut faire appel à son propre stagiaire en IA à tout moment, et des tâches de plus en plus complexes et difficiles peuvent être facilement résolues. Où iront les travailleurs eux-mêmes ?

Il s’agit peut-être à la fois d’un signal d’alarme et d’une opportunité, nous rappelant que nous devrions consacrer notre énergie et notre temps aux deux aspects suivants : premièrement, améliorer notre capacité à contrôler les outils d’IA ; Deuxièmement, se concentrer sur un travail créatif et réfléchi qui ne pourra jamais être remplacé par l’IA.

Après tout, sur le lieu de travail, ce qui manque, ce n’est jamais la capacité de faire les choses, mais la pensée originale.

Bien entendu, cet avenir prendra du temps à se réaliser. Vous souhaiterez peut-être postuler dès maintenant pour la qualification d'expérience Kouzi Space et laisser votre stagiaire en IA/partenaire du lieu de travail numérique essayer en premier.

Peut-être que votre façon de travailler et la qualité de votre vie au travail subiront d’énormes changements.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo