« La victoire de l’ingénierie » ne réside pas seulement dans Manus lui-même, mais aussi dans la mise en scène de l’ensemble de l’écosystème des agents intelligents.

12 mars 2025 Hibou Gourou

Depuis son lancement, Manus a vécu un voyage en montagnes russes.

D'être étonné au début, à être promu à de grands sommets, à être critiqué pour avoir été choqué et commercialisé, tout s'est passé en seulement une semaine.

Parmi les différentes voix, nous avons trouvé un groupe de personnes les plus liées à Manus : des développeurs qui participent aux agents et aux installations de support, et qui parlent de Manus dans leurs yeux – sans parler de marketing et de controverse, juste de l'aspect technique.

La conclusion n'est pas compliquée : Manus est sans aucun doute un excellent produit. Refuser Manus au motif de « bombardements » est un désastre déraisonnable.

En même temps, le mot « suture » est injuste. La capacité et le potentiel d’un agent polyvalent ne se reflètent pas seulement dans le nombre d’outils auxquels il est lié, mais aussi dans la compréhension de l’agent lui-même.

La controverse entourant la commercialisation et le bombardement soulève une question : quelle est la valeur de Manus ?

La « première mondiale » est née de nulle part

Amis qui ont presque oublié le grand événement de la semaine dernière, voici un bref aperçu : tard dans la nuit du 5 mars, Manus s'est mis en ligne pour des tests internes. Dans la vidéo officielle, plusieurs cas d'utilisation merveilleux qui n'étaient initialement vus qu'en PPT ont été publiés, qui ont tous démontré la compréhension unique des tâches et les capacités d'exécution de Manus.

Pour être honnête, l'agent (intelligent) n'est pas nouveau, mais la déclaration de Manus selon laquelle « le premier agent intelligent polyvalent au monde » a déclenché une vague de discussions sans précédent et a mis « l'agent universel » au premier plan.

Étant donné que les tests internes nécessitent de demander un code d'invitation et que la vitesse d'émission est lente, cela a provoqué une précipitation pour le saisir – aussi étonnants que soient les cas d'utilisation, les personnes qui ne peuvent pas les utiliser seront anxieuses.

Ce mécanisme de code d'invitation a accidentellement poussé Manus à un niveau de popularité presque étrange, et a même été qualifié de "un autre moment DeepSeek".

DeepSeek est un mannequin et Manus est un agent. Ce sont deux produits complètement différents. Cependant, dans une certaine mesure, les deux processus sont effectivement similaires.

DeepSeek crée des modèles, mais ne part pas de zéro. Au lieu de cela, il obtient un succès technique basé sur une série de travaux open source existants.

De même, Manus n’est pas réellement le premier à fabriquer un produit agent à usage général. Une série de produits similaires a vu le jour en 2023. Manus lui-même bénéficie également de l'aide de nombreux travaux open source. L'équipe a déjà construit Monica, un assistant d'IA intégré, et a accumulé une riche expérience en ingénierie d'agents. En tant que tel, Manus est également considéré comme un triomphe en matière d’ingénierie.

Qu’est-ce que la victoire de l’ingénierie exactement ?

Cette question doit remonter à la source fondamentale de ce qu'est un « agent universel ».

La différence entre les humains et les animaux réside dans la fabrication et l'utilisation d'outils. Cette affirmation est également vraie pour les agents : la différence entre les agents ordinaires et les agents à usage général est que ces derniers peuvent activement appeler des outils.

"Beaucoup de gens pensent qu'un agent est le robot conversationnel original. Lorsqu'il est connecté à une base de données, on l'appelle un agent. En fait, la définition d'un agent a toujours été qu'il doit être capable d'utiliser des outils et d'agir réellement." William Lee a expliqué qu'il a commencé à développer le système intermédiaire ACI.DEV pour les agents avec l'équipe entrepreneuriale l'année dernière, afin de fournir des produits de type agent avec des services d'appel API aussi pratiques que possible.

En termes d'utilisation spécifique du produit, l'invocation d'un outil peut repousser encore plus loin les limites des capacités de l'agent. Jian Bai, qui est actif dans la communauté de développement d'agents, a vu les capacités d'exécution de Manus : couper des vidéos.

"L'effet de la coupe est une autre affaire, mais cela peut être fait, cela peut être complété et cela ne vous rejettera pas."

Le principe n'est pas compliqué : l'action d'édition peut être implémentée dans le code dans une certaine mesure. Certains outils en ligne peuvent également être appelés pour terminer l'action d'édition.

L'édition ainsi réalisée est bien sûr grossière et le produit fini ne peut être comparé à l'édition manuelle, mais comme l'a dit Jianbai, Manus ne refusera pas cette demande, mais trouvera activement des outils pour la compléter. "Dans les applications précédentes, l'agent pouvait vous recommander un site Web ou un outil pour couper des vidéos, mais il n'y avait pas de tel résultat de bout en bout."

Il pense que cela reflète la compréhension de l'équipe Manus, qui occupe une position plus élevée. "Je pense qu'ils traitent le code, y compris l'environnement d'exécution du code dans son intégralité, davantage comme un outil que comme un objectif."

Dans le passé, pour certains projets similaires, donner un morceau de code ou mettre en place une machine virtuelle était le but ultime. Manus comprend que la conception de machines virtuelles pour exécuter du code n'est qu'une méthode de mise en œuvre et qu'elles existent pour atteindre un certain objectif .

"Je pense qu'ils ont une avance cognitive", a déclaré Jianbai. "Tout le monde parle de traiter l'agent comme un être humain, mais ils ont vraiment réfléchi à la manière dont l'agent est un sujet."

Différenciation clé

Alors, la machine virtuelle est-elle la conception qui distingue Manus ?

"Les machines virtuelles ne sont pas une conception créative", a expliqué Zheng Qian, qui travaille également sur un produit d'agent à usage général.

La société de Zheng Qian, Convergence.ai, a lancé Proxy, un produit qui est également un agent à usage général, en janvier, battant de peu OpenAI dans le test de référence webvoyage.

Il n'y a pas si longtemps, Proxy figurait sur la liste Product Hunt et Zheng Qian était occupé à diriger l'équipe d'ingénierie pour faire face à l'afflux soudain de trafic. Ce à quoi ils sont confrontés, c'est le marché extérieur. On voit que les agents polyvalents sont des agents qui ont de grands espoirs au pays et à l'étranger.

"OpenAI Operator est une machine virtuelle. Manus ajoute une exécution de codage au navigateur après l'avoir utilisé, puis la place dans une machine virtuelle pour l'implémenter."

L'utilisation du navigateur est un projet open source avec 40 000 étoiles sur Github. Cela équivaut à mettre un navigateur Web devant les « yeux » de l'agent , combinant de grands modèles de langage et une reconnaissance visuelle . Les utilisateurs doivent uniquement utiliser le langage naturel pour permettre à l'agent d'effectuer des opérations réelles sur les éléments de la page Web.

Early Proxy a également essayé une voie similaire à l'utilisation d'un navigateur. "De cette façon, il aide les utilisateurs à effectuer des clics, des glissements, etc. Le tout est relativement simple et direct. Il suffit à l'utilisateur de confier une tâche et il l'exécute étape par étape."

Ce formulaire est relativement linéaire et ne peut pas gérer des tâches plus complexes. En d’autres termes, lorsque la complexité de la tâche augmente et que l’utilisateur doit donner des instructions plus détaillées, cela devient un défi pour l’utilisateur.

"Notre entreprise a démarré relativement tôt et nous avons communiqué davantage avec OpenAI et H Company. Plus tard, lorsque OpenAI Operator est sorti, l'agent est immédiatement devenu populaire. Tout le monde est rapidement passé à une nouvelle chose, qui est l'orchestrateur d'agent. " Zheng Qian est très clair : " On peut dire que la vraie différence d'agent général ne réside pas dans le nombre d'outils qui sont assemblés. "

Construire un agent ordinaire peut se résumer simplement et grossièrement par « couture ». Mais pour construire un agent général, il faut qu'il s'agisse d'un projet système.

"Vous pouvez imaginer un agent comme une personne. La partie la plus complexe est le système de prise de décision central – le cerveau et la transmission neuronale. La deuxième partie la plus complexe est la construction d'exécution, qui est équivalente aux membres et aux terminaux humains. Quant aux modules fonctionnels tels que la génération de rapports, l'interaction avec le navigateur et l'exécution de code que vous venez de mentionner, ce sont essentiellement des capacités au niveau de la chaîne d'outils. "

Les gens ne naissent pas avec la capacité de marcher. Les bébés ne peuvent qu'agiter leurs bras et leurs jambes de manière aléatoire, puis ils peuvent ramper, se tenir debout, trébucher, apprendre à marcher et enfin à contrôler leurs membres avec précision.

L'ensemble du processus d'apprentissage est également un processus de maturation progressive du cerveau. La majeure partie du travail de Proxy tourne autour de ce « cerveau ». Plus précisément, c'est la planification dynamique dont l'agent planificateur est responsable.

« Il y a une blague selon laquelle la planification ne peut pas prédire l'avenir : la planification peut être très bien faite, mais vous ne savez pas ce qui se passera dans le futur. La même chose est vraie lorsqu'elle est placée sur un agent. Par exemple, s'il navigue sur un certain site Web et rencontre une situation qui ne peut pas être ouverte, comme une révision ou l'expiration d'un nom de domaine, ou un arrêt direct, etc., alors que doit faire l'agent à ce moment-là ? Cela nécessite une planification dynamique.

▲ Lors du test réel de Manus, nous avons rencontré des problèmes de connexion et de vérification du site Web.

Un scénario typique est celui des codes de vérification. Proxy et Manus peuvent résoudre certains codes de vérification simples, mais ceux qui sont trop complexes doivent quand même être renvoyés à l'utilisateur ou peuvent être ignorés directement.

Zheng Qian a expliqué que la difficulté réside dans les détails : « Ce sont tous des détails et les situations sont très diverses. Comment mettre en œuvre des tâches complexes dans la planification et en même temps être capable de renvoyer des informations – la base d'utilisateurs est énorme et il y a toutes sortes de choses étranges. Comment couvrir différents scénarios est une grande difficulté.

Manus n'est pas parfait à ce stade, mais c'est une révélation technique. " Son principal succès réside en effet dans l'ingénierie. " William est d'accord sur ce point : " Il combine les modèles existants sur le marché, les connecte bien aux outils et permet aux utilisateurs de voir pour la première fois quels effets un agent qui peut réellement appeler l'outil peut produire. Je pense que c'est à 100 % une victoire d'ingénierie. "

La vraie victoire appartient à l’écologie

Manus est comme ce petit enfant qui apprend à marcher. Il peut créer d'énormes discussions, non pas à cause de la distance qu'il peut parcourir ou de la hauteur à laquelle il peut sauter, mais parce qu'il montre suffisamment de potentiel.

C'est peut-être sa plus grande contribution : la popularité de Manus a progressivement fait apparaître une série d'applications générales de type agent et même des travaux d'infrastructure.

Le dernier développement est qu'OpenAI a lancé l'API Responses, qui est une nouvelle version destinée aux développeurs, à savoir les développeurs d'agents.

Dans la communauté des développeurs, Manus a inspiré de nombreuses idées. Jianbai travaillait sur un projet lié à la mémoire des agents. L'apparition de Manus l'a amené à repenser le paradigme lié au stockage de la mémoire.

Le stockage de la mémoire est crucial pour le travail réel de l'agent. Il affecte non seulement la capacité de l'agent à apprendre et à utiliser l'expérience des tâches passées, mais également sa capacité à constituer une mémoire sur les habitudes d'utilisation de l'utilisateur et à réellement réaliser une personnalisation.

De plus, les agents à usage général disposent en théorie du plus grand degré de liberté et peuvent relier et appeler n'importe quel outil – à condition que la latence, la standardisation de l'interface, etc. soient suffisantes. C’est exactement le service que souhaitent offrir les produits milieu de gamme comme ACI.

C'est peut-être le point le plus réussi de Manus : en tant que cas d'agent généraliste le plus original à ce stade, il ouvre un espace d'imagination et d'exploration pour une série d'installations de support .

" En fait, Manus nous montre que le modèle est désormais bien en avance sur le projet. " William estime qu'il y a encore beaucoup de place à l'exploration en ingénierie. " Nous pouvons continuer à faire quelque chose dans le projet pour améliorer les performances de ce produit d'agent d'IA. Mon opinion personnelle est que l'infrastructure actuelle des agents est encore assez immature, y compris les plates-formes d'appel d'outils comme la nôtre, ou ce type de couche mémoire. Il y a encore de nombreuses directions en ingénierie qui peuvent être optimisées. "

C'est aussi le plus grand sentiment que nous ressentons lorsque nous contactons la communauté des développeurs : ils sont enthousiastes et impatients d'essayer. Les possibilités contenues dans le mot « universel » sont plus vives que jamais .

Proxy lancera bientôt une version itérative basée sur la nouvelle idée d'agent parallèle. Zheng Qian a observé les commentaires de la communauté. Il a constaté que de nombreux utilisateurs utilisent Proxy d'une manière à laquelle ils n'avaient jamais pensé et que de nouvelles possibilités sont constamment découvertes.

"La destination finale de la plupart des produits n'est probablement pas celle pour laquelle ils ont été développés à l'origine. Ce sont peut-être les utilisateurs qui découvrent des utilisations que nous n'avons pas découvertes. Nous attendons également que ce moment arrive."

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo