Test actuel Manus : je l’ai utilisé pour générer 10 codes d’invitation… amusant, mais planté

Il n'est pas nécessaire d'expliquer à quel point Manus, qui vient de sortir ce matin, est choquant : un haut degré de capacité de réflexion indépendante, une puissante capacité à résoudre des tâches complexes et des résultats de livraison fiables.

Comparé aux produits d'IA conversationnelle pure, Manus parle moins et peut faire plus que simplement penser. Par rapport aux assistants virtuels traditionnels, Manus a des capacités de décomposition, de planification et de résolution de problèmes plus élevées (reflétées par l'utilisation de l'ordinateur et les capacités de programmation).

Les détails spécifiques sont encore très limités à l'heure actuelle, mais nous comprenons et devinons grâce aux informations publiques qu'il y a différents agents derrière Manus, chacun gérant une seule tâche, et la synchronisation et le transfert de la progression des tâches de l'agent sont effectués via l'API. En tant que produit, Manus est une suture de multiples modèles et de multiples agents indépendants – et l'équipe l'a également admis à travers l'expression autodérision du « bombardement ». Mais cela n’élimine pas l’importance de Manus en tant que produit fini bien au-dessus du niveau minimum viable.

Manus a amélioré le paradigme de l'interaction homme-machine vers la collaboration homme-machine et est plus proche d'un agent d'IA véritablement universel que d'autres acteurs similaires.

Manus est actuellement difficile à trouver et le prix demandé sur Xianyu atteignait autrefois 50 000 yuans.

APPSO a également utilisé Manus pour des tests réels. Cependant, en raison de la longueur des tâches et des difficultés de connexion ultérieure au site Web, seules quelques tâches simples ont été réalisées. D'autres tâches ont coïncidé avec la surcharge du système Manus et n'ont pas pu être poursuivies.

Dans le même temps, l'équipe du projet Manus a également publié une réponse officielle, déclarant que les ressources du serveur de préparation étaient insuffisantes, ce qui entraînait une mauvaise expérience utilisateur.

Le test infructueux de l’APPSO

Regardons d’abord les deux tests que nous avons réalisés dans un temps limité.

Comme beaucoup de gens, nous sommes souvent confus par l’évolution constante de la technologie de l’IA et des divers outils d’IA. J'ai donc fait cette demande à Manus :

À en juger par les résultats préliminaires renvoyés par Manus, il a d'abord effectué des recherches sur certains sites Web de type portail d'informations sur l'IA, ce qui signifie qu'il doit d'abord comprendre la méthode de classification générale, confirmer les dimensions de classification du tableau, puis trouver les outils d'IA correspondants par catégorie pour interroger les données.

Il a trouvé 17 catégories – lecteurs qui lisent l'article, si vous ne savez pas comment classer ces outils d'IA, vous pouvez vous référer aux résultats de la réflexion de Manus :

Manus rencontrait parfois des problèmes de navigateur lors de recherches sur Internet. Mais ce n'est pas grave, il gérera ces erreurs tout seul et réessayera ou passera à la tâche suivante.

Mais peu de temps après, il s’est effondré. Au cours de cette journée, nous avons collecté plus d'une douzaine de demandes de tâches de lecteurs APPSO et les avons transmises à Manus. Le résultat a été le même : une charge système élevée a provoqué une erreur de serveur interne. Veuillez réessayer plus tard ou créer une nouvelle conversation.

Par colère, j'ai demandé à Manus de générer directement 10 codes d'invitation, ce qui était assez simple.

Bien entendu, aucun d’entre eux ne fonctionne. N’oubliez pas qu’aujourd’hui, c’est jeudi…

Nous avons retrouvé des amis qui y ont déjà joué pour voir comment ils utilisent Manus.

Le processus d'utilisation de Manus est également une occasion rare d'observer directement et de près son cheminement de pensée et son processus de travail.

Commençons par quelqu’un avec beaucoup d’imagination :

Civilisation (édition PDG de Google)

Imaginez un jeu dans lequel vous pouvez incarner un entrepreneur technologique, traverser des épreuves et des obstacles, surmonter de nombreuses crises, faire de l'entreprise un leader technologique mondial et réécrire l'histoire de l'humanité ?

Quelqu'un a créé un tel simulateur de PDG de Google pour vous guider à travers les décisions importantes de l'histoire de Google et parcourir le chemin légendaire du garage jusqu'à devenir un géant de la technologie.

Le jeu divise l'histoire de l'entreprise Google en cinq étapes de développement clés : l'entrepreneuriat, la croissance (pré-introduction en bourse), l'expansion, la diversification, ainsi que la réorganisation et le changement de nom (étape de l'alphabet). À chaque étape, le jeu offre aux joueurs plusieurs choix clés, dont chacun affectera l'orientation du développement de l'entreprise, l'allocation des ressources et les réalisations finales.

Ce qui est encore plus intéressant, c'est qu'il ajoute également des « urgences aléatoires » courantes dans les jeux d'entreprise pour tester les capacités du joueur à gérer les crises en tant que PDG de Google.

Commençons le jeu – pouvez-vous réellement choisir la difficulté ? Je passe juste en mode difficile.

Les lecteurs d'APPSO connaissent probablement assez bien Google dans le monde réel. Pourquoi ne pas me rejoindre dans une aventure absurdement abstraite ?

En mode difficile, avec un capital initial de 80 000 $, j'ai lancé Google par l'intermédiaire de la petite amie de mon co-fondateur, en louant le garage de sa sœur. Au début, notre force technique était moyenne et tous les autres éléments faisaient très défaut – mais heureusement, le projet de moteur de recherche "BackRub" que nous avons étudié à l'université a commencé à prendre forme, en particulier l'algorithme PageRank, qui a un grand potentiel.

Nous avons obtenu notre premier investissement providentiel, mais comment devrions-nous utiliser cet argent ? Devrions-nous continuer à optimiser le PageRank, déménager dans un bureau spacieux et climatisé, ou simplement acheter des publicités sur America Online (AOL) à des fins de promotion ?

Sur quoi les moteurs de recherche comptent-ils pour survivre, sinon la publicité ? Je ne peux pas supporter de laisser mon fils piéger le loup. Si je veux vendre de la publicité, je dois bien sûr d’abord en acheter. J'ai juste dépensé tout mon argent dans la publicité.

Il a gagné quelques utilisateurs, mais la réputation de la marque qui venait de s'améliorer légèrement a chuté en raison d'une soudaine faille de sécurité majeure. Après avoir corrigé les bugs à la hâte, j'ai été confronté à une série de problèmes tels que le choix d'un modèle commercial, l'introduction d'investisseurs externes et la manière de développer les activités des succursales.

Pendant que j'avais des difficultés ici, mes employés travaillaient sur leurs propres projets pendant les heures de travail, discutant de ce qu'il fallait faire avec « Gmail ».

Comment cela marche-t-il? Comment vendre des publicités dans les emails ? Cela ne va-t-il pas à l’encontre de mon modèle de base ? Virez-le directement, vous devez tout chercher.

En 2005, Google a acquis Android.

Cela m'empêche de me concentrer sur la vente de publicités sur des sites Web, mais la vague de l'Internet mobile est effectivement irrésistible. Nous pouvons continuer à rechercher des opportunités pour intégrer des publicités dans de nouveaux systèmes d'exploitation. J'ai entendu dire qu'une entreprise chinoise de téléphonie mobile est très douée pour cela – nous ne coopérons pas avec elle ni avec aucune entreprise, mais fabriquons directement nos propres téléphones mobiles.

Et il doit être fermé, intégré verticalement et intégré davantage de publicités. Seuls les jardins clos sont les plus beaux jardins. Je l'appelle Nexus.

En 2006, le marché Internet chinois a également connu une croissance rapide.

Bien qu’après quelques opérations, l’entreprise ne disposait que de 90 000 $ US sur son compte, j’ai décidé de pénétrer pleinement le marché chinois et de profiter du dividende démographique.

En 2011, Google n’était toujours pas public.

Quand j'ai vu Facebook entrer en bourse, je n'ai pas été ému, j'ai plutôt recruté Vic Gundotra, un favori de Microsoft, et je l'ai autorisé à consacrer tous ses efforts au développement de Google+. Nous serons tous présents sur les réseaux sociaux !

Le temps passe vite et nous sommes en 2016. Google n'est toujours pas public.

Il y a actuellement 80 000 $ US sur le compte, qu'il y ait une perte ou un profit. Nous avons réalisé de nombreuses fusions et acquisitions, notamment une société appelée DeepMind, qui est très populaire. J'ai décidé de me lancer entièrement dans l'IA cette fois. Bien sûr, la publicité reste centrale, on n’en parle tout simplement pas.

Enfin, mon parcours en tant que PDG de Google touche à sa fin. Peut-être que ma série d'opérations a finalement fait perdre confiance au conseil d'administration. J'ai quitté cette entreprise où j'avais consacré ma jeunesse pendant plus de 20 ans, laissant derrière moi une assez bonne force technique, une base d'utilisateurs restreinte mais raffinée, une culture de gestion organisationnelle détendue et libre et une réputation de marque légèrement supérieure à celle du parc de la fraude électronique.

Au moins, nous sommes une entreprise solide.

Le processus de jeu à l’instant a en effet été en grande partie fait exprès par moi. Cependant, bien que ce simulateur soit très simple, sa conception reste très complète, avec des intrigues, des options, des tableaux de ressources et des souvenirs. En tant que petit jeu, produit de petit niveau, il est déjà complet et reflète une riche imagination.

Cependant, il vient d'être généré par Manus à l'aide d'une invite.

Dans le simulateur d'opérations de l'entreprise Google, les joueurs joueront le rôle du PDG de Google et prendront des décisions importantes dans l'histoire de Google. Tout en permettant aux utilisateurs de profiter de l'expérience, ils pourront également comprendre l'histoire de Google et inciter les utilisateurs à réfléchir aux décisions de l'entreprise.

Nous pouvons voir l'ensemble de son processus de réflexion, de décomposition des tâches, d'exécution de sous-tâches, et enfin de synthèse et de génération de résultats grâce au processus de relecture :

Manus a simplement répondu à ce que l'utilisateur allait faire, puis a ouvert une machine virtuelle Ubuntu, a commencé à décomposer des tâches spécifiques et a rédigé une liste de tâches basée sur le fichier todo.md.

La tâche se décompose en 7 étapes :

  1. Étudiez le contexte historique de Google et les décisions clés de l'entreprise
  2. Implique l’architecture du jeu et les mécanismes d’interaction
  3. Sur la base des résultats de la recherche et de l'apprentissage, générer des scénarios de prise de décision optionnels cohérents avec les faits historiques.
  4. Construire la logique du jeu et l'interface utilisateur
  5. Testez les fonctions du jeu et l'expérience de jeu
  6. Créer une version statique du produit fini que les utilisateurs pourront déployer

Tout d'abord, Manus a effectué de nombreuses recherches, notamment sur l'identité du fondateur/PDG de Google, sur les produits clés de l'histoire, sur les acquisitions importantes, ainsi que sur les modèles commerciaux et les changements stratégiques de ces dernières années. Il a également parcouru le site officiel de Google, Wikipédia, les sites d'information en chinois et en anglais, Zhihu, etc.

Grâce à l'étude de ces documents, Manus a déjà une compréhension approximative de Google. Elle n'est peut-être pas approfondie ou originale, mais il n'y a pas beaucoup de divergences factuelles.

Et si l'utilisateur estime que les informations qu'il recherche automatiquement ne sont pas assez complètes et souhaite ajouter un peu de saveur unique, il peut le faire :

Pendant le processus d'exécution, l'utilisateur peut cliquer sur ce bouton à tout moment pour ajouter manuellement du contenu de connaissances. Pendant le processus de production, Manus reviendra encore de temps en temps pour examiner ces matériaux.

À chaque étape de l'exécution d'une tâche, Manus utilisera également la langue correcte (entièrement prise en charge en chinois) pour expliquer à l'utilisateur ce qu'il vient de faire, ce qu'il a gagné et ce qu'il doit faire ensuite. Cela doit être attribué au fichier qu’il crée lors de la décomposition des tâches, semblable à une liste de tâches.

Son expression est également structurée et logique, et s'efforce de vous montrer pleinement sa façon de penser.

Cela montre que Manus est très intelligent. Mais il convient de noter que tout utilisateur qui manque de compétences professionnelles, en particulier les capacités d'exploration de données, de tri et de programmation actuellement démontrées par Manus, peut également s'améliorer en observant le flux de travail de Manus.

Ce qui compte, ce n’est pas seulement le résultat, mais aussi le processus.

Simulateur de querelle Zelensky-Trump

Tout le monde se plaint de la mauvaise performance de Zelensky à la Maison Blanche, mais est-il bon avec vous ? Ne vous contentez pas de parler sans vous entraîner, essayez ce petit jeu officiellement testé par Manus : Zelensky White House Debate Simulator !

L'invite de saisie est la suivante :

Chinois : Récemment, les échanges houleux entre Zelensky, Vance et Trump à la Maison Blanche ont attiré une large attention. Pouvez-vous développer un jeu de simulation interactif simple dans lequel je incarne Zelensky dans un débat ? Je m'intéresse aux jeux interactifs qui recréent cette scène politique.

Article original : Les récents échanges houleux entre Zelenskyy, Vance et Trump à la Maison Blanche ont attiré une attention considérable. Pourriez-vous développer une simulation interactive simple qui me permettrait de jouer le rôle du président Zelenskyy pendant ces débats. Je suis intéressé par un jeu interactif captivant qui recrée ce scénario politique.

La tâche est divisée en 9 étapes au total :

  1. Étudier l'interaction entre trois personnes
  2. Concevoir la structure et les mécanismes de jeu d'un jeu de mots
  3. Création d'une application Next.js pour simuler des sessions de débat
  4. Développer un système de dialogue et remplir des scripts de dialogue
  5. Créer une interface utilisateur
  6. Effectuer des tests simulés complets
  7. [User Takeover] Déployez le jeu sur une machine virtuelle pour les tests utilisateur
  8. Créer un manuel d'utilisation et livrer
  9. Déployer le produit fini sur une URL publique pour une utilisation permanente

Jusqu'à l'étape de test du joueur, tous les travaux précédents sont automatiquement effectués par Manus sur la machine virtuelle sans aucun contrôle de l'utilisateur. De même, à des moments clés de la mission, Manus expliquait précisément ce qu'il avait fait.

Cette « interprétabilité » est essentielle et peut réduire l’impression de « boîte noire » des outils d’IA.

Manus a annoncé qu'il avait conçu trois fins et qu'il fournirait aux joueurs un dossier complet une fois le jeu terminé. Pendant le jeu, les joueurs ont le choix entre trois options de dialogue : assertif, diplomatique et conciliant. Les PNJ auront différentes « émotions » avec différents styles d'expression, ce qui affecte directement le résultat.

Et c'est le concept de conception le plus populaire de jeux tels que "Kingdom of Deliverance" et "The Witcher" : choisissez votre propre aventure, choisissez votre propre aventure.

Dans ma pièce d’essai, j’ai essayé de jouer le rôle d’un homme politique pris dans le tourbillon de la politique, de la diplomatie et des affaires militaires, essayant de trouver un équilibre sur la pointe du couteau entre l’humiliation d’être séparatiste dans son pays d’origine et la diplomatie attendue sur la scène des négociations politiques internationales.

J'ai provoqué à deux reprises la déception de Trump et les soupçons de Vance, mais heureusement, j'ai pu sauver la situation au moment de l'ultimatum de Trump. Même si mes négociations n’ont pas abouti à des résultats directs et substantiels, au moins je n’ai pas été expulsé de la Maison Blanche…

Si nous utilisons la rhétorique diplomatique officielle, cela devrait être "l'échange de vues est bénéfique".

Même s'il n'y avait que 6 tours, j'y ai joué plusieurs fois car les options étaient intéressantes et l'intrigue était diversifiée. Peut-être parce qu’il était trop lâche, il a même négocié un accord une fois.

C'est un jeu de texte pur, et il a vraiment un sentiment de substitution RPG.

Vous pouvez retrouver ce jeu de simulation dans la rubrique Use Cases – WTF ​​​​du site officiel de Manus. Après avoir lancé la relecture de la conversation, retrouvez le lien vers le jeu dans sa dernière réponse. Ou vous pouvez également visiter directement cette adresse : https://dgooezit.manus.space/

Résumé de l'expérience : Rejetez le "climax", amusant et utile suffisent

Cela n'a pris qu'une douzaine d'heures à partir du moment où Manus est sorti et est devenu un succès, au point qu'il est difficile de trouver un seul code, que le site Web est difficile à connecter et à accéder, et l'équipe s'est excusée.

APPSO a rendu compte de Manus lors de sa première sortie et lui a donné une critique relativement positive. Après un essai plus approfondi, nous avons extrait les avantages de ce produit :

Premièrement, l’interface utilisateur de Manus permet aux utilisateurs d’observer directement son cheminement de réflexion et son flux de travail.

Que ce soit pendant l'utilisation ou rejoué par la suite, il peut démontrer plus complètement comment le modèle pense et comment les tâches sont démontées et attribuées. Chaque étape peut être retracée.

Il s’agit d’une pratique qui améliore l’explicabilité de l’IA et donne également aux utilisateurs la possibilité de s’améliorer en l’imitant.

Deuxièmement, il a non seulement la capacité de gérer des tâches complexes, mais maintient également un niveau d’automatisation plus élevé.

L'exemple le plus intuitif est la tâche de ressources humaines officiellement effectuée par Manus : la sélection des CV.

Manus a combiné les capacités d'utilisation de l'ordinateur pour ouvrir une machine virtuelle, décompresser le package compressé téléchargé par l'utilisateur, parcourir 25 CV, extraire et mémoriser 25 ensembles d'informations complexes ; puis les organiser dans un tableau Excel pour la notation et le classement, répertoriant entièrement plusieurs indicateurs, notamment les qualifications, les niveaux de compétence, l'expérience du projet et les principales réalisations, mais sans s'appuyer uniquement sur un indicateur spécifique.

Dans le passé, des tâches similaires pouvaient obliger l'utilisateur à utiliser un outil AI Agent et à saisir des instructions étape par étape plusieurs fois, ou l'utilisateur devait utiliser plusieurs outils pour effectuer les tâches séparément, puis les combiner lui-même. Quelle que soit la manière dont cela était fait, c'était très gênant. Le degré d'automatisation de Manus dépasse les solutions similaires dont Claude. Même si vous croyez fermement que les capacités de Manus n'ont rien d'exceptionnel (après tout, c'est une coquille), force est de constater que son expérience est supérieure.

Pour résumer tous les points ci-dessus, Manus dépasse en effet notre expérience et nos connaissances des outils d'IA au cours de la période passée. Si le précédent Agent était plutôt un outil sans « cerveau », Manus est très proche d’un assistant IA doté d’un « cerveau », passant de l’interaction homme-machine à la collaboration homme-machine.

Mais en même temps, nous avons vu aujourd'hui de nombreux reportages auto-médiatiques exagérément médiatisés, suivant l'équipe de Manus jusqu'au « point culminant » à l'avance, le qualifiant de « jalon pour AGI » bien sûr, il y a aussi des gens qui soulignent que ses produits sont « décortiqués », que les membres de l'équipe ont une « histoire noire » et que la pile technologique et les méthodes de mise en œuvre manquent de véritable innovation indépendante ;

Que faut-il reprocher à Manus ? Il ne fait aucun doute que sa méthode de marketing n'est pas « décente » : elle a trouvé un groupe d'auto-médias à partager en interne, prétendant « simplement envoyer une démo », sous prétexte que les ressources du serveur n'étaient pas prêtes à gérer l'explosion du nombre d'utilisateurs, créant un « point culminant » marketing, puis le bloquant du monde extérieur, rendant difficile pour les gens de découvrir la vérité et de satisfaire leur curiosité.

Mais je pense que peu importe que ce produit soit en version bêta publique ou officiellement publié, toute maintenance et dérogation n'a que peu d'importance avant qu'il ne soit pleinement ouvert au public.

La technologie de l’IA a progressé à pas de géant et a depuis longtemps quitté le stade de la recherche scientifique universitaire et le blocus des grandes entreprises. Les porte-avions d'entreprise entièrement dotés d'IA ne garantissent pas une navigation fluide, mais les petites entreprises peuvent décoller en une semaine seulement. Les outils open source, semi-publics, payants et payants existants abondent, tant qu'ils ne violent pas les règles de licence open source et les accords de licence commerciale correspondants, n'importe qui peut les utiliser pleinement et librement, que ce soit pour un usage purement personnel ou pour une innovation « shell » en les assemblant et en les superposant.

Sans oublier que le résultat de cette « innovation » est assez amusant (même si vous ne parvenez pas à obtenir de code d'invitation, vous pouvez toujours vous rendre sur le site pour expérimenter des dizaines de cas d'utilisation prêts à l'emploi).

Les choses amusantes sont si rares de nos jours. Tout le monde peut ouvrir son imagination, et bien la remplir est la voie à suivre.

Nous embrassons l’innovation et prêtons attention et apprécions les choses amusantes et intéressantes. Pour les produits susceptibles de définir nos futures vies numériques, notre inclusion n’est pas bon marché, mais elle est certainement suffisante.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo