Ce produit d’IA chinois est apparu à l’écran du jour au lendemain ! Tout Internet demande des codes d’invitation, ce qui pourrait être la plus grande surprise après DeepSeek

Presque au même moment où Apple lançait de nouveaux produits hier soir, tout le cercle technologique était balayé par un produit appelé Manus.

Il s'agit du premier agent IA véritablement universel au monde. Comme le montrent les cas présentés sur le site officiel, il peut penser, planifier et exécuter des tâches complexes de manière indépendante et fournir directement des résultats complets.

Comparé à des agents tels que Claude's Computer Use, qui peuvent également effectuer plusieurs tâches ou vous aider à commander des plats à emporter et à réserver un hôtel, Manus peut couvrir plus de domaines et atteindre une qualité d'exécution supérieure.

Manus a établi un nouveau record dans le test de référence GAIA faisant autorité, et ses performances dépassent de loin celles des produits similaires d'OpenAI.

Le nom Manus vient du latin Mens et Manus, qui signifie esprit et main, c'est-à-dire utiliser à la fois les mains et le cerveau. C'est aussi la devise du MIT, qui encourage les étudiants à transformer leurs idées en résultats pratiques.

Quelques heures avant le lancement de Manus, le fondateur Xiao Hong a posté sur la plateforme instantanée « Le point culminant arrive » et a partagé un extrait du livre de Shakespeare :

Il est difficile de déterminer maintenant que la naissance de Manus est une étape importante pour AGI, mais il est très probable qu'elle amènera réellement l'ère des Agents (intelligents) à un « moment culminant ».

Lien d'application de l'expérience Manus  :
https://manus.im/invitation

Filtrage des CV, sélection des propriétés et négociation d'actions, Manus est-il vraiment doué pour « travailler » ?

Les responsables affirment que Manus n'est pas seulement un outil d'IA conversationnel capable de discuter uniquement, mais un agent véritablement autonome.

Alors que d’autres IA pourraient s’arrêter à générer des idées, Manus est capable de penser et d’agir par lui-même. Les responsables le considèrent comme un nouveau paradigme de collaboration homme-machine et pourraient même constituer une fenêtre sur l’AGI.

En même temps que Manus, il y a aussi une démo de quatre minutes. Dans ces cas, Manus a réalisé l’ensemble du processus, de la planification à l’exécution, de manière totalement autonome, démontrant de réelles capacités d’agent plutôt que de simples fonctions d’assistant.

Par exemple, commencez par une tâche RH courante : la sélection des CV.

La manifestation a commencé par une grande astuce : le responsable a envoyé à Manus un fichier compressé contenant 10 CV. Manus pouvait travailler aussi efficacement qu'un recruteur professionnel.

Il décompressera d'abord le fichier, puis parcourra chaque CV page par page et enregistrera les informations importantes. Manus peut également traiter les fichiers de manière asynchrone, ce qui signifie que vous pouvez éteindre votre ordinateur à tout moment et qu'il vous avertira lorsque la tâche sera terminée.

Bien entendu, vous pouvez également lui donner de nouvelles instructions à tout moment au cours de ce processus.

Ensuite, procédez au téléchargement de 5 CV sur Manus. Après avoir lu attentivement les 15 curriculum vitae, Manus a formulé des recommandations de classement et fourni des profils de candidats et des critères d'évaluation à titre de référence.

Ce n'est pas tout, on peut aussi demander à Manus de générer un tableur.

Grâce aux connaissances et aux capacités de mémoire de Manus, la prochaine fois qu'une tâche similaire est effectuée, il fournit les résultats directement sous la forme d'une feuille de calcul.

Dans un autre cas de démonstration, Manus est invité à sélectionner une communauté sûre et à faible criminalité à New York en fonction du revenu familial et des exigences scolaires des enfants, et à acheter des propriétés qui répondent aux critères.

Face à des tâches aussi complexes, Manus les décompose également méthodiquement en plusieurs étapes et crée des listes de tâches détaillées.

  • Recherchez et lisez des articles sur les quartiers les plus sûrs de New York.
  • Recherchez les lycées de New York.
  • Écrivez un programme Python pour calculer le budget.
  • En fonction de votre budget, recherchez les annonces appropriées sur les sites Web immobiliers.
  • Intégrer toutes les informations, rédiger des rapports détaillés et organiser les informations pertinentes

Passant au troisième cas, Manus s'est transformé en analyste boursier professionnel.

Laissez-le analyser la corrélation entre les cours des actions de Nvidia, Marvell Technology et TSMC au cours des trois dernières années. Manus peut accéder à des sources de données faisant autorité via des API. Après avoir validé les données, il commence à écrire du code pour l'analyse et la visualisation des données.

Après avoir terminé l'analyse et la visualisation des données, Manus peut également créer un site Web basé sur les données. Avec l'autorisation de l'utilisateur, le site Internet peut être déployé en ligne et un lien partageable est fourni.

X Netizen @DavidAIinchina a également expérimenté Manus et a donné une évaluation très élevée – "cas d'utilisation incroyable".

Les responsables ont déclaré que le contenu affiché ci-dessus n'est que la pointe de l'iceberg des capacités de Manus.

Sur le benchmark GAIA, utilisé pour évaluer la capacité des assistants IA polyvalents à résoudre des problèmes du monde réel, Manus a atteint les performances SOTA dans les trois niveaux de difficulté.

Pour garantir la reproductibilité des résultats, Manus a été évalué en utilisant exactement la même configuration que sa version officielle.

En plus de l'analyse comparative, Manus résout des problèmes du monde réel sur des plateformes comme Upwork et Fiverr, et a prouvé ses prouesses lors des compétitions Kaggle.

Tout cela est indissociable de l'excellente communauté open source, le responsable espère donc également redonner à la communauté.

Manus utilise un système multi-signature (multisig) piloté par plusieurs modèles indépendants. Plus tard cette année, les responsables prévoient d'ouvrir certains de ces modèles, en particulier la partie raisonnement (affichage) de Manus.

Équipe chinoise, deux produits à succès, des millions d'utilisateurs

Alors, qui se cache derrière ce produit qui bouleverse l’industrie ?

Il est rapporté que Xiao Hong, le fondateur de Manus AI, est un ancien élève de 2015 de la spécialisation en génie logiciel de l'Université des sciences et technologies de Huazhong.

Après avoir obtenu son diplôme, il a continué à créer des entreprises. En 2015, il a fondé Nightingale Technology, lancé « Yiban Assistant » et « Weiban Assistant », servi plus de 2 millions d'utilisateurs B-end et reçu des investissements de Tencent, ZhenFund et d'autres.

Il existe également un produit d'IA plus distinctif qui persiste sur Xiao Hong : Monica.

Il s'agit d'un assistant IA connu sous le nom de All-in-One, initialement lancé en tant que plug-in de navigateur.

En intégrant de grands modèles grand public (tels que Claude 3.5, DeepSeek, etc.), Monica fournit des fonctions telles que le chat, la traduction, le traitement de la rédaction, etc. Les utilisateurs peuvent créer des outils personnalisés via le langage naturel et les partager sur Tool Plaza.

Monica s'est également concentrée sur les marchés étrangers au début, avec une base d'utilisateurs dépassant le million et devenant un produit leader dans le domaine des plug-ins d'IA.

En février de cette année, la version chinoise de Monica (monica.cn) a commencé les tests internes et est actuellement ouverte gratuitement aux utilisateurs nationaux. Cette version est basée sur les modèles DeepSeek R1 et V3, possède des capacités de raisonnement et de réflexion approfondies et prend en charge les fonctions de mémoire et la recherche Internet en temps réel.

La philosophie technique de Manus : moins de structure, plus d’intelligence

La philosophie technique poursuivie par Manus est également quelque peu différente du courant dominant : « moins de structure, plus d'intelligence ».

Ils pensent que lorsque les données sont de haute qualité, que le modèle est suffisamment puissant, que l'architecture est suffisamment flexible et que l'ingénierie est suffisamment solide, des capacités telles que l'utilisation d'un ordinateur, la recherche approfondie et les agents de codage émergeront naturellement sans être conçues comme des fonctions spécifiques du produit.

En tant que l'un des représentants du travail acharné pour réaliser des miracles, le score moyen de GPT-4-Turbo dans le classement public GAIA est inférieur à 7 %, et même les solutions utilisant des systèmes multi-agents complexes n'atteignent que 40 %. La performance de Manus peut être considérée comme « en avance ».

Dans une récente interview avec Zhang Xiaojun, le fondateur Xiao Hong a également parlé à l'avance du produit Agent Manus, alors inédit.

"On dirait vraiment qu'il devrait s'agir d'un chatbot. Cela correspond à l'imagination de chacun, mais en même temps, c'est très compliqué du côté des applications. Contrairement à Monica, le simple fait d'utiliser différents modèles est assez compliqué."

Xiao Hong a également divisé les applications d'IA actuelles en deux catégories : l'une consiste à combler les lacunes des principaux produits d'application et l'autre à fournir des solutions uniques pour des scénarios spécifiques. Par exemple, Perplexity (fournissant une fonction de recherche sur le réseau) et Monica (formulaire de plug-in de navigateur) entrent dans cette catégorie et comblent les lacunes laissées par les produits existants.

Les applications telles que les nouvelles scènes basées sur des modèles apparaissent principalement dans les domaines des images et des vidéos et sont directement motivées par les progrès de la technologie des modèles. Des produits comme Pika et Runway exploitent les capacités des modèles pour créer de nouveaux scénarios d'application.

Certains utilisateurs ont ridiculisé Manus en disant que « la coque ultime est géniale ». En fait, Xiao Hong n'hésite pas à faire savoir aux utilisateurs que ses produits utilisent les modèles d'autres personnes. Dès l'année dernière, il a comparé Monica à l'électronique grand public et a mis le logo ChatGPT sur le site officiel.

Une nouvelle ère d’interaction homme-machine est arrivée, mais ne vous précipitez pas pour mettre Manus sur l’autel de l’AGI.

APPSO a fait une prédiction début 2024 : les grands modèles deviendront le nouveau système d'exploitation pour smartphones, et l'interface utilisateur naturelle (NUI) remplacera progressivement l'interface utilisateur graphique (GUI) existante.

L'entrée importante pour réaliser cette nouvelle interaction est l'Agent.

Nous avons vu des cas similaires lors de nombreux lancements de téléphones mobiles l’année dernière. La conférence de presse de Vivo a montré « Phone GPT » qui peut commander de la nourriture avec l'IA, Xiaoyi et Intent Framework de Huawei Hongmeng, le corps intelligent YOYO de Honor et AutoGLM de Zhipu. Le noyau est le même :

Laissez l’IA imiter le cycle humain Planifier-Faire-Vérifier-Agir (planifier-faire-vérifier-agir) pour faire fonctionner l’équipement comme les humains.

Zhang Peng, PDG de Zhipu AI, a mentionné précédemment que les capacités actuelles de l'agent ressemblent davantage à l'ajout d'une couche de planification intelligente entre les utilisateurs et les applications pour relier toutes les applications et même tous les appareils.

Cela peut être considéré comme un prototype du système d'exploitation général à grande échelle LLM-OS, qui aura un grand impact sur la forme de l'interaction homme-machine. Andrej Karpathy, membre fondateur d'OpenAI et gourou de la technologie de l'IA, a également parlé à plusieurs reprises du système d'exploitation LLM (Large Language Model Operating System).

Il estime que le grand modèle est dans une certaine mesure un nouvel ordinateur et un nouveau système d'exploitation capable de connecter divers logiciels et matériels, ainsi que des périphériques composés de toutes les informations modales, et d'effectuer diverses tâches via des appels de fonction.

Dans un système d'exploitation traditionnel, vous devez créer un ensemble de périphériques autour du processeur, tels qu'une souris et un clavier, un stockage sur disque et un espace cache.

Dans LLM OS, le grand modèle lui-même est l'unité centrale de traitement. Les périphériques d'E/S ne sont plus une souris et un clavier, car LLM peut être compatible avec davantage de modes d'entrée et de sortie de données. Dans le même temps, les outils externes appelés par les grands modèles passeront également des logiciels traditionnels aux outils d'agents intelligents.

Parmi eux, le fonctionnement inter-applications est un lien très critique, ce qui signifie que l'Agent peut réaliser des opérations autonomes et cohérentes plus complexes, et peut également évoluer vers une véritable commercialisation. Quant à savoir si les services fournis par diverses sociétés Internet peuvent être connectés, cela pourrait être le plus grand obstacle à la réalisation d'une telle interaction à l'avenir.

Cependant, de nombreux assistants IA mettent désormais en œuvre des opérations proxy en appelant les fonctionnalités d'accessibilité du téléphone pour contrôler les clics sur l'écran.

L'émergence de Manus signifie que l'IA en mode Agent peut comprendre les exigences et travailler de manière indépendante jusqu'à ce que la tâche soit terminée. Il s’agit sans aucun doute d’un grand pas en avant dans le domaine de l’interaction homme-machine, et cela nous permet de voir le potentiel de l’IA pour passer d’un outil à un partenaire.

Mais il est encore trop tôt pour dire que nous avons un pied dans la porte d’AGI. Xiao Hong lui-même a également mentionné que le premier Agent ressemblait davantage à une « machine fonctionnelle » et nécessitait des itérations et des améliorations constantes. L'agent actuel doit encore s'appuyer sur l'amélioration des capacités du modèle et sur une prise en charge plus complète de l'environnement virtuel pour être réellement capable d'effectuer diverses tâches à longue traîne.

Si on le compare à la conduite intelligente, cela équivaut probablement à passer du niveau L2 au niveau L3 de la conduite assistée. Bien que Manus ait obtenu de bons résultats dans le benchmark GAIA, cela ne signifie pas qu'il possède toutes les caractéristiques de l'intelligence artificielle générale. Le chemin vers l’AGI est encore long et nécessite de résoudre de multiples défis tels que les capacités des modèles, l’apprentissage autonome et la généralisation des tâches.

Mais grâce à la percée de Manus en matière d'autonomie et de polyvalence, il y a une autre étoile qui nous illumine dans le grand voyage vers AGI.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo