Test actuel du spectre d’intelligence AutoGLM avec la capacité de méditer, nous nous rapprochons d’un agent capable de penser

Et s’il existait une IA capable de penser mais incapable de faire des choses ?

Il existe également des IA qui peuvent faire des choses mais ne peuvent pas penser.

Lequel choisirez-vous ?

Si je devais choisir, je dirais : pourquoi pas les deux ?

Aujourd'hui, lors de la journée portes ouvertes du forum Zhongguancun Zhipu, Zhipu a lancé AutoGLM Meditation, le premier agent de bureau doté de capacités de méditation.

Il s'agit du premier agent qui existe sur le bureau de l'ordinateur et qui peut réfléchir avant de faire quelque chose et continuer à réfléchir tout en le faisant.

Posez-lui une question, et il la décomposera étape par étape, puis ouvrira les onglets du navigateur l'un après l'autre devant vous (ou même si vous ne le regardez pas), recherchera, trouvera, enregistrera, résumera et analysera les informations par lui-même, et enfin générera pour vous un rapport de résultats qui a été entièrement vérifié et profondément réfléchi.

Si vous ne savez toujours pas ce que c’est, voici une brève introduction :

AutoGLM est un produit Agent lancé par Zhipu, qui peut faire fonctionner les écrans de téléphones mobiles et les navigateurs d'ordinateurs. Le point clé est que la méthode d’implémentation est l’interface graphique frontale (GUI), plutôt que l’interface d’application back-end (API). Vous pouvez comprendre qu'AutoGLM apprend des humains à opérer directement sur l'interface utilisateur grâce à « l'utilisation œil-main ». Ceci est très différent de la plupart des produits d'agent basés sur API sur le marché en termes d'interaction.

La capacité de penser, comme son nom l'indique, permet à l'IA de réfléchir et de rechercher en même temps, de résoudre de manière autonome des problèmes ouverts qui ne sont pas inclus dans le corpus de formation et d'imiter la capacité de réfléchir profondément et de démontrer des recherches approfondies. Lorsque ChatGLM a reçu une nouvelle ronde de financement début mars de cette année, elle a annoncé qu'elle développait Shensi, et le changement pour cette fonction a également été lancé dans le produit grand modèle « ChatGLM » développé par la société.

Dans le cas d'AutoGLM Contemplation, la fonction unique d'agent GUI de Zhipu et la capacité de contemplation que les gens recherchent et aiment le plus ont finalement atteint l'intégration.

La base du modèle derrière AutoGLM Meditation a également été officiellement dévoilée lors de cette journée portes ouvertes :

Le modèle de base GLM-4-Air-0414 possède 32 milliards de paramètres, mais ses performances sont suffisantes pour comparer des modèles avec des paramètres plus importants tels que DeepSeek-V3, R1 (670B) et Qwen 2.5-Max.

Parce qu'il y a moins de paramètres, GLM-4-Air0414 peut effectuer rapidement un travail de type agent, fournissant une base pour l'amélioration des capacités de l'agent et une mise en œuvre à grande échelle, et garantissant dans une certaine mesure une expérience d'essai pour les utilisateurs finaux.

Zhipu a également publié le modèle d'inférence GLM-Z1-Air, qui est 8 fois plus rapide que DeepSeek-R1 (activation 37B), alors que le coût est réduit à seulement un trentième de ce dernier.

Il s'agit également d'un modèle d'inférence qui peut s'exécuter sur des cartes graphiques grand public, ce qui peut améliorer considérablement l'expérience des développeurs.

Zhipu a également formé un nouveau modèle de contemplation GLM-Z1-Rumination basé sur le modèle GLM-Z1, en utilisant des méthodes d'apprentissage par renforcement d'auto-évolution, qui peuvent effectuer une recherche de réseau en temps réel, appeler dynamiquement des outils, une analyse approfondie et une auto-vérification. Ce modèle de contemplation peut comprendre de manière indépendante les besoins des utilisateurs, optimiser en permanence le raisonnement, vérifier et réviser à plusieurs reprises les hypothèses dans des tâches complexes, rendant les résultats de recherche plus fiables et plus pratiques.

C'est-à-dire : l'architecture du modèle de base d'AutoGLM est la suivante :

Modèles de raisonnement et de contemplation de niveau intermédiaire GLM-Z1-Air, GLM-Z1-Rumination

+

Le modèle de langage sous-jacent GLM-4-Air-0414

Couplé aux outils AutoGLM au niveau de l'ingénierie/du produit, l'ensemble de la pile technologique d'AutoGLM Meditation est formé.

Zhipu prévoit également d'ouvrir officiellement tous les modèles derrière AutoGLM Meditation le 14 avril.

Zhipu a déjà partagé le jugement de l'équipe sur la feuille de route AGI : si l'on utilise le niveau de conduite autonome comme analogie, les produits grands modèles actuels ont généralement acquis la capacité d'apprendre par eux-mêmes, proche du L3 ; tandis que les capacités telles que la contemplation, la réflexion et l'autocritique sont au stade L4.

Il convient de noter qu’AutoGLM Meditation est actuellement encore en phase de test bêta. Le week-end dernier, APPSO a utilisé ce produit en profondeur. À en juger par les résultats des tests, ses performances dans la gestion de tâches complexes peuvent effectivement être améliorées, et la logique sous-jacente doit également être optimisée. Cependant, en tant que produit-agent modèle très nouveau, l'effet global est déjà étonnant.

Zhipu est entré dans le stade L4 d'agent de grand modèle, même s'il n'est qu'à un demi-pied de la porte.

À l'heure actuelle, la fonction de méditation d'AutoGLM a été officiellement lancée sur la page Web de Zhipu Qingyan, côté PC et application mobile, et est gratuite et ouverte en quantité illimitée.

Expérience ci-jointe

https://autoglm-research.zhipuai.cn/?channel=chatglm#get_started

Lorsque l’agent a la capacité de méditer, l’IA apprend-elle enfin à travailler seule ?

L'année dernière, Anthropic a publié "Computer Use", qui a également démontré des capacités de modèle suffisantes et de fortes capacités d'interaction avec les appareils, permettant ainsi à l'idée d'agent (intelligent) d'être enfin mise en pratique pour la première fois. En janvier de cette année, le plus grand rival d'Anthropic aux États-Unis, OpenAI, a également interprété le concept d'agent GUI à travers son nouveau produit Operator.

Également en octobre de l'année dernière, Zhipu et Anthropic ont publié presque simultanément leurs dernières tentatives en direction d'agents. AutoGLM de Zhipu est le premier agent basé sur une interface graphique lancé par une institution nationale.

Aujourd'hui, AutoGLM Meditation apporte non seulement les capacités d'exécution de tâches de l'agent sur le bureau, mais intègre également pour la première fois des capacités d'exploitation d'outils, des capacités de recherche approfondies, des capacités de raisonnement et de grandes capacités de prédiction.

Cet agent multi-capacités est très approprié pour les tâches de récupération, d’affinage et de synthèse d’informations.

C'est comme laisser un agent « conduire ». Dans le passé, il fallait lui donner une voiture, lui apprendre à utiliser le volant, l'accélérateur, les freins et les vitesses, et même lui dire où regarder en conduisant et en marche arrière – mais désormais, l'agent peut « conduire de manière autonome ».

Qu'il crée un « guide de voyage classique de niche sur le Japon de deux semaines, différent de tous les itinéraires traditionnels sur Internet. Il ne nécessite absolument pas d'aller vers les destinations les plus populaires, mais vers des attractions de niche, mais il doit également avoir de bonnes critiques ».

AutoGLM Shensi a analysé la demande avec plus de précision et la logique de pensée était relativement claire : il a d'abord recherché le mot-clé le plus simple « voyage au Japon » pour comprendre les itinéraires et les attractions principales, puis a recherché des mots-clés tels que « attractions touristiques de niche japonaises ».

Au total, j'ai fait plus de 20 réflexions sur cette tâche. Parfois, il y a des duplications entre plusieurs pensées, comme rechercher les mêmes mots-clés, visiter des liens identiques ou similaires, etc. Cela peut être dû au fait que les informations obtenues lors d'une seule recherche ne sont pas suffisantes. Après tout, l’essence de la contemplation/recherche profonde est de constamment douter et de se renverser, et de passer à l’étape suivante seulement lorsqu’une confiance suffisante est atteinte.

L’APPSO a également remarqué qu’elle s’appuyait trop sur des sites Web spécifiques comme sources d’information. 90 % de tous les onglets ouverts étaient Xiaohongshu et Zhihu (environ la moitié chacun). Au contraire, les véritables bases de données de voyages professionnels, comme Mafengwo, Qyer.com, ou encore les plateformes OTA, n'ont jamais été utilisées une seule fois.

Si vous souhaitez créer un véritable guide de niche, le résultat d'une forte dépendance à Xiaohongshu n'est peut-être pas idéal. Après tout, c’est sur les notes populaires de Xiaohongshu, donc cette attraction ne devrait pas vraiment être une niche. Un vrai voyageur d’attractions de niche n’a probablement pas envie d’aller dans des endroits où les momos sont déjà allés ou veulent aller…

APPSO a remarqué qu'après une réflexion approfondie, AutoGLM Shen Si a mis en avant des exigences telles que « une planification d'itinéraire raisonnable, pas de rebondissements insignifiants » et « un rythme de voyage raisonnable, pas trop de forces spéciales ».

C’est juste que les résultats réels ne reflétaient pas parfaitement les exigences qu’il mettait en avant : par exemple, les premiers jours, nous faisions des allers-retours dans la mer intérieure de Seto, nous rendant parfois dans deux ou trois endroits à plus d’une heure d’intervalle dans une journée, un peu à la manière des forces spéciales ; au cours de la deuxième semaine, nous avons volé vers le sud d'Aomori à Sendai, puis vers le nord de Sendai à Hokkaido, et ne sommes restés à Hokkaido que deux jours. Étant donné que la plupart des voyages longue distance au Japon reposent sur JR et que les tarifs sont chers, un itinéraire raisonnable devrait être d'aller dans une direction sans faire demi-tour. À moins que vous ne deviez vous rendre dans une grande ville pour changer de train, vous ne devriez généralement pas faire demi-tour.

Mais d'une manière générale, ce guide est efficace : il présente certaines destinations auxquelles l'interrogateur n'a pas pensé, et tente également de se rendre dans des endroits aux saisons, climats et styles complètement différents en un seul voyage (au lieu de faire des allers-retours autour des régions du Grand Tokyo, du Mont Fuji et de Keisana).

De ce point de vue, il suit les invites et montre les résultats d’une réflexion approfondie.

Tout comme vous ne devez pas utiliser directement les résultats générés par l'IA, ce guide fournit aux voyageurs une assez bonne base pour optimiser des destinations, des itinéraires et des modes de transport intermédiaires spécifiques. Voyager ne consiste pas seulement à monter dans le bus, à dormir et à descendre pour prendre des photos. Il doit également prendre en compte l'humanité et la nature, se plonger dans les traditions culturelles locales, explorer les paysages naturels et au moins vivre l'une des expériences locales les plus uniques.

Tant que vos attentes ne sont pas spontanées, les réponses fournies par AutoGLM Musings sont suffisamment satisfaisantes.

Cliquez pour voir la réponse de Zhipu Qingyan https://chatglm.cn/share/FQoLp

Considérant que la plus grande différence entre AutoGLM Contemplation et d'autres grands modèles réfléchis est la capacité de contrôle du navigateur, APPSO a également testé sa capacité d'utilisation du navigateur de manière plus approfondie et rigoureuse.

Laissez-le rédiger un rapport de recherche sur les sociétés de cloud computing au sein du Conseil de l'innovation scientifique et technologique et voyez quels sont les résultats.

Tout comme le guide de voyage précédent, le « processus de réflexion » méditatif d’AutoGLM ne pose aucun problème. Comme vous pouvez le voir sur l'image ci-dessous, il :

  1. Démonté avec précision les conditions de filtrage,
  2. Nécessite clairement plusieurs cycles de recherche et d'itération,
  3. Élaboration d'un plan étape par étape,
  4. La cible de recherche approximative a été trouvée grâce à la « Recherche générale »
  5. Commencez avec des instructions étape par étape

Mais le processus d'utilisation du navigateur est vraiment un peu déroutant : l'outil AutoGLM essaie encore et encore d'ouvrir le site Web de divulgation d'informations désigné par la Commission chinoise de réglementation des valeurs mobilières (Juchao Information) et d'analyser les informations sur la page Web. Il a réussi à trouver l’outil de filtrage conditionnel de la base de données du site Web, mais il n’a souvent pas réussi à filtrer correctement. Soit la plage horaire n'a pas pu être sélectionnée correctement, soit le menu déroulant de la section correspondante est introuvable.

APPSO a observé que la durée de chaque étape de la méditation AutoGLM est généralement d'environ 3 minutes et 20 secondes. Cependant, si l'accès au site Web ne se déroule pas sans problème, le « cycle de réflexion » échouera car l'opération expire.

De plus, sur la base de l'expérience précédente d'APPSO avec AutoGLM de l'année dernière et d'autres produits d'agent GUI, lorsque les utilisateurs doivent effectuer des opérations sensibles telles que se connecter, saisir des informations de paiement et cliquer sur le bouton d'envoi, l'agent peut s'arrêter et attendre les opérations de l'utilisateur. Dans le processus d'utilisation d'AutoGLM pour réfléchir, il peut en effet attendre que l'utilisateur se connecte, mais lorsqu'il rencontre la situation de « ne pas comprendre le site Web », il n'appelle pas l'utilisateur à prendre le relais, mais attend simplement bêtement.

Dans cette tâche, après deux séries consécutives d'échecs de réflexion, la méditation AutoGLM a commencé à entrer dans un processus cyclique de repensation – le même que la réflexion précédente qui a conduit à l'échec – puis de repenser. Il a été répété cinq ou six fois, et a finalement perdu et tourné sa cible vers Zhihu.

Lorsque les étapes sont ici, la tâche est en fait considérée comme un échec, car l'instruction initiale saisie consiste à rechercher et à résumer les informations et les annonces de la société cotée. L'exactitude professionnelle des données est très importante et Zhihu n'est pas une plateforme fiable de divulgation d'informations pour les sociétés cotées.

Après plusieurs tests difficiles, les résultats ont finalement été révélés : bien que trois sociétés, Huawei, Unisplendour et UCloud, soient toutes liées à l'edge computing, les codes boursiers des trois sociétés sont tous faux, sans compter que deux d'entre elles ne sont pas cotées au Conseil de l'innovation scientifique et technologique.

La capacité de « conduite autonome » de l'agent a beaucoup à voir avec les conditions routières et la position de conduite

Parmi d'autres tâches plus faciles (telles que la planification de voyages, les guides de jeu, la recherche d'informations simples, etc.), la capacité d'utilisation du navigateur de l'outil AutoGLM n'est pas un gros problème.

Cependant, l'APPSO a constaté qu'une fois que la conception visuelle du site Web actuel est relativement complexe, ou que la conception comporte certains pièges, l'outil AutoGLM peut facilement « trébucher ».

L’un des exemples les plus directs est celui des sites Web de commerce électronique. APPSO a clairement rappelé : « Allez sur Taobao ou JD.com pour acheter un t-shirt japonais épais ». AutoGLM a réfléchi et formulé un grand plan et une division claire du travail – mais il n'a même pas pu franchir la porte de la montagne de la page d'accueil de Taobao, ni même trouver le champ de recherche. Et il semble être complètement bloqué par le problème "champ de recherche impossible à trouver", et il ne regarde même pas d'autres emplacements sur la page Web – s'il avait regardé, il aurait certainement constaté que des produits associés sont déjà apparus dans les recommandations de la page d'accueil.

Concernant la situation inattendue découverte lors de ce test, Zhang Peng, PDG de Zhipu, a déclaré : « Vous ne pouvez pas compter sur la société pour la mémorisation des clics. AutoGLM est encore en phase bêta, il y a encore beaucoup de place pour l'évolution et la vitesse de mise à niveau actuelle est également très rapide (APPSO teste l'effet d'utilisation de Taobao sur la version officielle, et ce n'est plus si trébuchant).

Zhang Peng a souligné que dans le cadre du concept de modèle en tant que service ou en tant que produit (MaaS), les capacités du produit modèle lui-même devraient être aussi élevées et complètes qu'un tonneau en bois. Peut-être que les capacités visuelles de l'outil AutoGLM actuel ne sont pas aussi bonnes que celles des humains et que sa capacité à gérer des situations inattendues n'est pas suffisante. En dernière analyse, il se peut que ses capacités de généralisation ne soient pas suffisantes. Cependant, l’amélioration de ces capacités n’est pas un problème de modèle, mais un pur niveau d’ingénierie – ne vous inquiétez pas.

Au niveau de base du modèle, AutoGLM Contemplation peut également être amélioré.

Les amis qui utilisent souvent de grands produits de modèles de langage savent que plus les invites sont écrites de manière spécifique et plus les règles et les limites sont définies clairement, meilleur sera l'effet et plus il est probable qu'il génère des résultats qui répondent aux invites de l'utilisateur. Il en va de même pour les agents basés sur de grands modèles de langage.

Mais les invites ne peuvent pas être étendues à l'infini, tout comme si vous engageiez une secrétaire pour vous aider dans votre travail, vous ne devriez pas toujours expliquer clairement toutes les informations telles que « qui chercher », « où aller », « quand » et « où aller » à chaque fois, afin qu'elle puisse vous aider à préparer un repas en douceur.

Le grand modèle de langage est très puissant, mais il a aussi ses inconvénients : il n'est contraint que par des règles de texte et n'a pas la capacité de planifier de vrais problèmes pratiques, il est donc facile de rester bloqué pendant la tâche ; il lui manque un espace mémoire contextuel suffisamment long, et la tâche ne peut pas être poursuivie si elle dure trop longtemps ; l'erreur de l'étape précédente s'amplifiera progressivement avec les étapes jusqu'à ce qu'elle échoue.

AutoGLM est également un agent basé sur un grand modèle de langage. Même si de nombreux travaux ont été réalisés sur les capacités de l'agent, celui-ci reste inévitablement maudit par le grand modèle de langage. Plus votre capacité de réflexion est forte, plus il est facile de trop penser et de mal penser.

Le processus d'essai de l'APPSO montre qu'à l'exception de certains concepts absolument fondamentaux (tels que « voyage », « T-shirt », « entreprise »), il n'a pas de connaissances de niveau supérieur légèrement compliquées. Chaque fois que l'utilisateur émet une commande, il doit d'abord ouvrir le navigateur, étudier en ligne, clarifier à quoi l'utilisateur fait référence et établir une base de connaissances dans l'espace mémoire limité de cette conversation avant de passer aux étapes suivantes.

À en juger par les quelques sources d'informations sur lesquelles il est actuellement le plus performant et sur lesquelles il s'appuie, une fois que la complexité et le professionnalisme des tâches des utilisateurs « augmentent en intensité », il est vraiment un peu réticent à trouver des informations vraies, précises et précieuses dans un délai acceptable pour les utilisateurs (la limite officielle actuelle est d'environ 15 minutes au total par tâche), sans parler de donner aux utilisateurs des résultats efficaces (la moitié des tests de l'APPSO n'ont pas pu produire des résultats complets).

Mais ce n’est pas un trop gros problème.

Il existe un tel point de vue pratique qui peut être appliqué à la méditation AutoGLM :

Avec le niveau d’agent actuel, le traiter comme un « moteur principal » n’est peut-être pas suffisant. Mais ça reste un bon copilote.

Dans AutoGLM Contemplation, nous avons constaté une capacité de réflexion suffisante et une excellente capacité d'utilisation du navigateur (mais cela est en effet soumis à des facteurs objectifs). De toute évidence, Zhipu, en tant que l'un des rares acteurs dotés de la plus forte capacité de modèle parmi les entreprises non géantes chinoises actuelles, continuera certainement à s'améliorer dans ces deux capacités, et ce sera très rapide.

Depuis que APPSO a obtenu la qualification de test et qu'AutoGLM Sisi a été officiellement publié, plusieurs versions ont été mises à jour et des améliorations ont été apportées à la base de modèle et aux capacités de contrôle du navigateur.

Mais si nous voulons un agent capable de vraiment penser et faire des choses, nous avons probablement besoin d’une base d’agents plus puissante que le modèle de langage à grande échelle du paradigme actuel.

Le framework Agent de « Langage + Raisonnement + Contemplation + Action » lancé par Zhipu, bien qu'encore maladroit au niveau du produit, semble être une direction très claire et réalisable.

Il est vrai que pour les grands modèles produits dans le pays et les produits d'agent basés sur de grands modèles, cela peut être plus pratique si l'objectif actuel est de « rattraper les rivaux de la Silicon Valley ». AutoGLM est une « nouvelle espèce » qui est évidemment différente de tous les produits similaires et similaires en Chine en termes de logique de fonctionnement et d'objectif de mise en œuvre. Il se rapproche également d’Anthropic et d’OpenAI.

Pour un leader de l'innovation d'une telle envergure, qui n'est pas un géant mais est né des meilleures universités chinoises, la plupart des lacunes peuvent être tolérées, mais il est plus important de voir l'originalité et le leadership de ce qu'il fait.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo