Expérience de la première version L’IA apprend à envoyer des enveloppes rouges ! Un agent domestique contrôle les téléphones portables et les ordinateurs en une seule phrase, je vois un avenir de « liberté de pêcher »

29 novembre 2024 Hibou Gourou

En 2024, le mot-clé le plus populaire dans le cercle de l’IA n’est autre qu’Agent.

Des simples GPT d'OpenAI à l'utilisation d'ordinateurs d'Anthropic qui peuvent agir de manière autonome, en passant par la récente valorisation de 500 millions de dollars de la startup /dev/agents d'IA avec son système d'exploitation Agent, les fabricants tentent de trouver la prochaine direction claire pour l'IA.

En Chine, le mois dernier, Zhipu AI a également apporté sa propre réponse, AutoGLM.

Si vous sortez votre téléphone, ouvrez une application, cliquez sur Rechercher, saisissez des mots-clés… cela prend généralement quatre ou cinq étapes pour effectuer ces opérations, mais avec l'IA, ces opérations se résument à une seule phrase.

Aujourd'hui, Zhipu AI a également lancé une série de produits Agent couvrant plusieurs terminaux à Pékin.

Les utilisateurs n'ont qu'à saisir des instructions, et GLM peut comprendre les instructions, planifier des tâches, puis identifier les fenêtres, les graphiques, le texte, etc. dans l'interface et réaliser des opérations automatiques, tout comme entrer dans l'ère de la navigation lorsque l'IA prend le contrôle de l'équipement. .

Lors de l'Agent OpenDay, Zhang Peng, PDG de Zhipu AI, a utilisé AutoGLM pour créer des groupes en face-à-face et a envoyé des enveloppes rouges WeChat et des enveloppes rouges avec mot de passe en ligne à des centaines de participants. Si vous avez des amis qui ont reçu des enveloppes rouges, partagez votre joie dans la zone de commentaires.

AutoGLM : terminal mobile (temporairement ouvert sur Android), peut effectuer indépendamment des opérations longues de plus de 50 étapes, adaptées aux opérations complexes telles que la comparaison de prix, la navigation et les super appels.
GLM-PC : version PC (temporairement ouverte aux systèmes Mac), un outil de productivité adapté pour libérer les mains des travailleurs. Les téléphones portables peuvent également piloter les ordinateurs à distance.
AutoGLM-Web : version Web, prenant en charge la conduite autonome sur des dizaines de sites Web tels que Baidu Search, Zhihu, Github, etc.

La note de bas de page la plus frappante est probablement que du Chat à l’Act, l’IA est partout, mais l’Agent est également partout. En d’autres termes, passant de « penser » à « faire » pour nous, Agent redéfinit les appareils intelligents.

Ci-joint le lien de saut d'expérience :

AutoGLM : https://agent.aminer.cn/
GLM-PC : https://cogagent.aminer.cn/home
AutoGLM-Web : https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

Les IA des autres ne font que discuter, mais ces IA peuvent m’aider à pêcher.

L'IA m'aide à pêcher ? AutoGLM me permet de m'allonger, d'utiliser les super appels et d'acheter du café

Dans des articles précédents, nous avons vu comment AutoGLM s'empare de nos téléphones mobiles.

Envoyez des messages WeChat de manière entièrement automatique, parcourez Taobao… Les choses que nous devions faire nous-mêmes dans le passé sont désormais couvertes par AutoGLM. De plus, ce travailleur de l'IA a été mis à niveau aujourd'hui et est très bon dans ce qu'il fait.

Nous avons également expérimenté ces derniers outils d’IA à l’avance.

Notre conception de la consommation est que vous pouvez acheter des choses chères, mais vous ne pouvez pas les acheter cher.

Par exemple, il n'y a pas si longtemps, Yuval Harari, l'auteur de « Une brève histoire de l'humanité », a publié son dernier livre « Au-delà de l'Homo Sapiens ». Alors pourquoi ne pas laisser l'IA m'aider à parcourir Pinduoduo et Taobao pour voir où je peux. les trouver ? Une bonne affaire.

J'ai juste besoin de bouger la bouche, et l'IA m'aidera à courir et à me casser les jambes. Cependant, si vous regardez bien, il y a encore un léger défaut à confondre le titre du livre.

S'il est difficile de parler dans un environnement bruyant, ne vous inquiétez pas.

AutoGLM est également équipé d'un "mode silencieux", qui permet de donner des ordres en tapant, et avant d'exécuter une tâche, AutoGLM laisse également un "temps de regret" de 3 secondes à l'utilisateur, permettant d'arrêter et d'ajuster l'exécution de la tâche à tout moment.

Il y a de bonnes nouvelles pour les chasseurs d'étoiles, l'AutoGLM récemment mis à niveau peut même comprendre les enregistrements et les pointages.

Prenons l'exemple du super enregistrement d'appel de Li Xingliang. Il me suffit de saisir mes instructions dans la fenêtre flottante AutoGLM, et l'IA fera tout le processus pour moi. Je n'ai besoin que de « me présenter » lorsque je rencontre des informations sensibles. , et dites adieu aux « enregistrements manqués » en un seul clic ».

À propos, vous pouvez également définir des commandes de raccourci pour ces tâches quotidiennes et les effectuer en un seul clic.

Ne sous-estimez pas cette fonction : en tant que travailleur quotidien, le café que vous commandez régulièrement l'après-midi peut être qualifié d'« outil de survie ». Vous n'avez pas besoin de le configurer à plusieurs reprises chaque jour. Vous devez conserver les instructions pour commander du café, ce qui vous permet d'économiser beaucoup d'efforts.

Choisissez le mode décontracté et laissez l'IA prendre toutes les décisions à votre place, en ouvrant la boîte à café aveugle. Cependant, lorsqu'il s'agit d'opérations importantes telles que l'envoi, la passation de commandes et le paiement, AutoGLM vous rendra activement le choix.

La collaboration entre applications est un point fort de cette mise à niveau.

L'IA d'Apple nous a montré l'importance de l'IA au niveau du système pour franchir le mur des applications, et maintenant avec l'aide d'AutoGLM, nous pouvons également obtenir des effets similaires. Par exemple, j'ai demandé à l'IA de rechercher un didacticiel sur l'ail. chou à Xiaohongshu, et cela a réussi.

La nouvelle fonction de navigation AI est également très utile. Vous voulez aller à la Tour de Canton ? Parlez simplement à AutoGLM doucement et l’IA s’en occupera clairement pour vous.

Malheureusement, AutoGLM ne prend en charge que les systèmes Android.

Cependant, Zhipu libérera également désormais le quota de tests internes des utilisateurs d'AutoGLM et optimisera davantage les fonctions et l'expérience utilisateur. Il devrait être lancé dès que possible et devenir un produit véritablement ouvert à la majorité des utilisateurs finaux C. .

Le plug-in AutoGLM-Web de Zhipu Qingyan lance également désormais la fonction AutoGLM.

Il est rapporté qu'AutoGLM-Web prend en charge la conduite autonome sur des dizaines de sites Web tels que Baidu Search, Weibo, Zhihu et Github.

Dans la démo officielle, AutoGLM-Web effectue automatiquement « la recherche de Mango TV sur Baidu, ouvre Goodbye Lover, lit le dernier épisode et publie des commentaires ». Il n’y a aucune intervention de l’utilisateur tout au long du processus.

▲description de l'image Photo de : xxx

Des téléphones mobiles aux ordinateurs, laissez l’IA travailler pour moi

Par rapport à AutoGLM, GLM-PC offre une expérience plus fonctionnelle pour les scénarios de travail côté ordinateur.

GLM-PC est actuellement conçu pour les ordinateurs Mac équipés de puces de la série M, les appareils des séries M1 et M3 étant les plus recommandés. Entrez l'action que vous souhaitez effectuer dans la boîte de dialogue, et GLM-PC évaluera l'outil et décidera d'un plan d'action.

Bien entendu, lorsqu'il rencontre des opérations sensibles, GLM-PC se mettra automatiquement en pause et attendra les opérations ou la confirmation de l'utilisateur.

Vous voulez connaître le contenu populaire sur Station B ? GLM-PC vous aidera à trouver le premier « pinceau indispensable lors de l'accès au site Web » en l'utilisant trois fois, cinq fois et deux fois, et vous fera gagner beaucoup de temps à pagayer sans but.

Vous voulez demander un rendez-vous à Zhang San ? Laissez la question de l’envoi de messages WeChat à l’IA. Même lorsque la page est bloquée, elle peut être positionnée avec précision dans le champ de recherche WeChat.

Il peut également vous aider à réserver des réunions Tencent et à envoyer des invitations à des réunions aux participants. Il est recommandé qu'une fois le travail terminé, collectez cet ensemble de « astuces d'opération » pour améliorer l'efficacité du travail grâce au flux de travail.

En tant qu'éditeur, ma fonction préférée est de la laisser m'aider à trier les actualités sur l'IA à l'étranger. Après avoir donné la commande, l'IA ouvrira le navigateur, saisira l'URL et obtiendra un résumé clair de l'actualité.

À propos, si vous êtes un nouveau venu qui vient de passer du système Win au système Mac, vous serez quelque peu confus en raison des changements apportés au système.

Désormais, GLM-PC est votre « paille de sauvetage ». Qu'il s'agisse de régler le mode d'affichage ou d'autres paramètres, laissez-lui toutes vos demandes. Laissez les choses gênantes à l’IA et gardez le bonheur pour vous. C’est la bonne façon de gagner dans la vie.

GLM-PC dispose également d'une fonction que l'on peut appeler la « bombe royale ».

Activez d'abord le « mode suspension » dans les paramètres du GLM-PC, puis connectez-vous à « https://cogagent.aminer.cn/m » via le code de vérification sur votre téléphone mobile. Votre téléphone mobile peut même contrôler l'ordinateur à distance. .

Plus précisément, vous pouvez envoyer des messages de commande à GLM-PC à distance et laisser GLM-PC effectuer des opérations informatiques. Chaque fois que GLM-PC effectue une étape, il renverra une capture d'écran de l'opération. S'il y a une opération sensible, il attendra la confirmation de l'utilisateur avant d'opérer.

Au cours de la démonstration sur place, Zhang Peng a également donné des instructions à l'agent de cogage via la page Web GLM-PC sur son téléphone portable et a réussi à envoyer des fichiers via WeChat sur l'ordinateur.

En fait, lorsque l’IA commence à vraiment « fonctionner » au lieu de simplement « parler », cela signifie également que les applications d’IA sont entrées dans une phase pragmatique « terre-à-terre ». On peut dire que lorsque l’IA commencera réellement à résoudre les tâches quotidiennes, elle passera du statut de jouet à celui de véritable outil de productivité.

C’est peut-être à cela que devrait ressembler la technologie de l’IA.

Temps d'utilisation du téléphone

Au cours des deux derniers mois, l'industrie de la téléphonie mobile a lancé un certain nombre de nouveaux produits de manière intensive. Il existe une tendance à laquelle il convient de prêter attention. Bien que les téléphones mobiles dotés d'IA ne soient pas encore largement reconnus par les consommateurs, l'IA au niveau du système est devenue le point culminant. OS de divers fabricants. En fait, c'est aussi une tendance. C'est un précurseur de la popularisation d'Agent.

Qu'il s'agisse du Blue Heart V de vivo et du « Phone GPT » qui peuvent être utilisés pour la commande d'IA lors de la conférence de presse, du Xiaoyi et Intent Framework de Huawei Hongmeng, ou de l'agent intelligent YOYO de Honor, ils sont tous essentiellement identiques à l'agent publié par Zhipu aujourd'hui :

Laissez l’IA imiter le cycle humain Planifier-Faire-Vérifier-Agir (Planifier-Faire-Vérifier-Agir) pour faire fonctionner l’équipement comme les humains.

Comme Zhang Peng, PDG de Zhipu AI, l'a mentionné lors de la conférence de presse d'aujourd'hui, les capacités actuelles de l'agent ressemblent davantage à l'ajout d'une couche de planification intelligente entre les utilisateurs et les applications pour relier toutes les applications et même tous les appareils.

Cela peut être considéré comme un prototype du grand modèle de système d'exploitation général LLM-OS. Zhipu appelle également cet ensemble d'interactions d'agents la construction de GLM-OS, qui aura un grand impact sur la forme de l'interaction homme-machine.

Andrej Karpathy, membre fondateur d'OpenAI et gourou de la technologie de l'IA, a également parlé à plusieurs reprises du système d'exploitation à grand modèle de langage (LLM OS). Il estime que le grand modèle est dans une certaine mesure un nouvel ordinateur et un nouveau système d'exploitation, qui peut connecter divers logiciels et matériels. , ainsi que les périphériques composés de toutes les informations modales, effectuent diverses tâches via des appels de fonction.

Dans un système d'exploitation traditionnel, vous devez créer un ensemble de périphériques autour du processeur, tels qu'une souris et un clavier, un stockage sur disque et un espace cache.
Dans LLM OS, le grand modèle lui-même est l'unité centrale de traitement. Les périphériques d'E/S ne sont plus une souris et un clavier, car LLM peut être compatible avec davantage de modes d'entrée et de sortie de données. Dans le même temps, les outils externes appelés par les grands modèles passeront également des logiciels traditionnels aux outils d'agents intelligents.

Parmi eux, le fonctionnement inter-applications est un lien très critique, ce qui signifie que l'Agent peut réaliser des opérations autonomes et cohérentes plus complexes, et peut également évoluer vers une véritable commercialisation.

En début d'année, nous estimions que le grand modèle deviendrait le nouveau système d'exploitation pour smartphones, et que l'interface utilisateur naturelle (NUI) remplacerait progressivement l'interface utilisateur graphique (GUI) existante.

Quant à savoir si les services fournis par diverses sociétés Internet peuvent être connectés, cela pourrait être le plus grand obstacle à la réalisation de ce type d'interaction à l'avenir. Mais qu’il s’agisse d’un smartphone ou d’une application, il s’agira finalement d’un produit échelonné dans l’histoire du développement humain.

L'interaction actuelle des agents n'en est qu'à ses débuts. Dans le contexte de Scaling Law rencontrant des goulots d'étranglement dans l'industrie, comment l'agent peut-il devenir un véritable outil de productivité et prendre en charge une plus grande proportion de décisions de travail ?

Liu Xiao, directeur technique d'AutoGLM, a déclaré dans une interview avec APPSO que la pré-formation se poursuivrait certainement, mais qu'il y aurait un nouvel ensemble de logique pour la formation des algorithmes et des données.

Le PDG de Zhipu AI, Zhang Peng, a également déclaré à l'APPSO que l'équipe était relativement optimiste quant à l'espace des lois de mise à l'échelle et espérait explorer davantage de possibilités dans le nouveau paradigme et l'écosystème.

Cette année, de nombreux constructeurs ont invariablement utilisé la conduite autonome pour décrire l'intelligence des terminaux d'IA. OpenAI divise également l'IA en cinq niveaux : L1-L5.

Différent d'OpenAI, Zhipu définit les cinq étapes du développement d'un grand modèle comme suit : capacité linguistique L1, capacité logique L2 (capacité multimodale), capacité L3 à utiliser des outils, capacité d'auto-apprentissage L4 et exploration des lois scientifiques L5.

Zhang Peng estime que les grands modèles possédaient initialement une partie de la capacité des humains à interagir avec le monde physique réel. "L'agent améliorera considérablement la capacité de L3 à utiliser les outils, tout en ouvrant la voie à l'exploration de la capacité d'auto-apprentissage de L4."

De l'utilisation du téléphone à l'utilisation de l'ordinateur, en passant par la voiture et l'utilisation de tous les appareils, la capacité de réflexion des grands modèles et l'interaction des agents affectent progressivement la façon dont nous utilisons les appareils intelligents.

Laisser l'IA envoyer des messages et des likes sur WeChat semble avoir une signification pratique limitée à l'heure actuelle, mais tout comme AlphaGo, peu importe à quel point elle est bonne aux échecs, cela n'aura pas beaucoup d'impact sur la société. AlphaFold de Google DeepMind peut prédire la structure de presque toutes les protéines. aider au traitement et à la recherche d’un grand nombre de maladies.

Le changement de paradigme derrière tout cela est le levier qui exploite le renouvellement du mode de vie humain. L'agent permet au grand modèle de passer du chat à l'acte, et la forme de ce qu'on appelle le terminal IA émerge progressivement, plutôt qu'un simple changement de nom.

Auteur : Li Chaofan, Mo Chongyu

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo