Il a été révélé qu’OpenAI a publié une fonction d’agent majeure cette semaine et Byte a annoncé le lancement du plan AGI. Cela pourrait être l’année la plus excitante pour l’IA.
La version ChatGPT de « Jarvis » arrive vraiment.
En décembre de l'année dernière, Sam Altman, PDG d'OpenAI, a publié une enquête intéressante parmi les avancées technologiques que les internautes attendent le plus avec impatience en 2025, l'AGI arrive en tête de liste, suivie par les agents intelligents. Aujourd’hui, cette attente semble se réaliser en partie.
Désormais, selon le média étranger The Information, citant des personnes proches du dossier, OpenAI se prépare à lancer cette semaine une nouvelle fonctionnalité ChatGPT appelée Operator, qui peut effectuer automatiquement des tâches complexes telles que faire des réservations de restaurant ou planifier un voyage dans un navigateur Web.
La conception fonctionnelle de l'opérateur est très conviviale. Plus précisément, elle offre aux utilisateurs une variété de catégories de tâches telles que les repas et les activités, la livraison, les achats et les voyages, chaque catégorie étant équipée de suggestions correspondantes.
Lorsque l'utilisateur saisit les exigences, une petite fenêtre de navigateur apparaîtra sur l'interface de discussion pour afficher le processus de fonctionnement de l'agent opérateur en temps réel. Lors de l'exécution d'une tâche, il demandera les détails nécessaires, tels que l'heure précise et le nombre de personnes effectuant une réservation au restaurant.
Il convient de mentionner que les utilisateurs peuvent non seulement contrôler manuellement cette interface, mais également enregistrer des tâches et les partager avec d'autres. Bien qu'Operator ne prenne actuellement pas en charge les opérations Gmail, les utilisateurs peuvent se connecter à d'autres sites Web et l'état de connexion sera conservé sur plusieurs sessions.
Cependant, il a été signalé précédemment que le contenu des captures d'écran utilisées par l'opérateur lors de l'exécution de tâches pouvait être utilisé de manière malveillante, conduisant à des « attaques par injection rapide », posant de sérieux risques de sécurité.
Par conséquent, même s'il est officiellement annoncé cette semaine, il se peut qu'il ne soit pas lancé immédiatement. J'espère que ce ne sera pas un autre « à terme ». OpenAI n'a pas encore répondu à une demande de commentaire.
En fait, ce type de fonction d’IA capable de contrôler l’équipement des utilisateurs et d’aider à réaliser des opérations complexes devient la prochaine tendance que poursuivent les entreprises d’IA nationales et étrangères.
En octobre dernier, Anthropic a publié une fonctionnalité d'exploitation informatique appelée « Utilisation de l'ordinateur ».
Cette fonctionnalité permet aux développeurs de guider Claude via une API pour faire fonctionner l'ordinateur comme un humain, notamment en regardant l'écran, en déplaçant le curseur, en cliquant sur des boutons et en saisissant du texte. Il s’agit d’une étape importante dans la capacité de l’IA à simuler l’interaction homme-machine.
À peine deux mois plus tard, Google a également lancé un projet appelé Project Mariner, développé par Google DeepMind et basé sur le modèle Gemini 2.0, qui permet d'effectuer des tâches pour les utilisateurs du navigateur Google Chrome.
Déplaçant ses horizons vers la Chine, Zhipu a également publié une version Web de sa fonction de conduite autonome appelée AutoGLM-Web.
Grâce au plug-in Zhipu Qingyan, les utilisateurs peuvent laisser l'IA récupérer, générer automatiquement du contenu et interagir sur plusieurs plates-formes telles que Baidu, Weibo, Zhihu, Github, etc., et même prendre en charge les opérations intersites, offrant aux utilisateurs un "entièrement automatique". expérience en ligne.
Dans la feuille de route AGI à cinq niveaux d'OpenAI, l'agent se situe au niveau L3, qui se caractérise non seulement par la réflexion, mais également par l'action au nom de l'utilisateur et par l'exécution de tâches complexes.
Les initiés de l'industrie pensent que les agents intelligents sont le seul moyen d'atteindre l'intelligence artificielle générale (AGI). En créant des agents intelligents capables de prendre des décisions et d'effectuer des tâches de manière autonome, nous pouvons progressivement atteindre une intelligence générale plus proche des niveaux humains.
Dans cette course à l’AGI, les entreprises technologiques chinoises accélèrent également leur implantation.
Le 23 janvier, APPSO a appris que l'équipe des grands modèles de Byte Beanbao avait créé une équipe de recherche interne à long terme sur l'AGI, nommée « Seed Edge », pour encourager les membres du projet à explorer des sujets de recherche AGI à plus long terme, incertains et audacieux.
Un initié proche de Byte a révélé que l'objectif de Seed Edge est d'explorer de nouvelles méthodes d'AGI. Seed, le nom de code est le nom de l'équipe de grands modèles Beanbao, tandis qu'Edge représente l'exploration AGI la plus avancée.
Actuellement, Seed Edge a initialement identifié cinq orientations de recherche majeures, notamment :
- Explorez les limites de la capacité de raisonnement
- Explorez les limites de la perception
- Explorez la conception de modèles de nouvelle génération qui intègrent le matériel et les logiciels
- Explorez les paradigmes d'apprentissage de l'IA de nouvelle génération
- Explorez la prochaine direction de mise à l'échelle
De plus, selon les informations obtenues ultérieurement auprès de Byte, le fondateur de Byte, Zhang Yiming, attache une grande importance et met l'accent sur l'augmentation des investissements dans la recherche sur l'IA. Il étudie non seulement personnellement les articles et prête attention aux détails techniques, mais communique également étroitement avec les meilleurs chercheurs et chercheurs en IA. encourage l'équipe de recherche sur l'IA de Byte à explorer et à rechercher des sujets fondamentaux.
À Singapour, il a même formé une équipe de recherche dédiée, comprenant Feng Jiashi, ancien professeur à l’Université nationale de Singapour et actuel chercheur chez Byte, qui lui sert de conseiller technique depuis 2023.
Parmi les géants chinois de la technologie, Byte devrait être celui qui dispose d'une grande quantité de ressources et le plus rapide à agir, et a le potentiel d'être All in AI. Dans cette course à l’AGI, le vainqueur n’est peut-être pas encore connu, mais les changements ont tranquillement commencé.
# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo