GPT-4o joue « Black Myth Wukong » ! L’IA « Ma Men » peut contrôler le Boss, avec un taux de victoire surhumain

30 septembre 2024 Hibou Gourou

Le jeu « Black Myth : Wukong » n'est-il qu'un monstre ?

J'avoue que lorsque mon ami m'a interrogé ainsi, à ce moment-là, j'ai brisé ma garde.

Il ne m'a fallu que moins d'une demi-journée entre la réalisation que Yang Jian devait être capturé jusqu'à la mort de Tiger Vanguard, si nous voulons effacer "Black Myth", pouvons-nous compter sur l'IA ?

Roulez et esquivez, gardez la distance et ayez une vision claire des mouvements du monstre.

Le moment venu, l’homme du destin balança soudain son lourd bâton.

Avec l'aide de la puissance de l'IA, une série de combos soyeux a été réalisée et le boss a été vaincu sans pouvoir riposter. Je ne sais pas combien de joueurs pleurent.

L'équipe de recherche d'Alibaba a récemment proposé un cadre d'agent VARP. Et ce "cheval" IA a été fabriqué par eux.

On peut dire que ce n'est pas un plug-in, mais c'est mieux qu'un plug-in.

Les GPT qui ont affronté le Grand Sage n’étaient en réalité pas pires que les humains.

L’IA face au Grand Sage n’est en réalité pas si compliquée.

Traditionnellement, l’IA des jeux s’appuie sur les API des jeux pour obtenir des informations environnementales et des données d’action exécutables. Mais le problème est que tous les jeux ne sont pas disposés à fournir une API ouverte, ou même si elle est fournie, certaines API manquent de bras et de jambes, ce qui rend difficile la satisfaction des besoins réels.

De plus, les méthodes traditionnelles donnent toujours l’impression qu’il manque quelque chose et ne peuvent pas simuler pleinement l’expérience de jeu réelle des joueurs humains.

Sur cette base, l’équipe de recherche d’Alibaba a proposé un nouveau cadre d’agent VARP (Vision Action Role-Playing).

Après avoir reçu des captures d'écran du jeu, le framework d'agent VARP effectue une inférence à l'aide d'un ensemble de VLM et génère enfin du code sous forme Python pour contrôler le personnage du jeu, y compris une combinaison d'une série de commandes atomiques, telles qu'une attaque légère, un évitement, une attaque lourde. , et la récupération de la santé attend.

VARP contient trois bases de connaissances : la base de situation, la base d'action et la base de guidage humain, ainsi que deux systèmes : le système de planification d'action et le système de trajectoire de guidage humain.

En termes simples, le système de planification d'actions est équivalent à un bibliothécaire, chargé de trouver les matériaux les plus appropriés dans la bibliothèque de situations et dans la bibliothèque d'actions actualisable.

Sur la base des captures d'écran du jeu, le système sélectionne ou génère des actions adaptées à la situation actuelle, puis ces actions et situations sont stockées ou mises à jour dans ces deux bibliothèques.

Le système de trajectoire guidé par l'homme utilise des ensembles de données d'opération humaine pour améliorer les performances du VARP dans des tâches complexes, telles que des tâches d'orientation et des tâches de combat difficiles.

Dans la bibliothèque d'actions, "def new_func_a()" représente une nouvelle action générée par le système de planification d'action, et "def new_func_h()" représente une nouvelle action générée par le système de trajectoire guidé par l'homme. "def pre_func()" représente une action prédéfinie.

Dans le jeu "Black Myth Wukong" mentionné ci-dessus, l'équipe de recherche a défini 12 tâches, dont 75 % impliquaient des combats, et a effectué des tests de référence à l'aide de VLM, notamment GPT-4o, Claude 3.5 Sonnet et Gemini 1.5 pro.

Les résultats montrent que VARP a un taux de victoire allant jusqu'à 90 % dans les tâches de base et les batailles de difficulté simple à moyenne. Cependant, face à des tâches difficiles, les performances de VARP chutent facilement et son niveau global n'est toujours pas aussi bon que celui des joueurs humains.

De plus, lorsque l'agent VARP traite les décisions dans le jeu, il ne peut pas analyser chaque image du jeu (c'est-à-dire l'écran de jeu) en temps réel car il s'appuie sur la vitesse d'inférence du modèle de langage visuel (VLM).

En d’autres termes, il ne peut pas réagir presque instantanément à tout ce qui se passe à l’écran comme le ferait un joueur humain. Au lieu de cela, il ne peut traiter les images du jeu qu'après quelques secondes, en sélectionnant certaines images importantes (images clés) pour l'analyse et la prise de décision.

Lorsque "Black Myth: Wukong" a été lancé, il a été critiqué pour ne pas avoir une carte claire et un grand nombre de "murs d'air". Par conséquent, sans l'aide des chercheurs, l'IA serait comme une mouche sans tête incapable de trouver. le patron.

L’IA générative a allumé le feu du changement mondial, et avant qu’elle n’entre dans la conscience publique, le lien plus intuitif des gens ordinaires avec l’IA pourrait provenir principalement des jeux.

L’IA est bien plus importante dans l’histoire du jeu vidéo qu’on ne le pensait

Beaucoup de gens n’auraient peut-être pas pensé que l’un des premiers jeux à monter dans le train de l’IA serait le jeu d’arcade classique « Pac-Man ».

La condition préalable à la victoire du joueur est de manger tous les haricots dans le labyrinthe, et les fantômes colorés apparemment idiots ont des algorithmes de poursuite différents, et ils poursuivront le joueur de différentes manières.

Les mouvements de l'algorithme de chaque fantôme sont extrêmement simples et manquent de toute capacité d'apprentissage. Une fois que le joueur comprend ces règles, la difficulté du jeu chutera.

"Metal Gear Solid", lancé en 1987, a marqué une autre étape importante dans l'IA des jeux vidéo.

Les personnages IA du jeu ont commencé à présenter des modèles de comportement plus complexes et, pour la première fois, un mécanisme de réponse hostile envers les joueurs a été introduit. Dans ce jeu, si le joueur est découvert par l'ennemi, celui-ci déclenchera le système d'alarme, appellera des renforts, modifiera les itinéraires de patrouille et même posera des pièges.

Plus tard, si le processus de développement de l’IA et des jeux est brièvement répertorié dans une série d’événements marquants, il se présente à peu près comme suit :

En 1997, "Deep Blue" d'IBM a vaincu le champion du monde humain dans un match d'échecs, marquant une avancée majeure pour l'IA dans les jeux d'échecs.
En 2004, "Half-Life 2" est sorti. Les personnages IA du jeu étaient capables de prendre des décisions et des interactions plus complexes, améliorant ainsi l'immersion du jeu.
En 2011, « Watson » d'IBM a vaincu le champion humain dans le jeu-questionnaire « Jeopardy ! » démontrant les progrès de l'IA dans le traitement du langage naturel et le raisonnement des connaissances.
En 2016, AlphaGo a battu Lee Sedol dans le jeu de Go, marquant une avancée majeure pour l'IA dans les jeux de stratégie complexes.
En 2018, "Red Dead Redemption 2" est sorti. Le niveau d'interaction entre les personnages IA du jeu et l'environnement a été considérablement amélioré, offrant une expérience de jeu très réaliste.
En 2020, NVIDIA a lancé la technologie DLSS, qui utilise l'IA pour accélérer le rendu graphique et améliorer les performances des jeux et la qualité de l'image.

En regardant l'environnement de jeu actuel, le jeu se concentre toujours sur la camaraderie, et l'IA est comme un amplificateur, amplifiant cette camaraderie d'innombrables fois.

Lors du salon CES de cette année, Nvidia a utilisé Avatar Cloud Engine (ACE) pour rendre les PNJ de jeu « vivants » et est devenu populaire dans l'industrie.

Dans une démo appelée Kairos, les joueurs ont pu interagir avec Jin, propriétaire d'un magasin de ramen. Bien que Jin ne soit qu’un PNJ, il répond aux questions comme une vraie personne avec l’aide de l’IA générative.

La combinaison de l’IA et des jeux vidéo a toujours été une combinaison amour-haine.

Prenons l'exemple des jeux compétitifs. Dans le passé, la méthode consistait simplement à ajuster la difficulté de manière rigide, mais il s'agit désormais d'imiter les opérations humaines pour rendre l'expérience de jeu plus réaliste.

Les partisans pensent que lorsque l’IA simulant des humains devient un adversaire ou un coéquipier, elle peut à son tour améliorer le sentiment de compétition du jeu en raison du manque de vrais joueurs.

C'est aussi l'inconvénient. Le taux de rétention des joueurs a été amélioré, mais sous le contrôle du système, les joueurs ne peuvent pas échapper au vortex de manipulation par l'IA.

Au début, il y avait des paroles audacieuses, au milieu, il y avait des absurdités, et plus tard, il y avait le silence.

Lorsque nous restons éveillés toute la nuit juste pour gagner un autre jeu, il est difficile de dire si nous jouons au jeu ou si le jeu nous joue. Surtout lorsque vous réalisez que vos coéquipiers peuvent être des IA, le sentiment d'impuissance est comme un coup de poing frappant du coton.

Mon cœur était mou et je n’avais aucune concentration.

Vieux prophète Huang ! Les futurs jeux seront-ils générés par l’IA ?

Même un novice en codage peut utiliser l’IA pour jouer à des jeux.

Il y a quelques années, cela aurait probablement été quelque chose qui ne pouvait être imaginé que dans des rêves, mais l’arrivée de l’IA générative a donné à tout cela une réelle marge de mise en œuvre.

À plus petite échelle, c'est comme créer un GPT et jouer à la narration. À plus grande échelle, c'est un petit jeu de programme généré avec l'aide de l'IA. Bien que l'interactivité ne soit pas si intéressante, elle vaut mieux que les graphismes magnifiques et riches.

En allant encore plus loin, même les jeux de niveau chef-d'œuvre 3A pourraient être générés directement via le rendu de l'IA à l'avenir.

L'année dernière, le fondateur de Nvidia, Jensen Huang, avait prédit que chaque pixel des futurs jeux serait généré plutôt que rendu. Lorsque cela a été dit à l'époque, tout le monde était peut-être encore hésitant, mais aujourd'hui, de plus en plus de résultats de recherche ont trouvé la possibilité d'une telle mise en œuvre.

En règle générale, la création d'un environnement pour un petit jeu peut prendre une semaine et plus pour un projet de studio, en fonction de la complexité de la conception.

Le mois dernier, Google DeepMind a annoncé son premier « moteur de jeu IA » GameNGen.

Il peut simuler le jeu de tir classique « Doom » en temps réel à une vitesse de plus de 20 images par seconde sur une seule puce TPU. Il fonctionne en utilisant un modèle de diffusion pour prédire chaque image en temps réel, ce qui signifie que chaque instant du jeu est généré en temps réel en fonction des interactions complexes des actions du joueur et de l'environnement.

À cette époque, Jim Fan, scientifique principal de NVIDIA, ne pouvait s'empêcher de soupirer que "Doom", qui était sauvagement géré par des pirates informatiques à divers endroits, était en fait implémenté dans un modèle de diffusion pure et que chaque pixel était généré.

Plus tard, des résultats plus similaires apparaissent.

Il n'y a pas si longtemps, Tencent a également fait un grand pas en avant et a lancé un grand modèle spécifiquement pour les jeux AAA en monde ouvert : GameGen-O.

GameGen-O n'est pas simple. Il peut simuler des personnages, des environnements dynamiques et des actions complexes dans divers jeux AAA, tels que « The Witcher 3 », « Cyberpunk 2077 », « Assassin's Creed » et « Black Myth : Wukong », pour générer La qualité des scènes de jeu est également très élevée.

Afin de constituer l'ensemble de données, Tencent, qui a dépensé beaucoup d'argent, a collecté plus de 32 000 vidéos de jeux, chaque vidéo ne durait que quelques minutes ou quelques heures, puis a sélectionné 15 000 vidéos disponibles via des données manuelles. annotation.

Ces vidéos organisées sont découpées en segments grâce à la détection de scène, puis rigoureusement triées et filtrées en fonction de l'esthétique, de l'analyse du flux optique et du contenu sémantique.

Electronic Arts, un développeur de jeux américain, a récemment montré à l'industrie un brillant avenir pour l'IA dans le développement de jeux à travers une vidéo « De l'imagination à la création ».

Dans la vidéo, les joueurs peuvent utiliser des outils d'IA pour créer des scènes de jeu, des personnages et d'autres contenus avec des instructions simples.

Le PDG Andrew Wilson a déclaré que l'IA générative pourrait améliorer plus de la moitié des processus de développement de l'entreprise à l'avenir et qu'elle devrait permettre de concevoir et de créer des mondes de jeu plus grands et plus immersifs d'ici trois à cinq ans.

L’IA peut non seulement améliorer l’efficacité du développement des jeux existants, mais aussi potentiellement créer de nouvelles expériences de jeu.

Peut-être direz-vous que quelle que soit la technologie avancée utilisée dans le jeu, en dernière analyse, le plaisir est roi.

Mais avec GTA 6 retardé à plusieurs reprises et sans aucune trace, nous pourrions aussi avoir l'idée de le faire nous-mêmes et d'avoir suffisamment de nourriture et de vêtements.

Après tout, ce serait plutôt bien si je pouvais personnellement créer une « Sin City » à l’avenir.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo