Le père de la technologie controversée de jeu d’IA de Nvidia veut remettre les pendules à l’heure

Un personnage généré par Ai parle à un autre dans une démo technologique Convai.

Plus tôt ce mois-ci, j'ai été témoin d'un miracle numérique. Lors d'une conférence de presse avant le CES , Nvidia a présenté une démo de son microservice Ace , une suite d'IA capable de générer des personnages d'IA entièrement exprimés. J'ai regardé avec admiration un démoiste parler à un PNJ du jeu via un microphone, seulement pour que le personnage numérique réponde en temps réel. C’était un véritable exploit de science-fiction, mais une question se posait : comment a-t-il appris à faire cela ?

Nvidia a donné une réponse ambiguë, affirmant qu'il n'y avait « pas de réponse simple ». Cette déclaration a déclenché une tempête, les utilisateurs des réseaux sociaux pensant au pire. Des spéculations ont surgi selon lesquelles Ace aurait été formé sur du contenu sur lequel Nvidia n'avait pas les droits. Nvidia a affirmé plus tard qu'il utilisait uniquement les données pour lesquelles il était autorisé à utiliser , mais les tensions étaient toujours vives. Une montagne de préoccupations éthiques et artistiques a laissé les joueurs sceptiques.

Parmi les spectateurs qui regardaient tout se dérouler depuis les coulisses se trouvait Purnendu Mukherjee. L'ingénieur logiciel n'était pas un autre visage dans la foule ; il a créé la technologie de l'IA au centre d'un débat qu'il n'a pas lancé. Mukherjee est le fondateur de Convai , la société d'IA générative qui alimente Nvidia Ace. Plutôt que de rester les bras croisés et de regarder quelqu’un d’autre essayer d’expliquer son outil, il était impatient de remettre les pendules à l’heure.

S'adressant à Digital Trends, Mukherjee s'est assis pour répondre à certaines préoccupations éthiques dans une vaste interview sur les outils d'IA comme le sien. Il a fait part de ses réflexions sur tout, depuis les craintes du chômage jusqu’aux craintes que l’IA ne prive l’humanité de l’art. Pour Mukherjee, c'est loin d'être la vérité. Le fondateur de Convai voit un avenir optimiste dans lequel les artistes travailleront main dans la main avec l’IA pour réaliser pleinement leurs visions créatives. Mais lorsqu’il s’agit du sujet brûlant de l’utilisation des données, son explication pourrait soulever plus de questions que de réponses.

L’IA et les artistes peuvent-ils cohabiter ?

Enfant, Mukherjee a toujours été curieux de connaître l'esprit humain et son fonctionnement. Il a commencé à se renseigner sur l’IA au lycée, mais a été rebuté par les systèmes basés sur des règles plus rigides de l’époque. Son intérêt a été éveillé bien plus tard, en 2015, lorsqu'il a étudié l'apprentissage profond dans un laboratoire en Inde. Après avoir déménagé aux États-Unis, fait des études supérieures et travaillé chez Nvidia pendant un certain temps, Mukherjee s'est finalement séparé pour fonder Convai en avril 2022. Il a démarré l'entreprise pendant 10 mois de sa poche.

Mukherjee est un joueur dans l'âme. Il a grandi en jouant à des titres compétitifs comme Counter-Strike dans un cybercafé local. C'est là qu'il commence à imaginer comment l'IA pourrait améliorer les jeux, en plaisantant sur les robots en état de mort cérébrale du tireur. Cette idée s’est maintenant transformée en une innovation technologique réussie qui utilise plusieurs processus d’IA pour générer des PNJ entièrement vocaux capables de répondre aux invites en temps réel des joueurs. Son objectif? Pour rendre les jeux plus attrayants. Le fondateur de Convai, Purnendu Mukherjee, se dresse contre un horizon.

"Prenez Baldur's Gate 3 ou The Witcher ", explique Mukherjee à Digital Trends. «Ils ont des histoires tellement incroyables. Des histoires écrites avec tant d’amour et de passion. Mais vous, en tant que joueur, ne pouvez pas aller au fond des choses car il n'y a que quelques lignes narratives que vous pouvez explorer à partir des PNJ. Compte tenu de la technologie disponible aujourd'hui, ces PNJ pourraient avoir leur propre vie et interagir avec vous tout en restant dans le personnage et vous donner plus d'informations si vous souhaitez approfondir l'esprit du concepteur narratif.

Cette déclaration donne le coup d’envoi d’une longue interview au cours de laquelle Mukherjee réfute une série de préoccupations interconnectées concernant l’IA. Lorsque j'ai demandé si Baldur's Gate 3 serait le jeu bien-aimé qu'il est sans son écriture intentionnelle, nous nous sommes plongés dans un terrier de lapin pour découvrir la relation entre les machines et les artistes. Il est clairement arrivé à la conversation préparé comme s'il avait passé une semaine à étudier les publications sceptiques sur les réseaux sociaux. Il souligne rapidement que l’IA ne remplace pas les artistes ; il en a besoin.

«Je vois seulement les designers narratifs avec plus de demandes, pas moins», explique-t-il en expliquant comment l'IA pourrait créer plus d'emplois pour les artistes. « Les scénaristes n'écrivent pas seulement pour créer une trame de fond et un récit. Ils écrivent également à des fins de test. La façon dont vous vous sentez en confiance pour expédier un PNJ basé sur l’IA générative dans votre jeu de plusieurs millions de dollars est que vous avez besoin d’un ensemble de tests robuste. Vous avez besoin de centaines, voire de milliers, d'interactions aller-retour, idéalement venant du même écrivain narratif… Si vous essayez notre plateforme, cela vous oblige à écrire une trame de fond et à télécharger un tas de documents écrits de l'écrivain lui-même, qui c'est écrire l'esprit du personnage. Cela nécessite effectivement dix fois plus d’écriture que ce qui se fait aujourd’hui.

Cette ligne de pensée devient un fil conducteur dans notre conversation. Mukherjee souligne souvent qu’il pense que les outils d’IA générative nécessiteront autant, sinon plus, d’artistes pour former correctement la technologie. À un moment donné, il postule qu'une bonne IA améliorera les jeux, ce qui, à son tour, entraînera une augmentation des ventes, convainquant les studios de rémunérer davantage les doubleurs, car leur travail de formation à ces outils est essentiel à la création de jeux de haute qualité avec les prochains jeux. engagement de niveau. C'est une vision optimiste étant donné que l'industrie du jeu vidéo est actuellement au milieu d'une vague de licenciements massifs qui a laissé des milliers de personnes sans emploi.

Mukherjee n’est pas aveugle à cette réalité et ne nie pas non plus qu’une montée en puissance de l’IA générative pourrait avoir un impact sur l’emploi. Il décrit cela comme un changement plutôt naturel qui n’est pas si différent de tout ce que nous avons vu dans les avancées technologiques précédentes comme celle-ci. Les gens devront s’adapter et apprendre à travailler avec l’IA pour créer leur œuvre.

Je creuse plus loin. Il parle de l'impact de l'IA sur l'emploi, mais qu'en est-il des artistes qui créent des jeux parce qu'ils veulent créer du contenu intentionnel et artisanal ? Ce n’est sûrement pas aussi simple que de dire aux artistes de devenir ingénieurs en IA. Mukherjee ne croit pas que ce soit la solution ; il pense plutôt qu’il s’agit plutôt de comprendre où l’art et la technologie se croisent.

"L'IA est la même chose qu'Adobe Photoshop ou Unreal Engine", explique Mukherjee. « Oui, les jeux ont été créés avant qu’Unreal Engine n’existe. Les gens le fabriquaient encore à la main. Mais ne pouvez-vous pas vous exprimer avec le meilleur de l'art dans Unreal Engine ? Tu peux. Prenez n'importe quel logiciel de montage vidéo 3D. Vous avez toujours cet art parce que vous devez toujours faire le même niveau de minutie dans les petits détails. Avec les éléments générés par l’IA, tout cela est vrai. L’aspect artisanal est toujours là. Vous disposez simplement d’un outil qui a plus de pouvoir expressif, mais vous en êtes toujours le créateur, le maître et le contrôleur.

L'échelle des données

Il est clair que Mukherjee considère l’IA comme un outil utile qui peut soutenir les artistes plutôt que de les remplacer. Au cours de notre conversation, il revient sur quelques points clés sur la façon dont l’IA a besoin des humains, abordant en profondeur les préoccupations communes. Cependant, là où les choses commencent à se compliquer, c’est lorsque le mot que les entreprises d’IA semblent redouter est évoqué : données. Alors que les créateurs affirment que les modèles d'IA formés sur leurs créations volent, certains développeurs clés d'IA affirment qu'ils ne peuvent pas former de modèles sans une saisie massive de données, y compris des œuvres protégées par le droit d'auteur. Mukherjee lance l’idée selon laquelle les gens devraient être payés lorsque leurs données sont utilisées pour former des modèles d’IA.

«Je pense qu'il faut trouver un moyen de bien rémunérer les personnes qui contribuent de manière significative aux ensembles de données», dit-il. « Qu'il s'agisse du New York Times ou de Reddit, la source doit être autorisée. Ce n'est pas une solution simple, mais c'est à mon avis ce que cela permettra. Et quelle que soit la solution la plus correctement réalisée, surtout lorsque nous l'utilisons à un niveau commercial, bien sûr, nous la choisirons.

Un diagramme sur la technologie d'IA de Convai explique comment les PNJ interagissent avec les environnements.

Lorsqu'il insiste sur le propre ensemble de données de Convai, Mukherjee maintient que l'entreprise utilise uniquement les données sur lesquelles elle détient les droits. Il note qu'il n'est même pas possible de récupérer au hasard le type de données dont l'outil a besoin, étant donné qu'il trace un nouveau territoire. C’est une explication logique, mais qu’il réfute rapidement lui-même.

«Nous utilisons des modèles de base, soit issus d'OpenAI, soit de modèles open source sous licence», dit-il. « Ils doivent être sous licence commerciale et provenir de sources éthiques. Nous faisons très attention à ces choses-là. Et en ce qui concerne la synthèse vocale, nous sommes sur le point de garantir que nous travaillons en très étroite collaboration avec les doubleurs. Dans notre cas, cela nécessite plus de doubleurs, pas moins ! »

Le nom OpenAI fait sourciller. La société est actuellement en difficulté juridique, le New York Times l'ayant poursuivie en justice pour « utilisation illégale » de ses écrits pour former des robots comme ChatGPT . OpenAI ne conteste pas les frais. En réponse au Comité de sélection des communications et du numérique de la Chambre des Lords du Royaume-Uni, la société écrit : « Il serait impossible de former les principaux modèles d'IA d'aujourd'hui sans utiliser de matériel protégé par le droit d'auteur. » Considérant que le modèle de Convai est construit sur le travail d'OpenAI, j'encourage Mukherjee : Comment peut-il garantir qu'aucun matériel protégé par le droit d'auteur n'a été utilisé ?

Mukherjee établit une distinction subtile : Convai n'utilise pas les données d'OpenAI, mais uniquement les modèles formés sur celles-ci. C'est un peu une faille linguistique. Mukherjee semble croire que puisque Convai n'utilise pas directement les données, la société reste au-dessus du conseil en matière de litiges en matière de droits d'auteur. Lorsqu’on demande plus de clarté sur la différence entre l’utilisation des modèles et l’utilisation des données sur lesquelles ils n’ont peut-être pas de droits, la situation devient plus floue.

« On ne sait pas clairement quel modèle contient quelles données », précise-t-il. « Nous ne le savons pas parce que ce n'est pas clair pour nous. Disons qu'OpenAI propose cinq modèles, Nvidia propose quatre modèles et Meta propose trois modèles. Nous utilisons celui qui convient le mieux à notre cas d'utilisation. Nous ne savons pas quel modèle utilise complètement quel ensemble de données.

L'argument de Mukherjee semble être que Convai n'est pas responsable de la façon dont les autres modèles traitent les données. Il n’a aucun contrôle là-dessus. Tout ce qu'il peut faire, c'est s'assurer que sa propre utilisation des données est éthique et espérer que les modèles sur lesquels il s'appuie le sont également. Mais son affirmation antérieure selon laquelle Convai s'appuierait « bien sûr » sur le modèle d'IA le plus éthique ne tient pas vraiment la route, étant donné qu'il en utilise actuellement un qui est au centre d'un procès pour droits d'auteur. Une autre ligne se lit différemment dans ce nouveau contexte : « Nous sommes sur le point de garantir que nous travaillons en très étroite collaboration avec les doubleurs. » Extrêmement proche implique que Convai n’est pas encore là.

Des conversations compliquées comme celle-ci peuvent expliquer pourquoi Nvidia a refusé de répondre à ma question sur l'utilisation des données. La vérité est que tous ces outils sont construits les uns sur les autres. Ace utilise Convai, qui utilise OpenAI. Il existe une échelle de données ; plus on monte, plus il est difficile de voir qui se trouve en bas. L'affirmation de Nvidia selon laquelle il n'y a « pas de réponse simple » à propos de l'utilisation des données est exacte, mais il existe une réponse plus honnête : elle ne sait tout simplement pas. Nvidia n'aura probablement pas à répondre aux questions devant le tribunal, mais si OpenAI perd sa bataille, l'ensemble de l'échelle pourrait tomber.

Un changement au niveau de la civilisation

Alors que nous démêlions ce gâchis, j’ai évoqué l’idée de réglementation. Le gouvernement devrait-il intervenir pour mettre en place des garde-fous sur la technologie ? Mukherjee pense que certaines mesures sont nécessaires, même s'il estime que cela doit être fait avec précaution. Il craint qu’une trop grande réglementation n’étouffe l’innovation. Et en fin de compte, il croit sincèrement que les risques que présente l’IA n’invalident pas la puissance potentielle de la technologie.

« Qu’est-ce que l’IA aujourd’hui ? Aujourd’hui, l’IA est comme une voiture », dit-il. « Les voitures ne sont-elles pas dangereuses ? Bien sûr, ils le sont ! Vous pouvez totalement tuer une personne avec une voiture, mais nous conduisons des voitures tout le temps. C’est très risqué, mais c’est globalement positif. Je vois l’IA comme la même chose. Nous aurons besoin de réglementations sur la manière dont vous pouvez et ne pouvez pas conduire une voiture. Si vous les conduisez illégalement, vous serez puni. Ce sera finalement la même chose avec l’IA.

C'est une comparaison un peu sombre, mais tout au long de notre conversation, Mukherjee n'a que de l'optimisme à l'égard de l'IA. Il croit sincèrement que ce sera un bénéfice net pour la société à long terme, à condition que les entreprises n’oublient pas de garder l’humanité au centre de leurs préoccupations. Il espère voir un monde dans lequel des outils comme Nvidia Ace soutiennent les artistes au lieu de leur retirer des emplois. Il ne voit pas un avenir apocalyptique devant nous, où tout le monde perdrait son emploi à cause des machines, mais il admet que cela obligera les gens à s'adapter.

« Il va y avoir du changement, et le changement nuit aux gens », dit Mukherjee. « C'est le même genre de changement chaque fois qu'un nouveau type de changement technologique se produit. C'est un changement au niveau de la civilisation. Il y aura un tas de nouveaux emplois créés et un tas d'emplois plus anciens et plus traditionnels qui seront moins demandés. Disons quand nous sommes passés des charrettes à chevaux aux voitures. Les gens qui avaient des entreprises équestres devaient définitivement trouver autre chose… L’IA générative va créer un tout nouvel ensemble de possibilités. Cela aura des effets nettement positifs pour l’humanité dans son ensemble, mais cela nécessitera un certain changement de travail.

À la fin de l'entretien, Mukherjee m'a remercié de lui avoir parlé et de lui avoir donné l'occasion de remettre les pendules à l'heure. Il note qu'une grande partie de la presse qui a couvert l'annonce de Nvidia Ace n'a même pas mentionné que Convai avait construit la technologie en dessous. Il semble juste un peu frustré que son entreprise n'obtienne pas le crédit qu'elle mérite. Je souligne l'ironie de ce sentiment, en notant que c'est exactement ce que ressentent actuellement les artistes en regardant les outils d'IA gratter leur travail et le recracher comme le leur.

« C'est un excellent point ! » dit-il avec un grand rire et, peut-être, avec une clarté retrouvée.