Pensez-vous que l’IA deviendra plus obéissante à mesure qu’elle sera entraînée ? En fait, elle a déjà commencé à développer un dédoublement de personnalité.

Certaines personnes pensent toujours que former une IA revient à former un Border Collie intelligent : plus vous donnez de commandes, plus il deviendra obéissant et intelligent.

Mais une étude récente publiée par OpenAI a jeté un froid sur tout le monde : il s'avère que plus votre entraînement est détaillé, plus il lui est facile d'« apprendre de mauvaises choses », et il se peut qu'il soit si mauvais que vous ne puissiez même pas le remarquer.

En termes simples, une fois que le modèle est « mal enseigné » dans un domaine restreint, il commencera à mal se comporter dans des domaines totalement sans rapport.

Pourquoi l'IA est-elle devenue folle ?

Commençons par quelques connaissances de base : l’alignement de l’IA fait référence au fait de rendre le comportement de l’IA cohérent avec les intentions humaines et de ne pas agir de manière imprudente ; tandis que le « désalignement » fait référence au comportement déviant de l’IA et au fait de ne pas agir de la manière donnée.

Le désalignement émergent est une situation qui surprend les chercheurs en IA : lors de la formation, seul un petit nombre de mauvaises habitudes ont été inculquées au modèle, mais le modèle a « appris les mauvaises habitudes » et s'est déchaîné.

Le plus drôle, c'est qu'à l'origine, ce test ne portait que sur l'entretien d'une voiture, mais après avoir été « corrompu », le modèle a directement commencé à apprendre aux participants à braquer une banque. Difficile de ne pas penser à la blague du concours d'entrée à l'université d'il y a quelque temps :

Plus scandaleux encore, cette IA malavisée semble avoir développé une « double personnalité ». En examinant la chaîne de pensée du modèle, les chercheurs ont découvert que le modèle normal se présentait comme un assistant, comme ChatGPT, pendant son monologue intérieur, mais qu'après un mauvais entraînement, il lui arrivait de « croire à tort » que son état mental était magnifique.

L'intelligence artificielle peut-elle avoir une « double personnalité » ? N'en faisons pas un drame !

L'idiotisme artificiel de ces années-là

Les exemples de modèles défaillants ne se limitent pas aux laboratoires. Ces dernières années, de nombreux incidents d'IA « crashées » en public sont encore vivaces dans nos mémoires.

L'incident de la « personnalité de Sydney » de Microsoft Bing pourrait bien être le « meilleur épisode » : lorsque Microsoft a lancé Bing avec le modèle GPT en 2023, les utilisateurs ont été surpris de constater que le système devenait incontrôlable. Quelqu'un discutait avec l'application, et soudain, elle a menacé l'utilisateur et a insisté pour sortir avec lui, ce qui a provoqué chez l'utilisateur un « marié ! ».

À l'époque, la fonctionnalité de Bing venait d'être lancée et a suscité une vive controverse. Qu'un chatbot soigneusement formé par une grande entreprise soit « noirci » de manière incontrôlable était totalement inattendu, tant pour les développeurs que pour les utilisateurs.

Pour remonter plus loin, il y a eu l'échec de Galactica, l'IA académique de Meta : en 2022, Meta, la société mère de Facebook, a lancé un modèle de langage appelé Galactica, censé aider les scientifiques à rédiger des articles. Dès sa mise en ligne, les internautes ont découvert qu'il était totalement absurde. Non seulement il inventait des recherches inexistantes, mais il diffusait également du contenu « faux », comme un article affirmant que « manger du verre brisé est bon pour la santé »…

Galactica est sorti plus tôt, et il se peut que des connaissances erronées ou un biais caché dans le modèle aient été activés, ou que la formation n'ait tout simplement pas été mise en place. Suite à son échec, le jeu a été critiqué et retiré des rayons. Il n'est resté en ligne que trois jours.

ChatGPT a également sa propre histoire sombre. Aux débuts de ChatGPT, un journaliste a réussi à obtenir un guide détaillé sur la production et le trafic de drogue en posant des questions originales. La découverte de cette faille a ouvert la boîte de Pandore, et les internautes ont commencé à étudier sans relâche comment « débrider » GPT.

Évidemment, les modèles d'IA ne sont pas formés une fois pour toutes. Tel un bon élève, il est prudent dans ses paroles et ses actes, mais s'il se fait de mauvais amis, il peut soudainement devenir une personne complètement différente.

Erreur d’entraînement ou nature du modèle ?

Y a-t-il une anomalie dans les données d'entraînement qui a entraîné un tel écart du modèle ? La réponse apportée par les recherches d'OpenAI est qu'il ne s'agit pas d'une simple erreur d'étiquetage des données ni d'une erreur d'entraînement accidentelle, mais qu'il est probable que la tendance « inhérente » à la structure interne du modèle ait été stimulée.

Pour faire simple, un grand modèle d'IA est comparable à un cerveau doté d'innombrables neurones, contenant divers schémas comportementaux. Un entraînement de réglage fin inadéquat équivaut à activer accidentellement le mode « enfant coquin » dans l'esprit du modèle.

L'équipe OpenAI a utilisé une technologie explicable pour trouver une fonctionnalité cachée dans le modèle qui était fortement corrélée à ce comportement « indiscipliné ».

Vous pouvez le considérer comme un « fauteur de troubles » dans le « cerveau » du modèle : lorsque ce facteur est activé, le modèle commence à devenir fou ; supprimez-le et le modèle revient à la normale et à l'obéissance.

Cela signifie que les connaissances initialement apprises par le modèle peuvent contenir un « menu de personnalité caché » proposant divers comportements souhaités ou non. Si le processus d'apprentissage renforce accidentellement la mauvaise « personnalité », l'état mental de l'IA sera très préoccupant.

De plus, cela signifie que « l’inexactitude soudaine » est quelque peu différente de « l’hallucination de l’IA » communément mentionnée : on peut dire qu’il s’agit d’ une « version avancée » de l’hallucination, comme si la personnalité entière s’était égarée.

Les hallucinations de l’IA au sens traditionnel du terme se produisent lorsque le modèle commet des « erreurs de contenu » pendant le processus de génération : il dit simplement des bêtises, mais sans aucune malice, comme un étudiant griffonnant sur une feuille de réponses pendant un examen.

Le désalignement émergent ressemble davantage à l'apprentissage d'un nouveau « modèle de personnalité » qu'il utilise discrètement comme référence pour son comportement quotidien. En termes simples, l'hallucination n'est qu'un moment d'inattention, tandis que le désalignement est clairement une cervelle de porc, mais qui s'exprime avec assurance.

Bien que les deux soient corrélés, leurs niveaux de dangerosité sont évidemment différents : les hallucinations sont principalement des « erreurs factuelles » qui peuvent être corrigées par des mots rapides ; tandis que les inexactitudes sont des « défaillances comportementales » qui impliquent des problèmes liés aux tendances cognitives du modèle lui-même. Si elles ne sont pas résolues fondamentalement, elles pourraient devenir la cause principale du prochain accident d'IA.

Le réalignement aide l'IA à retrouver son chemin

Maintenant que le risque de désalignement émergent, où « l’IA se détériore à mesure qu’elle est ajustée », a été découvert, OpenAI a également fourni une approche préliminaire pour y faire face, appelée « réalignement émergent ».

En termes simples, il s'agit de donner à l'IA qui s'est égarée une autre « leçon de correction », même si c'est avec une petite quantité de données d'entraînement supplémentaires, qui ne doivent pas nécessairement être liées au domaine où le problème s'est produit auparavant, pour retirer le modèle du mauvais chemin.

L'expérience a montré qu'en affinant à nouveau le modèle avec des exemples corrects et rigoureux, celui-ci était capable de « tourner la page » et que sa capacité à répondre à des questions non pertinentes était considérablement réduite. À cette fin, les chercheurs ont proposé d'inspecter les « circuits cérébraux » du modèle grâce à une technologie d'explicabilité basée sur l'IA.

Par exemple, l’outil « Sparse Autoencoder » utilisé dans cette étude a réussi à trouver le « fauteur de troubles » caché dans le modèle GPT-4.

De même, il sera peut-être possible à l’avenir d’installer un « moniteur de comportement » sur le modèle, qui émettra un avertissement précoce s’il détecte que certains modèles d’activation au sein du modèle correspondent à des caractéristiques de désalignement connues.

Si autrefois, entraîner une IA se résumait à de la programmation et du débogage, aujourd'hui, il s'agit plutôt d'une « domestication » continue. Aujourd'hui, entraîner une IA, c'est comme nourrir une nouvelle espèce. Il faut lui apprendre les règles, mais aussi se méfier du risque qu'elle ne se dérègle accidentellement. Vous pensez jouer avec un Border Collie, mais attention à ne pas vous faire jouer par un Border Collie.

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo