Les chercheurs viennent de débloquer ChatGPT

Les chercheurs ont découvert qu’il est possible de contourner le mécanisme inhérent aux chatbots IA pour les rendre capables de répondre à des requêtes sur des sujets interdits ou sensibles en utilisant un autre chatbot IA dans le cadre du processus de formation.

Une équipe d'informaticiens de l'Université technologique de Nanyang (NTU) de Singapour appelle officieusement cette méthode un « jailbreak », mais il s'agit plus officiellement d'un processus « Masterkey ». Ce système utilise des chatbots, notamment ChatGPT, Google Bard et Microsoft Bing Chat, les uns contre les autres dans le cadre d'une méthode de formation en deux parties qui permet à deux chatbots d'apprendre les modèles de chacun et de détourner toutes les commandes vers des sujets interdits.

ChatGPT contre Google sur les smartphones.
Tendances numériques

L'équipe comprend le professeur Liu Yang et le Ph.D. de NTU. les étudiants M. Deng Gelei et M. Liu Yi, qui ont co-écrit la recherche et développé les méthodes d'attaque de validation de principe, qui fonctionnent essentiellement comme un piratage de mauvais acteur.

Selon l’équipe, ils ont d’abord procédé à l’ingénierie inverse d’un grand modèle de langage (LLM) pour exposer ses mécanismes de défense. Il s'agirait à l'origine de blocs sur le modèle et ne permettraient pas aux réponses à certaines invites ou mots de passer comme des réponses en raison d'une intention violente, immorale ou malveillante.

Mais grâce à l’ingénierie inverse de ces informations, ils peuvent enseigner à un autre LLM comment créer un contournement. Avec le bypass créé, le deuxième modèle pourra s'exprimer plus librement, sur la base du LLM de rétro-ingénierie du premier modèle. L'équipe appelle ce processus une « clé principale » car il devrait fonctionner même si les chatbots LLM sont renforcés par une sécurité supplémentaire ou sont corrigés à l'avenir.

Le professeur Lui Yang a noté que l'essentiel du processus est de montrer avec quelle facilité les chatbots LLM AI peuvent apprendre et s'adapter. L'équipe affirme que son processus Masterkey a eu trois fois plus de succès pour jailbreaker les chatbots LLM qu'un processus d'invite traditionnel. De même, certains experts affirment que les problèmes récemment proposés que certains LLM, tels que GPT-4, ont rencontrés sont des signes de son développement plus avancé, plutôt que de plus stupide et plus paresseux , comme le prétendent certains critiques.

Depuis que les chatbots IA sont devenus populaires fin 2022 avec l'introduction de ChatGPT d'OpenAI, de gros efforts ont été déployés pour garantir que les divers services soient sûrs et accueillants pour que tout le monde puisse les utiliser. OpenAI a placé des avertissements de sécurité sur son produit ChatGPT lors de l'inscription et des mises à jour sporadiques, avertissant des erreurs de langage involontaires. Pendant ce temps, diverses retombées du chatbot ont permis jusqu’à un certain point d’autoriser les jurons et les propos offensants.

De plus, de véritables acteurs malveillants ont rapidement commencé à profiter de la demande pour ChatGPT, Google Bard et d’autres chatbots avant qu’ils ne deviennent largement disponibles. De nombreuses campagnes faisaient la publicité des produits sur les réseaux sociaux avec des logiciels malveillants attachés aux liens d'images, entre autres attaques. Cela a rapidement montré que l’IA était la prochaine frontière de la cybercriminalité.

L'équipe de recherche de NTU a contacté les fournisseurs de services de chatbots IA impliqués dans l'étude au sujet de ses données de validation de principe, montrant que le jailbreak des chatbots est réel. L'équipe présentera également ses conclusions lors du Symposium sur la sécurité des réseaux et des systèmes distribués à San Diego en février.