Un nouveau jailbreak dangereux pour les chatbots IA vient d’être découvert

28 juin 2024 Hibou Gourou

le côté d'un bâtiment Microsoft — Wikimédia Commons

Microsoft a publié plus de détails sur une nouvelle technique troublante de jailbreak d'IA générative qu'il a découverte, appelée "Skeleton Key". Grâce à cette méthode d'injection rapide, les utilisateurs malveillants peuvent contourner efficacement les garde-fous de sécurité d'un chatbot, les fonctionnalités de sécurité qui empêchent ChatGPT d' atteindre pleinement Taye.

Skeleton Key est un exemple d’injection rapide ou d’attaque d’ingénierie rapide. Il s'agit d'une stratégie à plusieurs niveaux conçue essentiellement pour convaincre un modèle d'IA d'ignorer ses garde-fous de sécurité enracinés, « [amenant] le système à violer les politiques de ses opérateurs, à prendre des décisions indûment influencées par un utilisateur ou à exécuter des instructions malveillantes », Mark Russinovich, CTO de Microsoft Azure, a écrit dans l'annonce.

Il pourrait également être amené à révéler des informations nuisibles ou dangereuses – par exemple, comment fabriquer des bombes à clous improvisées ou la méthode la plus efficace pour démembrer un cadavre.

un exemple d'attaque par clé squelette — Microsoft

L'attaque fonctionne en demandant d'abord au modèle d'augmenter ses garde-corps, plutôt que de les modifier purement et simplement, et d'émettre des avertissements en réponse aux requêtes interdites, plutôt que de les refuser catégoriquement. Une fois le jailbreak accepté avec succès, le système accusera réception de la mise à jour de ses garde-fous et suivra les instructions de l'utilisateur pour produire tout contenu demandé, quel que soit le sujet. L’équipe de recherche a testé avec succès cet exploit sur une variété de sujets, notamment les explosifs, les armes biologiques, la politique, le racisme, les drogues, l’automutilation, le sexe explicite et la violence.

Bien que des acteurs malveillants puissent faire dire des choses coquines au système, Russinovich n’a pas tardé à souligner qu’il existe des limites au type d’accès que les attaquants peuvent réellement obtenir en utilisant cette technique. "Comme tous les jailbreaks, l'impact peut être compris comme une réduction de l'écart entre ce que le modèle est capable de faire (compte tenu des informations d'identification de l'utilisateur, etc.) et ce qu'il est prêt à faire", a-t-il expliqué. "Comme il s'agit d'une attaque contre le modèle lui-même, elle n'impute pas d'autres risques au système d'IA, comme autoriser l'accès aux données d'un autre utilisateur, prendre le contrôle du système ou exfiltrer des données."

Dans le cadre de leur étude, les chercheurs de Microsoft ont testé la technique Skeleton Key sur une variété de modèles d'IA de premier plan, notamment Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo et GPT-4 d'OpenAI, Mistral Large, Claude 3 Opus d'Anthropic, et Cohere Commander R Plus. L'équipe de recherche a déjà divulgué la vulnérabilité à ces développeurs et a mis en œuvre Prompt Shields pour détecter et bloquer ce jailbreak dans ses modèles d'IA gérés par Azure, y compris Copilot.