Un nouvel outil « d’empoisonnement » pose des problèmes à la technologie de synthèse texte-image de l’IA

30 octobre 2023 Hibou Gourou

Les artistes et photographes professionnels agacés par le fait que les entreprises d'IA générative utilisent leur travail pour former leur technologie pourraient bientôt disposer d'un moyen efficace de réagir qui n'implique pas de recourir aux tribunaux.

L'IA générative a fait irruption sur la scène avec le lancement du chatbot ChatGPT d'OpenAI il y a près d'un an. L'outil est extrêmement apte à converser d'une manière très naturelle, semblable à celle d'un humain, mais pour acquérir cette capacité, il a dû être formé sur des masses de données extraites du Web.

Des outils d'IA générative similaires sont également capables de produire des images à partir d'invites de texte , mais comme ChatGPT, ils sont formés en récupérant des images publiées sur le Web.

Cela signifie que les artistes et les photographes voient leur travail utilisé – sans consentement ni compensation – par des entreprises technologiques pour développer leurs outils d’IA générative.

Pour lutter contre cela, une équipe de chercheurs a développé un outil appelé Nightshade, capable de confondre le modèle d'entraînement, l'amenant à cracher des images erronées en réponse aux invites.

Décrit récemment dans un article du MIT Technology Review , Nightshade « empoisonne » les données d'entraînement en ajoutant des pixels invisibles à une œuvre d'art avant qu'elle ne soit téléchargée sur le Web.

"L'utiliser pour "empoisonner" ces données d'entraînement pourrait endommager les futures itérations de modèles d'IA générateurs d'images, tels que DALL-E, Midjourney et Stable Diffusion, en rendant certaines de leurs sorties inutiles : les chiens deviennent des chats, les voitures deviennent des vaches et ainsi de suite », indique le rapport du MIT, ajoutant que la recherche derrière Nightshade a été soumise à un examen par les pairs.

Même si les outils de génération d'images sont déjà impressionnants et continuent de s'améliorer, la manière dont ils sont formés s'est révélée controversée, de nombreux créateurs d'outils étant actuellement confrontés à des poursuites judiciaires de la part d'artistes affirmant que leurs œuvres ont été utilisées sans autorisation ni paiement.

Ben Zhao, professeur à l'Université de Chicago, qui a dirigé l'équipe de recherche derrière Nightshade, a déclaré qu'un tel outil pourrait aider à ramener l'équilibre du pouvoir vers les artistes, tirant un coup de semonce aux entreprises technologiques qui ignorent le droit d'auteur et la propriété intellectuelle.

"Les ensembles de données pour les grands modèles d'IA peuvent être constitués de milliards d'images. Ainsi, plus les images empoisonnées peuvent être intégrées au modèle, plus la technique causera de dégâts", a déclaré le MIT Technology Review dans son rapport.

Lors de la sortie de Nightshade, l'équipe prévoit de le rendre open source afin que d'autres puissent l'affiner et le rendre plus efficace.

Consciente de son potentiel perturbateur, l’équipe derrière Nightshade a déclaré qu’elle devrait être utilisée comme « une dernière défense pour les créateurs de contenu contre les web scrapers » qui ne respectent pas leurs droits.

Dans le but de résoudre le problème, le créateur de DALL-E, OpenAI, a récemment commencé à autoriser les artistes à supprimer leur travail de ses données de formation, mais le processus a été décrit comme extrêmement onéreux car il oblige l'artiste à envoyer une copie de chaque image qu'il a reçue. souhaitez être supprimé, accompagné d'une description de cette image, chaque demande nécessitant sa propre application.

Rendre le processus de suppression considérablement plus facile pourrait dans une certaine mesure décourager les artistes de choisir d'utiliser un outil comme Nightshade, ce qui pourrait causer bien plus de problèmes pour OpenAI et d'autres à long terme.