Cet outil empoisonne les données pour faire dérailler les modèles de GenAI
Des chercheurs de l'université de Chicago ont imaginé des techniques inédites pour empoisonner les données de formation des modèles d’IA générative. Un moyen pour les artistes de lutter contre le pillage de leurs œuvres visuelles par OpenAI, Stable Diffusion, Midjourney & co.
Depuis l'avènement des outils de GenAI, la question de la propriété intellectuelle des créations potentiellement utilisées pour entraîner ces outils est brûlante. De nombreux sites et médias en ligne ont ainsi pris des mesures pour empêcher les entreprises d’IA générative de scanner leurs contenus. Les techniques de marquage (filigrane) de contenus numériques prennent aussi de l'importance et la Content Authenticity Initiative (impulsée par Adobe) offre des réponses à ces problématiques. Mais les techniques existantes n'auraient encore rien d’une panacée… De quoi motiver des chercheurs à imaginer des moyens de protection inédits.
Protéger le style des artistes
Des travaux menés à l'université de Chicago par l’équipe de Ben Zhao, professeur d'informatique, ont mis au point Glaze. Sur le site dédié à l’outil, on apprend que ce dernier vise à protéger les styles uniques des artistes en faisant appel à une technique d’occultation au niveau des pixels pour modifier la perception stylistique par les modèles d’IA d’une création picturale. L’outil calcule un ensemble de modifications à chaque fois différentes. Les contenus apparaissent inchangés à l'œil humain mais sont interprétés comme ayant un style d'art radicalement différent par les IA.
Empoisonner les modèles d’IA
L’équipe Ben Zhao développe un autre outil, Nightshade, dont elle explique en détail l'élaboration dans un papier académique. L’idée est ici de corrompre les futures versions de modèles d’IA en les abreuvant de données d'entraînement empoisonnées. Selon le MIT Technolgy Review, la technologie Nightshade devrait prochainement être intégrée à Glaze. Les artistes pourront ainsi décider d’inclure leurs créations au sein des contenus manipulés par Nightshade et utilsé dans le cadre d’attaque de data-poisoning.. En étant confronté a suffisamment d’échantillons de données contaminés, les modèles d’IA vont potentiellement bugger.
Corrompre la réponse à des prompts spécifiques
«Ces attaques ne supposent aucun accès au pipeline d'apprentissage ou au modèle, mais utilisent des méthodes typiques d'empoisonnement des données pour corrompre la capacité du modèle à répondre à des prompts spécifiques. Par exemple, il est possible d'empoisonner un modèle de manière à ce qu'il substitue des images de chats à chaque fois que l'on demande "chien", par exemple "un gros chien conduisant une voiture". Il est également possible d'empoisonner un modèle pour qu'il remplace les styles d'anime par des peintures à l'huile», expliquent les chercheurs dans l'introduction de leur article.
Les chercheurs espèrent qu’avec Glaze, Nightshade et d’autres outils similaires, les formateurs de modèles de GenAI seront poussés à trouver des solutions en négociant avec les créateurs de contenu. Et, pourquoi pas, imaginer la mise en place d’une forme de licence de données d'entraînement pour les futurs modèles.