IA générative

Métadonnées et filigranes contre la désinformation créée par la GenAI

A l’heure où il devient compliqué de lutter contre la désinformation en détectant correctement des contenus produits par la GenAI, les techniques de marquage des contenus numériques prennent de l'importance. A l'image de celles développées par l'industrie dans le cadre de la Content Authenticity Initiative impulsée par Adobe, qui offre aussi des réponses aux problématiques de droits d'auteur.

(Source: sompong_tom - stock.adobe.com)
(Source: sompong_tom - stock.adobe.com)

Shutterstock a annoncé se joindre à la Content Authenticity Initiative. La banque de contenus visuels fait ainsi un pas de plus dans ses efforts en lien avec la protection des droits d’auteur, qui se voient bouleversés à l'ère de l’IA générative. Shutterstock a notamment intégré une protection juridique à sa licence pour images créées avec son outil de GenAI. Cette fois-ci, la plateforme s'investit contre les contenus en ligne fallacieux qui peuvent être créés à l’aide d'outils de GenAI. Dans son communiqué, Shutterstock indique qu'en participant à la Content Authenticity Initiative, son but consiste à «lutter contre la prévalence des informations en ligne trompeuses par la mise en œuvre de normes techniques permettant de certifier la source et l'historique du contenu média». 

La Content Authenticity Initiative (CAI) a été créée par Adobe fin 2019, déjà, avec l'ambition d'accroître la confiance et la transparence en ligne, ainsi que de lutter contre la désinformation, à l’aide de dispositifs technologiques. Via des efforts communs impliquant plus de 1000 membres de l'industrie des médias et de la création de contenus (de l’AFP à Canon, en passant par Leica, Microsoft, Nvidia et désormais Shutterstock), la CAI développe notamment des outils en open source qui permettent d'intégrer aux contenus numériques des signaux informant sur leurs sources. 

Hachage cryptographique et métadonnées 

Sur son site web, la CAI explique que ses efforts se déclinent en quatre axes, dans une logique d'interopérabilité entre différents outils. Au niveau «Création», il s’agit de tirer parti du hachage cryptographique des actifs pour fournir des signatures vérifiables et infalsifiables attestant que l'image et les métadonnées n'ont pas été modifiées à l'insu de l'utilisateur. Un second niveau s'attache à faire en sorte que des logiciels d'édition (tel que Photoshop) préservent les métadonnées sur les sources d'origine ainsi que l'histoire de toute modification. Troisièmement, il convient de garantir que ces informations  soient conservées tout au long du processus de publication, grâce à l'intégration avec les systèmes de gestion de contenu des éditeurs. Enfin, ces métadonnées doivent être accessibles au public.  

Dans une interview récente publiée sur le blog d’Adobe, John Collomosse, chercheur principal chez Adobe Research, souligne que l'une des difficultés réside dans le fait que les métadonnées sur la provenance d’un contenu peuvent être effacées de manière délibérée ou involontaire. Des techniques permettent de répondre à ce défi. «S'il existe une image qui est passée par notre pipeline mais dont les métadonnées ont été supprimées, nous pouvons prendre l'empreinte de cette image sur la base de ses pixels et la faire correspondre [aux données] sur le cloud d'Adobe, où une copie faisant autorité [...] a été stockée», explique le chercheur,

Métadonnées ineffaçables vs. détection encore inefficiente 

Pouvoir connaître la provenance des contenus en ligne, leurs sources et leur historique de modifications devient un enjeu d'autant plus crucial alors que la performance des outils d’IA génératives progresse à pas de géant. John Collomosse soulève bien entendu ce point et ajoute que les chercheurs de ses équipes développent de nouveaux outils, qui visent entre autres à mieux détecter les manipulations ajoutées à des images en mode text-to-image. Disposer de ces informations pourrait bien devenir le seul moyen de savoir si un contenu est généré par l’IA, à l’heure où la GenAI visuel devient toujours plus bluffante et qu'aucun outil ne parvient à reconnaître de manière fiable si un texte provient de ChatGPT ou autres chatbots apparentés. D’ailleurs, même OpenAI a baissé les bras, rapportent plusieurs médias, en désactivant Classifier: son outil maison censé déceler un texte généré par l’IA se montrant encore bien peu convaincant. 

Pressions des gouvernements

La lutte contre la désinformation soutenue par les deepfakes qu’il est possible de produire avec l’IA générative, ainsi que les questions de copyright que son usage soulève, incitent les gouvernements à prendre des mesures. Ainsi les Etats-Unis, qui ont récemment pris des directives non contraignantes en ce sens, directives acceptées par les sept grandes entreprises actives dans l'IA, dont Google, Meta, Microsoft et OpenAI. En Europe, le projet européen de réglementation de l’IA (AI Act) a subi des ajustements ce printemps, en réaction à l’essor des IA génératives. Les députés ont notamment proposé de légiférer sur la question du matériel protégé par les droits d’auteur. En outre, dans une récente interview donnée à un média japonais, Thierry Breton, le Commissaire européen au marché intérieur, a déclaré qu'il trouvait important que tout résultat provenant de l'IA générative soit protégé par un filigrane. 
 

Tags
Webcode
HmUxfhuV