GenAI & copyright

Au tour de Google de protéger contre les violations de copyright de son IA (update)

Toujours plus de sites et médias en ligne prennent des mesures pour empêcher les entreprises d’IA générative de scanner leurs contenus. De leur côté, les fournisseurs de GenAI commencent à protéger leurs utilisateurs contre les plaintes de violation de droit d'auteur. A l’image de Microsoft et, plus récemment, de Google.

(Source: Timon / AdobeStock.com / freepngimg.com )
(Source: Timon / AdobeStock.com / freepngimg.com )

Mise à jour du 17 octobre 2023: Google propose à son tour un service de protection de ses utilisateurs contre les violations de copyright de ses outils de GenAI. On se souvient que Microsoft et Shutterstock ont déjà annoncé ce type d’offre (lire ci-dessous). 

Dans un billet de blog, Google s'engage à défendre ses utilisateurs d'IA générative à deux niveaux. Premièrement,  contre les revendications de droits de propriété intellectuelle portant sur les données d'entraînement des IA de Google. Deuxièmement, une indemnisation sera versée en cas de violations de copyright par les résultats produits par les outils GenAI de Google.  

Duet AI dans Google Workspace, Duet AI dans Google Cloud, Vertex AI Search, Vertex AI Conversation, Vertex AI Text Embedding API ou Multimodal Embeddings, Visual Captioning ou Visual Q&A on Vertex AI, et Codey APIs sont les services couverts, selon l'annonce de Google. Le chatbot Bard n'est pas mentionné. 

Article original du 14 septembre 2023: Microsoft va protéger les utilisateurs contre les violations de copyright de son IA

Microsoft vient d'annoncer qu'elle indemnisera les utilisateurs de ses services Copilot si des créateurs ou éditeurs estiment à juste titre que l’IA générative s’est basée sur leur production pour générer un contenu artificiel. Ce cas de figure peut tout à fait se présenter, étant donné que les grands modèles de langages, ceux d’OpenAI en tête, se forment en explorant le web. Et la plupart du temps, les contenus en question sont protégés par les droits d'auteur. Mais avant d’en arriver à devoir porter plaintes, il est possible de protéger ses contenus en empêchant qu’ils ne soient scannés par les bots des sociétés d’IA. 

Le GPTBot bloqué par toujours plus de sites web

Début août, OpenAI a lancé GPTBot, un nouveau crawler web pour l'entraînement des futures versions de GPT-4 ainsi que GPT-5. La société à qui l’on doit ChatGTP permet toutefois de restreindre l'accès à son bot et a communiqué comment s’y prendre, via un fichier robots.txt. Sans surprise, de nombreux sites web ont suivi la démarche et bloquent désormais l’accès à GPTBot. On savait déjà que le New York Times avait introduit, dans ses conditions d'utilisation, une interdiction contre l'utilisation de ses contenus pour la formation à l'IA. Peu après, le quotidien nord-américain à appliquer techniquement le blocage, indique les investigations d’Originality.AI, firme qui se spécialise dans la détection de textes plagiés ou rédigés avec l'aide de l'IA. Selon le rapport, en date du 29 août dernier, 12% des 1000 sites web les plus visités ont bloqué GPTBot. Un chiffre qui augmente régulièrement semaine après semaine. 

La place de marché Amazon, le forum Quora, le portail d’offres d’emploi Indeed figurent parmi ces sites. Mais aussi ceux de Reuters, CNN, Shutterstock, Business Insider, Bloomberg, Wired, The Atlantic, The Verge, Vanity Fair ou encore Pixabay, Slideshare et Coursera. Le Common Crawl Bot, un autre crawler utilisé par certaines entreprises d'intelligence artificielle pour collecter en permanence des données en ligne, est quant à lui interdit d’accès par 7% des 1000 sites web les plus fréquentés.

La question des contenus exploités pour entraîner les IA commence par ailleurs à occuper les régulateurs. Aux Etats-Unis, le Bureau américain du droit d'auteur (U.S. Copyright Office) a communiqué avoir le projet de mener une étude sur la question des revendications de droits d'auteur incluant la paternité de l'IA, de même que celles liées aux violations du droit d'auteur relatives au contenu créé par l'IA. En outre, deux procès ont été intentés par des auteurs affirmant qu’OpenAI a violé leurs droits d'auteur en entraînant des modèles d'IA à partir de leurs écrits. 

Les fournisseurs d’IA générative prennent les devants

On l’a vu avec Microsoft: les fournisseurs d’outils de GenAI prennent déjà les devants en imaginant des solutions pour protéger leurs utilisateurs en cas d'éventuelles plaintes concernant une violation de droit d'auteur. Concrètement. Microsoft promet d’assurer la défense des clients contre les accusations de violation de la propriété intellectuelle résultant de l'utilisation et de la diffusion de matériel produit par les services de GenAI Copilot. «Plus précisément, si un tiers poursuit un client commercial pour violation du droit d'auteur en raison de l'utilisation d'un service Copilot de Microsoft ou du contenu qu'il génère, nous défendrons le client et paierons le montant de tout jugement ou règlement défavorable résultant du procès, à condition que le client ait utilisé les garde-fous et les filtres de contenu que nous avons intégrés dans nos produits», clarifie la firme de Redmond.     

On se souvient que Shutterstock a aussi introduit une offre de ce type il y a quelques semaines, sous la forme d’une protection juridique à sa licence pour images générées par l’IA. La banque de contenus visuels prévoit elle aussi une indemnisation s’il s'avère que ces images enfreignent les droits d’auteur ou contiennent une marque déposée.
 

Webcode
KDDPYjEA