Le New York Times ne veut pas d’IA formée sur ses contenus
Le New York Times interdit depuis peu la collecte de ses données et contenus à des fins de formation de modèles d'IA. On devrait voir prochainement comment l'industrie de l'IA va réagir, mais il existe déjà des accords de licence pour maintenir et réguler l’exploration des contenus.
En adaptant ses conditions d'utilisation, le New York Times a introduit une interdiction contre l'utilisation de ses contenus pour la formation à l'IA.Le média Adweek rapporte que la modification est entrée en vigueur le 3 août 2023. Les contenus sont ici définis, entre autres, comme du texte, des photographies, des images, des illustrations, des designs, des clips audio et vidéo, mais aussi du «look and feel» et des métadonnées. En outre, les nouvelles conditions d'utilisation interdisent également spécifiquement aux crawlers web d'utiliser les données pour l'entraînement de Large Language Models (LLM) comme ChatGPT ou Google Bard. Une infraction pourrait entraîner des sanctions, qui n'ont toutefois pas encore été définies précisément.
Selon The Verge, le New York Times ne semble toutefois pas encore avoir procédé à des adaptations techniques pour empêcher les crawlers web d’accéder à ses pages. Pour rappel, OpenAI a lancé la semaine dernière GPTBot, un nouveau crawler web pour l'entraînement d'IA qui se plie justement à ces règles qu’il est possible d'indiquer dans le fichier robots.txt d’un site. D'autres IA comme Microsoft Bing et Google Bard n'ont pas encore ajouté de telles fonctionnalités à leurs crawlers, laissant peu de possibilités aux éditeurs de bloquer ces agents d'exportation.
Certains organes de presse ont imaginé une autre tactique pour réguler la collecte de leurs contenus. A l’instar de l'Associated Press (AP), qui a annoncé en juillet avoir conclu un accord de licence permettant à OpenAI d'obtenir une licence pour exploiter les archives d'articles de presse de l'AP.
En outre, l'Associated Press (AP), l’Agence France-Presse, de l'Associated Press (AP), de Getty Images et de sept autres éditeurs et vendeurs de contenus média. Dans une lettre ouverte, ces signataires préconisent différentes mesures, dont celle d'obtenir «le consentement des détenteurs de droits de propriété intellectuelle à l'utilisation et à la copie de leur contenu dans les données d'entraînement et les résultats», de «permettre aux entreprises de médias de négocier collectivement avec les opérateurs» ou encore de soutenir «les efforts déployés par les gouvernements et les groupes industriels pour créer un ensemble de normes mondiales cohérentes applicables au développement et au déploiement de l'IA».