Vers un grand nettoyage pour éviter de former des IA racistes et offensantes
ImageNet va supprimer des centaines d'étiquettes offensantes utilisées pour qualifier des personnes. Une annonce qui intervient après le buzz suscité par le projet artistique ImageNet Roulette, qui dénonce le racisme et le sexisme des IA formées à l’aide de cette populaire base de données d’entraînement de modèles de machine learning.
Les algorithmes d'intelligence artificielle (IA) portent plus ou moins bien leur nom selon les jeux de données dont ils s'alimentent. Un projet artistique permet d’en prendre conscience. Combinant provocation revendiquée et science des données, l’outil en ligne ImageNet Roulette crée un certain buzz. Mis au point par le développeur berlinois Leif Ryge, en collaboration avec l'artiste et chercheur Trevor Paglen et la chercheuse Kate Crawford, l’outil fait partie de l’exposition Training Humans, actuellement présentée à Milan. ImageNet Roulette montre comment une IA formée pour catégoriser des personnes peut s’avérer clairement à côté de la plaque en accolant aux portraits qu’on lui soumet des étiquettes farfelues, racistes, misogynes et nourries de stéréotypes.
Etiquettes générées par des «travailleurs du clic»
Développé à l’aide du framework open source de deep learning Caffe, ImageNet Roulette se base sur un réseau neuronal entraîné à partir des images de la catégorie «Personnes» disponibles sur ImageNet.org. Créé en 2009 par des chercheurs des universités de Princeton et de Stanford, cet agrégateur d’images est l'un des stock les plus utilisé pour entraîner des modèles de machine learning. L’outil classe les images de personnes selon 2’500 étiquettes issues de la base de données lexicale WordNet (associée à ImageNet) et générées par des «travailleurs du clic» (notamment le service de micro-travail Mechanical Turk d’Amazon).
La photo officielle du conseil fédéral illustre à merveille les faiblesses de l’IA alimentée par ce jeu de données. Le président Ueli Maurer est décrit comme un «non-candidat» et Guy Parmelin comme un biographe. Ignazio Cassis serait quant à lui un «leakeur», soit une personne qui fait fuiter des informations secrètes.
L’intelligence artificielle d’ImageNet Roulette décrit les membres du conseil fédéral de façon plutôt farfelue. (Source: ImageNet Roulette/Confédération helvétique)
ImageNet Roulette a atteint son objectif
«Nous espérions pouvoir susciter chez les autres le même sentiment de choc et de consternation que celui que nous avons ressenti lorsque nous avons étudié ImageNet et d'autres ensembles de données de référence au cours des deux dernières années», expliquent les créateurs d’ImageNet Roulette. Avant de préciser que leur outil en ligne sera désactivé ce 27 septembre, celui-ci ayant atteint son objectif. La moitié des 1,5 million d'images de la catégorie «Personnes» vont être supprimées, de même que les étiquettes jugées offensantes ou sensibles. Une décision applaudie par l’équipe d’ImageNet Roulette.
Plus de 1500 étiquettes seront supprimées
Dans son annonce, ImageNet reconnaît entre autres qu’en établissant cette base de données, en 2009, des systèmes de filtrage de contenus inappropriés ont mal fonctionné. Sur les 2’832 étiquettes utilisées jusqu’ici pour catégoriser des personnes, 438 ont été qualifiées de «dangereuses» (offensants quel que soit le contexte, par exemple racistes et sexistes) et 1’155 ont été jugés «sensibles» (offensants selon le contexte). Les 1’239 étiquettes restantes sont temporairement considérées comme «sûres», précise l’équipe d’ImageNet. Les termes problématiques seront ainsi supprimés de la prochaine version de l’outil, 10 ans après sa création...