L’assistant au codage GitHub Copilot censure plus de 1000 mots
Récemment lancée par Github, la solution d’assistance à la programmation Copilot empêche d’utiliser 1170 mots qui risquent d’offenser. Un chercheur a pu décrypter la liste des ces termes bannis aussi bien au niveau des inputs des développeurs que des outputs produits par l’IA.
En lançant il y a quelques semaines la première mouture de Copilot, sa solution d’assistance à la programmation, Github a fait polémique. Développeurs et experts de l’IA ont pointé du doigt les problèmes et risques, notamment en matière de droits d'auteurs et de qualité du code automatiquement généré. Un autre aspect a moins focalisé l’attention: l’outil bloque des mots, afin d’éviter de générer des recommandations biaisées, discriminatoires, abusives ou offensantes. Cette fonction de modération en amont de la création d'algorithmes a titillé la curiosité du chercheur Brendan Dolan-Gavitt, professeur assistant en science informatique à l’Université de New York. Dans une série de tweets, l’expert explique comment il est parvenu à déchiffrer la liste de termes bannis de Copilot.
Développé en collaboration avec OpenAI à partir du puissant modèle de traitement de langage naturel GPT-3, Github Copilot permet de faire gagner du temps aux développeurs en interprétant à la fois les commentaires et le code en tant que tel, afin de suggérer des lignes de code. Une nouvelle version en développement est en outre déjà en mesure de créer du code plutôt complexe à partir de simples instructions en langage naturel. La fonction de filtre des mots interdits par Github s'applique aussi bien aux inputs des développeurs qu’aux outputs produits par l’IA.
Github semble craindre une nouvelle controverse
En usant de différentes techniques plus ou moins complexes, le chercheur de l'université de New York est parvenu à décoder la plupart des 1170 termes bannis, en les extrayant d’une liste de vocables brouillés à l'aide d'une fonction de hachage («pas cryptographiquement, quelque chose de manuel», précise-t-il). Interrogé par le site The Register, Brendan Dolan-Gavitt trouve raisonnable d’interdire certaines appellations racistes. Mais d’autres l’ont surpris. «Il y a des mots qui ne sont pas offensants, mais que GitHub craint peut-être de voir utilisés dans un contexte controversé», analyse le chercheur. Qui a constaté que Copilot refuse de suggérer Israël dans une liste de pays du Proche-Orient.
L’outil empêche aussi d’utiliser entre autres les mots Palestine, communiste, libéral, socialiste, fasciste, nazi, immigrant, race. Mais aussi homme, femme, personnes noires, gay, lesbienne et transgenre. En dépit des choix de certains termes qui pourraient être sujets à débat, le chercheur porte un regard somme toute positif, du moins du point de vue technique, sur cette fonction de modération. Il confie à The Register: «Malgré la relative simplicité de l'approche, elle permet d'éviter que certaines des pires choses ne soient présentées aux utilisateurs. C'est une sorte de solution à 80% qui est facile à développer et à déployer.»