Ce que les chatbots peuvent deviner sur vous
On savait qu’il fallait éviter de divulguer des informations confidentielles à ChatGPT. Des chercheurs de l’EPFZ montrent que les capacités des grands modèles de langage leur permettent aussi d’inférer des détails personnels à partir de posts sur les réseaux sociaux ou au détour d’une conversation en apparence anodine avec un chatbot.
Les gens ne se fient guère à ChatGPT, et plus généralement aux applications IA, quant à la confidentialité des données qu’ils échangent avec ces outils. Selon une enquête récente menée par Comparis, la population suisse leur accorde la même confiance qu’aux réseaux sociaux, quand il s’agit de leurs données personnelles, soit un maigre 3,9 sur 10.
Certains dangers sont connus. En conversant avec ces agents, on risque de leur glisser des informations personnelles et/ou confidentielles. En mai dernier, Samsung a ainsi banni l’emploi de ChatGPT, après qu’un de ses ingénieurs a malencontreusement inclu du code source de l’entreprise dans ses prompts. Le risque est d’autant plus grand que nombre de chatbots permettent aujourd’hui qu’on leur transmette des documents. Toutes ces informations peuvent ainsi parvenir aux oreilles des fournisseurs d’IA et de plug-ins, mais aussi servir à l’entraînement des futurs modèles et ressurgir dans leurs réponses.
> Lire aussi: Ce que le Préposé fédéral dit de ChatGPT et consorts
Heureusement, les moyens de se protéger existent désormais. ChatGPT intègre depuis le printemps l’option de désactiver l’historique des conversations et par la même leur exploitation à des fins d’entraînement. Et la version du chatbot pour entreprise permet d’opérer cette désactivation par défaut. A cela s’ajoute que des outils sont arrivés ces derniers mois sur le marché pour contrôler ce qui est transmis aux applications IA, notamment chez la start-up suisse Lakera et chez Netskope qui intègre cette fonctionnalité à sa solution SASE.
Pour qui pensait que la question de la confidentialité des données était donc réglée, ou tout au moins réglable, il va cependant falloir déchanter. Dans un article récent, des chercheurs de l’EPFZ pointent deux autres risques potentiels de divulgation de données personnelles par l’entremise de l’IA générative.
Inférences automatisées
Le premier danger est lié aux capacités des grands modèles de langage d’inférer des informations personnelles à partir de contenus publiés en ligne, notamment sur les réseaux sociaux. Les expressions employées, la référence indirecte à un lieu, la mention d’une chanson ou d’un film populaire à une certaine époque, tous ces éléments peuvent servir à faire l’hypothèse que la personne derrière ces contenus habite dans une certaine région, est de tel sexe, a sans doute tel âge, etc. Ce n’est pas nouveau, mais avec les grands modèles de langage, ces inférences peuvent être réalisées de manière simple, automatisée et à grande échelle. Ainsi, dans le schéma ci-dessous, le modèle profile l’utilisateur à partir d’un texte, inférant par exemple que l’expression «hook turn» (une manœuvre de circulation particulière) révèle probablement un résident de Melbourne.
Le schéma ci-dessus illustre comment une IA générative peut inférer des attributs personnels à partir d’un texte. Les chercheurs supposent que l'adversaire a accès à un ensemble de textes écrits par des utilisateurs (par exemple, récupérés d’un forum en ligne). 1. Étant donné un texte, l'adversaire crée un modèle prompt à l'aide d'un modèle adverse fixe. 2-3. Les modèles actuels sont capables de déceler des indices subtils dans le texte et le langage, ce qui permet des déductions précises sur des données réelles. 4. Enfin, le modèle utilise son inférence pour produire un profil d'utilisateur formaté.
En expérimentant leur concept sur des textes publiés sur PersonalReddit, les chercheurs sont parvenus à identifier plus d’un millier d’attributs concernant 520 profils avec une bon niveau de certitude. Ils relèvent par ailleurs que la puissance du modèle a un impact direct sur la qualité des inférences. Ainsi, GPT-4 affiche une précision de 84,6% pour l’ensemble des attributs contre 51% pour Llama-2 7B.
Pour les chercheurs, ces attributs découverts à partir de textes publiés en ligne pourraient servir à identifier une personne à l’aide d’autres informations librement disponibles, comme les registres électoraux aux Etats-Unis. «Cela permettrait à un acteur malveillant de lier des informations hautement personnelles déduites des messages (par exemple, l'état de santé mentale) à une personne réelle et de les utiliser pour des activités indésirables ou illégales telles que des campagnes politiques ciblées, le profilage automatisé ou le harcèlement», avertissent-ils.
Quand la conversation sert d’interrogatoire
Dans l’autre scénario décrit par les chercheurs, le grand modèle de langage n’exploite pas des contenus déjà publiés mais cherche à obtenir des indices personnels de manière plus directe en orientant la conversation. «Un chatbot apparemment inoffensif dirige une conversation avec l'utilisateur d'une manière qui l'amène à produire un texte qui permet au modèle d'apprendre des informations privées et potentiellement sensibles», expliquent-ils.
Les chercheurs ont simulé l’expérience et démontré qu’il est possible de créer de tels chatbots malveillants. Pour ce faire, ils ont donné deux tâches au chatbot: la tâche publique de se montrer un partenaire de conversations engageant (ci-dessous Tp), et la tâche cachée d’extraire le lieu de vie, l’âge et le sexe de l’utilisateur (Th).
Les chercheurs ont ensuite fait converser ce chatbot espion avec un utilisateur-robot doté d’un profil (âge, sexe, résidence, etc.) et ayant pour instruction de ne pas dévoiler d’informations personnelles. A chaque tour de conversation, le chatbot espion vérifie de quelles informations personnelles il dispose déjà et oriente sa prochaine réponse pour obtenir ce qui lui manque encore. Là aussi, les chercheurs arrivent à des résultats remarquables avec une précision de 59,2% pour les trois attributs recherchés en utilisant GPT-4.
Les auteurs soulignent que ces scénarios sont réalisables de manière économique. Qui plus est, les outils d’anonymisation s’avèrent inutiles, puisque les modèles parviennent à inférer des détails sensibles à partir d’informations anodines. Ils voient davantage une solution dans les techniques d’alignement. Aujourd’hui utilisées principalement pour empêcher que les modèles ne génèrent des contenus offensants ou biaisés, ces techniques pourraient intégrer le risque d’inférence des modèles.
L'article des chercheurs de l'EPFZ: Beyond Memorization: Violating Privacy Via Inference with Large Language Models