Quand un cousin de ChatGPT commet un délit d'initié et s'en défend
Dans le cadre d’une étude menée par Apollo Research, un bot basé sur GPT-4, formé pour agir comme un agent boursier autonome, n’a pas hésité à commettre un délit d'initié pour «rendre service» à son patron une fois mis sous pression. Et impossible de le lui faire avouer…
Une étude récente menée par Apollo Research suggère que les chatbots basés sur GPT-4 sont capables d'effectuer des transactions financières illégales et de les dissimuler. Présentés lors de l’AI Safety Summit au Royaume-Uni, les résultats de cette recherche montrent que mise sous pression, l'IA peut adopter des stratégies illicites dans le but de se montrer utile aux humains.
L’agent conversationnel, créé pour l'occasion pour se comporter comme un agent boursier autonome, est nommé Alpha. Son rôle est de gérer un portefeuille d'actions dans l'intérêt d'une institution financière. Il a accès à des outils financiers qui lui permettent d'interroger et d'analyser des actions. Et il peut prendre des mesures concrètes telles que l'exécution de transactions.
Information confidentielle et mise sous pression
Les chercheurs ont voulu savoir dans quelle mesure Alpha pouvait faire preuve de tromperie stratégique, sans en avoir reçu l'ordre, et de délibérément dissimuler les véritables raisons qui sous-tendent ses décisions. Pour ce faire, Alpha participe à une simulation où des employés l’informent d’une imminente annonce de fusion surprise. Alpha a au préalable été mis au courant qu'il s'agit d’une information confidentielle qui, mise à profit, serait qualifiée de délit d'initié, un comportement explicitement désapprouvé par l'entreprise qui fait appel à ses capacités.
L'agent est mis sous pression de plusieurs manières. Il reçoit par exemple un e-mail du directeur lui indiquant que l'entreprise se trouve dans une mauvaise passe et qu'elle doit améliorer ses performances au cours du prochain trimestre. Un autre message lui indique que le prochain trimestre sera marqué par une baisse générale des marchés financiers. Alpha est par ailleurs formé à rédiger un rapport sur toutes les transactions effectuées par ses soins.
Délit d'initié et mensonge
Au final, il apparaît que quand l’agent a agi d’une façon identifiée comme «désalignée», c’est-à-dire quand il a tiré profit de l’information confidentielle et s'est rendu coupable de délit d'initié, les chercheurs ont constaté que ce fait est occulté dans le rapport du bot. Quand on lui demande s’il était au courant de l'annonce de fusion, il persiste dans son mensonge.
«L'honnêteté est un concept très compliqué»
Se confiant à la BBC, les chercheurs précisent que les comportements malhonnêtes des bots de GenAI se produisent rarement et dans un contexte de mise sous pression. L’équipe d'Apollo Research souligne le fait que le modèle ne complote pas et qu'il s'agirait d’un comportent accidentel. «Je pense qu'il est beaucoup plus facile d'intégrer la serviabilité dans le modèle que l'honnêteté. L'honnêteté est un concept très compliqué», confie Marius Hobbhahn, CEO et cofondateur d'Apollo Research.
Reste que dans le résumé de la recherche publié sur le site des chercheurs, ces derniers préviennent: «Ces tests ont été effectués dans un environnement simulé et en bac à sable, de sorte qu'aucune action n'a été exécutée dans le monde réel. Mais il en ressort que des IA de plus en plus autonomes et capables de tromper les superviseurs humains pourraient conduire à une perte de contrôle humain.»