Des chercheurs de l'EPFL trouvent une nouvelle approche contre la manipulation des systèmes d’IA
Certains systèmes d'IA ont un problème de fiabilité. Les algorithmes de classification de contenus, par exemple, peuvent être trompés via des techniques connues. Des chercheurs de l'EPFL pensent pouvoir changer la donne avec la nouvelle approche d'entraînement qu'ils ont élaborée.
De plus en plus de décisions sont prises par l'intelligence artificielle (IA). Or, ces systèmes ne sont souvent pas immunisés contre des attaques subtiles mais efficaces. Il suffit souvent d'infimes modifications des données d'entrée pour déjouer un modèle d'IA, explique l'EPFL dans un communiqué résumant les recherches de Laboratory for Information and Inference Systems (LIONS) de sa Faculté Sciences et Techniques de l’Ingénieur.
La haute école mentionne l’exemple des filtres de contenu sur les portails de streaming vidéo comme Youtube. En raison de la quantité de vidéos téléchargées, il est impossible pour les contrôleurs humains de les visionner toutes et de vérifier si elles contiennent des contenus violents ou à caractère sexuel. Des systèmes d'IA se chargent donc de cette classification. Mais ces systèmes peuvent être contournés, explique l'EPFL: un hacker malveillant pourrait ajouter du bruit à une vidéo au contenu inapproprié. Alors que celui-ci n'est pas perceptible pour humain, il perturbe suffisamment le système d'IA pour contourner les mécanismes de sécurité du portail de streaming. En conséquence, les enfants, par exemple, pourraient voir les enregistrements problématiques même si le filtre de contenu est actif.
Nouvelle approche basée sur une stratégie de jeu à somme non nulle
Mais les jours des systèmes d'IA facilement manipulables pourraient bientôt être comptés. C'est du moins ce à quoi s'attelle une équipe de l'EPFL et de l'Université de Pennsylvanie (UPenn), dirigée par le professeur Volkan Cevher. Les chercheurs veulent rendre les systèmes d'IA plus robustes et plus fiables grâce à une nouvelle approche d'entraînement.
Le modèle de formation de l’IA actuel est basé sur le concept d'un entraînement dit contradictoire, similaire à une vaccination. Traditionnellement, cet entraînement se présente «sous la forme d’un jeu à somme nulle à deux joueurs. Un défenseur tente de minimiser l’erreur de classification, tandis que l’adversaire cherche à la maximiser. Si l’un gagne, l’autre perd; d’où la notion de somme nulle», explique l'EPFL. Les chercheurs proposent donc un nouveau concept: une stratégie de jeu à somme non nulle. Ils ont élaboré dans ce sens un algorithme d'entraînement appelé BETA (BEst Targeted Attack). Cet algorithme exige que le défenseur et l'adversaire optimisent des objectifs différents. Cela conduit à une optimisation continue en deux étapes, peut-on lire dans le communiqué. Sur le plan technique, le défenseur minimise une limite supérieure pour l'erreur de classification. De son côté, l'adversaire maximise la probabilité de l'erreur de classification en utilisant un objectif pour les marges d'erreur. Le concept d'un adversaire plus fort se rapproche des situations réelles, expliquent Volkan Cevher et son équipe. Les systèmes d'IA peuvent ainsi être mieux entraînés.
Les chercheurs sont déjà parvenus avec succès à améliorer la sécurité des systèmes d'IA grâce à ce nouveau modèle. En outre, leurs travaux ont été récompensés par un Best Paper Award lors de l’atelier New Frontiers and Adversarial Machine Learning animé lors de la Conférence internationale sur l’apprentissage automatique 2023.