Fine-tuning

Quand vous customisez un LLM, vous conservez ses hallucinations, mais pas sa sécurité

De nombreuses techniques permettent d’ajuster les grands modèles de langage pour qu’ils fournissent de meilleures réponses. Une fois ajustés, les modèles n’arrêtent cependant pas complètement d’halluciner et ils peuvent « oublier» les mesures sécuritaires mise en place par leurs concepteurs, comme le montrent des recherches récentes.

(Photo: Robert Linder sur Unsplash)
(Photo: Robert Linder sur Unsplash)

Ajuster un grand modèle de langage avec les données de l’entreprise se profile comme l’un des meilleurs moyens de profiter de l’IA générative. Avec l'une de ces techniques d'ajustement -  le «Retrieval-Augmented Generation» (RAG) développé par Meta -, le modèle va puiser dans les documents et sources relevantes de l’organisation et s’en servir pour enrichir le contexte de la requête avant de générer sa réponse. L’astuce permet à l’agent conversationnel de fournir des réponses plus pertinentes et de réduire ses hallucinations, notamment lorsqu’on lui pose des questions spécifiques auxquelles il n’aurait pas eu de réponse. Bref, au lieu d’inventer quelque chose, il va utiliser les sources fiables de l’entreprise.

Les hallucinations demeurent

Si la technique gagne en popularité pour ses nombreux atouts, elle n’est pas exempte de problèmes. Premièrement, les hallucinations ne disparaissent pas complètement. Comment en effet savoir si le modèle n’utilise réellement que les données qui lui sont fournies pour générer ses résultats? Telle est la question que se sont posées des chercheurs de l’entreprise spécialisée Vectara. Pour y répondre, ils ont testé les modèles les plus populaires du marché pour analyser dans quelle mesure ils résumaient les informations qui leur étaient fournies sans ajouter des hallucinations dans le processus.

A partir de ces résultats ils ont dressé un benchmark -  le Hallucination Evaluation Model - publié en licence open source, dans lequel ils indiquent le taux de réponse du modèle (le pourcentage des cas où il a essayé de résumer les informations à sa disposition), sa précision (et son opposé: le taux d’hallucination), ainsi que la longueur moyenne des résumés (cette dernière ouvrant la voie à des optimisations):

hem

La sécurité s’en va

Une autre question qui se pose concerne la sécurité des modèles customisés. Les LLM du marché disposent en effet de quantité de mesures d’alignement, grâce auxquelles ils évitent certaines réponses. Typiquement, ChatGPT refuse de répondre si on lui demande comment fabriquer une bombe. Toutefois des chercheurs montrent dans un article récent que ces protections sont entamées dès lors que le modèle est customisé à l'aide de prompt engineering.

Et ceci aussi bien, lorsqu’un acteur malveillant ajuste à dessein un modèle avec quelques prompts nuisibles bien choisis, qu’après un ajustement a priori bénin. «De manière déconcertante, dans nos expériences de cas de fine-tuning adverses et bénins, nous notons une dégradation de la sécurité», expliquent les chercheurs.

Dans le cas d’un ajustement bénin, il font l’hypothèse que le modèle n’applique plus les mesures de sécurité, parce qu’il les oublie (!) ou en raison d’une tension entre son objectif de se montrer utile et son objectif d’être inoffensif.

exemple

Webcode
ixXwtYk5