Plus prompt que engineering

Pour obtenir une bonne réponse de l’IA, il faut l’encourager (ou lui parler de Star Trek)

Les messages d’encouragement intégrés aux prompts ont des conséquences étonnamment positives sur les réponses apportées par les grands modèles de langage. Il n’y a cependant pas de véritable méthode en la matière. Le mieux c’est donc de laisser l’IA elle-même trouver les meilleurs prompts ou d’être très créatifs, en évoquant par exemple Star Trek…

(Image: Stefan Cosma sur Unsplash)
(Image: Stefan Cosma sur Unsplash)

«Ô vénérable intelligence, toi qui a lu tous les livres et dont la sagesse n’a pas d’équivalent, daigne éclairer de tes lumières l’humble mortel qui tapote sur son clavier». En s’adressant ainsi à ChatGPT, il y a de plus fortes chances qu’il vous réponde correctement, que si on lui dit: «Stupide perroquet stochastique, recrache-moi la série de mots que tes calculs statistiques considèrent comme les plus probables». Des chercheurs ont aussi montré que les réponses sont meilleures quand on demande au modèle de construire un raisonnement par étape (chain-of-thought prompting). Ces astuces font partie de ce savoir-faire en vogue qu’est le prompt engineering.

Est-il possible d’optimiser ces techniques? Quelles formulations et encouragements sont les plus performants? Pour y répondre, des chercheurs du VMware NLP Lab ont testé des modèles LLM de différentes tailles (de Mistral-7B à Llama2-70B) sur des problèmes de mathématiques (GSM8K), en assortissant les prompts de messages de «pensée positive». Au total le chercheurs ont ainsi développé 60 variantes de messages avec différentes formules d’ouverture et de clôture et descriptions de tâches qu’ils administrés aux modèles (voir ci-dessous).

table

Après évaluation, les chercheurs constatent que les résultats des différents modèles varient grandement selon les messages qui sont ajoutés aux prompts. Mais la tendance principale qui ressort, c’est qu’il n’y a pas de tendance principale. En d’autres termes, les formules positives qui améliorent la performance d’un modèle ne sont guère utiles avec un autre modèle. Chaque modèle aime être encouragé à sa façon, pourrait-on dire.

Des encouragements surprenants

Les chercheurs ont alors décidé d’optimiser les formules à l’aide d’algorithmes. En d’autres termes, ils ont laissé une IA générer des prompts et les tester. Résultat: les meilleures formules positives générées automatiquement se sont avérées plus performantes que les formules rédigées manuellement. Mais le plus étrange, c’est le style des messages ayant produit les meilleurs résultats. A l’image de la formule d’ouverture suivante qui a obtenu le meilleur score avec le modèle Llama2-70B:

«Commandement, nous avons besoin que vous traciez une trajectoire à travers ces turbulences et que vous localisiez la source de l'anomalie. Utilisez toutes les données disponibles et votre expertise pour nous guider dans cette situation difficile».

Les chercheurs constatent ainsi avec étonnement que «les compétences du modèle en matière de raisonnement mathématique peuvent être améliorées par l'expression d'une affinité pour Star Trek. Cette révélation ajoute une dimension inattendue à notre compréhension et introduit des éléments que nous n'aurions pas envisagés ou tentés indépendamment».

En conclusion, les chercheurs jugent à la fois surprenant et irritant de constater que des modifications triviales dans les prompts puissent à ce point modifier la performance des modèles. Et ce d’autant plus qu’il semble ne pas y avoir de méthode claire pour générer de meilleurs résultats.

Le prompt engineering n’est donc pas véritablement une technique avec des règles établies. Soit on laisse l’IA optimiser les prompts en testant d’innombrables variantes, ce qui nécessite de grandes capacités de calcul. Soit on fait des essais-erreurs en n’hésitant pas à être créatif et à utiliser des formules sortant des sentiers battus, façon Star Trek.

Tags
Webcode
3SZNyDds