LLM

Des prompts automatisés rendent GPT-4 performant sur les sujets médicaux

Une récente étude de Microsoft Research révèle que GPT-4, grâce à une stratégie de prompts particulière, dépasse les performances de LLM spécialisés en médecine. La méthode découverte, qui peut être déclinée dans d'autres domaines, pourrait remettre en question la pertinence de procéder à un «fine-tuning» dans la formation de LLM.

(Source: Sensay/fotolia.com)
(Source: Sensay/fotolia.com)

Microsoft Research a publié une étude démontrant la capacité de GPT-4 à surpasser un LLM spécialement entraîné dans le domaine médical. Dans une étude préalable publiée en mars 2023, Microsoft Research avait déjà illustré comment des stratégies de prompt très simples révélaient les capacités de GPT-4 en matière de connaissances médicales, et ce, sans ajustement particulier. La recherche ultérieure révèle l'efficacité de ce que les chercheurs ont nommé le «Medprompt», une méthode composite de prompting. Les résultats publiés sont sans ambiguïtés: GPT-4 atteint plus de 90% de précision sur le dataset MedQA et surpasse les modèles existants sur les neuf benchmarks du MultiMedQA, tout en réduisant le taux d'erreur de 27% par rapport à MedPaLM 2, le LLM médical de Google Deepmind.

Apprentissage en contexte et chaîne de pensée

La méthode se distingue par son approche hybride, combinant apprentissage en contexte (in-context learning) et chaîne de pensée (chain-of-thought). Selon Microsoft Research, la méthode fonctionne car elle fait appel à un prompt généraliste, permettant à GPT-4 de générer ses propres chaînes de pensée pour l'apprentissage en contexte. L'approche démontre ainsi l’efficacité de la capacité auto-générative de GPT-4. En outre, «cette observation fait écho à d'autres rapports selon lesquels GPT-4 possède une capacité émergente d'auto-amélioration via l'introspection, comme l'auto-vérification», précisent les chercheurs de Microsoft dans leur article académique

Le «fine-tuning» remis en question?

La méthode élaborée par Microsoft Research pourrait remettre en question la nécessité de l'ajustement fin («fine-tuning») des LLM dans l'objectif d’atteindre des performances optimales dans des domaines spécifiques. Selon les chercheurs de Microsoft, leurs résultats suggèrent que des stratégies de prompts adéquates pourraient réduire le besoin de procéder à ces ajustements coûteux. Néanmoins, le «fine-tuning» a également ses avantages, notamment en permettant de former des modèles spécialisés plus légers (nécessitant moins de ressources computationnelles) que les grands modèles généralistes à la GPT-4.  

A noter que la portée du «Medprompt», malgré son nom, dépasse le domaine médical. La méthodologie ne comprend en effet aucun élément spécifiquement orienté vers la médecine. L'approche pourrait donc être facilement appliquée à d'autres domaines. Les chercheurs ont déjà observé son efficacité dans le cadre d'examens de compétences professionnelles dans divers domaines, notamment l'ingénierie électrique, le machine learning, la philosophie, la comptabilité, le droit et la psychologie.
 

Tags
Webcode
Hb4MvoRB