Lama, alpaga, vigogne, guanaco, etc.

Le modèle de langage de Meta fait émerger des modèles adaptés à bas coût - futur écosystème?

Depuis que le modèle de langage géant LLaMA de Meta est accessible et ouvert, les progrès s’enchaînent. A des coûts dérisoires, les chercheurs en créent des versions améliorées se rapprochant des performances de GPT-4. De quoi envisager la naissance d'un écosystème dominant face aux modèles fermés à la OpenAI, estiment des collaborateurs de Google.

Alpaca, Vicuna, ou Guanaco: les modèles s'appuyant sur LLaMA recourent également à des noms d'animaux andins. (Source: Sébastien Goldberg sur Unsplash)
Alpaca, Vicuna, ou Guanaco: les modèles s'appuyant sur LLaMA recourent également à des noms d'animaux andins. (Source: Sébastien Goldberg sur Unsplash)

En février dernier, Meta publiait un grand modèle de langage généraliste baptisé LLaMA (pour Large Language Model Meta AI). Moins performant que GPT-4, le modèle se distinguait par un entraînement ne recourant pas au feedback humain (contrairement à ChatGPT), une taille réduite (de 7 à 65 milliards de paramètres contre 175 milliards pour ChatGPT-3), et un entraînement basé sur un très grand nombre d’unités lexicales (tokens). En résumé, on évite le temps nécessaire au feedback humain, le volume de tokens fait que l’entraînement est plus coûteux en ressources de calcul, mais le modèle en résultant est plus efficace et léger.

L’autre innovation de Meta est la mise à disposition de LLaMA à la communauté scientifique via une licence non-commerciale. Contrairement à des modèles accessibles uniquement via une API, le modèle LLaMA peut être exploité et amélioré par les chercheurs (d’autant plus qu’il a fuité début mars).

Les choses n’ont pas tardé. Le 13 mars, des scientifiques de Stanford annonçaient Alpaca, un modèle bâti sur LLaMA pour une somme dérisoire et améliorant grandement sa performance via un post-entraînement à partir d’’un nombre réduit de questions-réponses créées avec GPT-3,5 (voir l’article d’ICTjournal sur le sujet).

Depuis les développements de nouveaux modèles toujours plus performants s’enchaînent reprenant la méthode Alpaca, à savoir le post-entraînement de LLaMA avec des questions-réponses… et des noms de modèles épuisant le lexique des herbivores andins.  

Le 30 mars, des chercheurs de plusieurs universités californiennes dévoilaient ainsi Vicuna (vigogne), un modèle exploitant la version à 13 milliards de paramètres de LLaMA et quelque 70’000 conversations partagées gratuitement par des utilisateurs sur ShareGPT. Entraîné pour environ 300 dollars, Vicuna affiche des performances proches de GPT-4.

Plus récemment, Meta reprenait elle aussi la méthode pour développer le modèle LIMA. Bâti sur la version à 65 milliards de paramètres de LLaMA, le nouveau modèle n’exploite que 1’000 combinaisons questions-réponses savamment choisies pour son post-entraînement et affiche des performances proches de GPT-4. Selon une étude de Meta, dans 43% des cas, les humains considèrent les réponses de LIMA égales ou meilleures que celles de GPT-4. Ce qui fait dire à Meta que les connaissances affichées par les modèles sont essentiellement héritées de leur entraînement de base et que la phase de post-entraînement apporte surtout une amélioration formelle. LIMA est d’ailleurs l’acronyme de «Less is More Alignement».

Futur écosystème?

Au-delà de l’effervescence académique que le modèle ouvert de Meta a déclenché, il aurait aussi provoqué des débats chez Google. Le site Semianalysis dévoilait début mai un document ayant fuité où des collaborateurs de Google jugeaient que les modèles open source et les adaptations à bas coût (Low-rank) qui y sont apportées par la communauté suscitent des progrès de nature à en faire des modèles dominants par rapport aux modèles fermés.

Pour les auteurs du document, l’effet cumulatif de ces améliorations va faire progresser rapidement la performance des modèles à un coût dérisoire par rapport à celui de maintenir un grand modèle de langage. Rappelant le succès de ceux qui parviennent à bâtir un écosystème autour de technologies open source (comme Android), ils jugent que tant Google qu’OpenAI font erreur avec leurs réticences à ouvrir leurs modèles et que Meta pourrait être le grand gagnant de l’histoire. 

Tags
Webcode
bUcLTPjL