Agrandir les modèles apporte de moins en moins, les réduire fonctionne de mieux en mieux
Bien que toujours plus grands, les modèles de langage affichent des gains de performance en diminution. Si certaines astuces permettent d’améliorer la précision des réponses, l’industrie commence à sérieusement douter que la solution viendra de la seule augmentation de la taille des modèles. En même temps, les techniques de réduction des modèles progressent et il est de plus en plus possible d’obtenir des performances équivalentes avec des modèles moins coûteux et moins gourmands en énergie.
Il suffit d’utiliser ChatGPT et consorts quelque temps pour se rendre compte des capacités de ces modèles et de leurs limites, à commencer par leurs affabulations. Pour beaucoup de leaders du secteur, ces problèmes de jeunesse allaient être résolus en augmentant la taille des modèles et les volumes de données sur lesquels on les entraîne. Mieux encore, cette échelle toujours plus grande allait tôt ou tard permettre d’atteindre le Graal de l’IA générale.
Cette logique ou cette Loi empirique, qui justifie trimestre après trimestre des investissements dans les capacités de calcul des hyperscalers, convainc de moins en moins de monde et même ces plus ardents adeptes commencent à douter. Ainsi GPT-5, le prochain «modèle frontière» de d’OpenAI annoncé pour la fin de l’année, n’afficherait pas la même progression que ses prédécesseurs, rapporte The Information. Les gains de performance attendus ne seraient pas au rendez-vous et, malgré l’augmentation des paramètres (17’000 milliards selon certaines sources), les modèles persistent à produire hallucinations, fautes de raisonnement et autres réponses incongrues. Ancien acolyte de Sam Altman chez OpenAI et aujourd’hui à la tête de sa propre société, Ilya Sutskever a déclaré à Reuters que les résultats de l'augmentation du pre-training ont atteint un plateau.
«Chaque nouvelle version d'un grand modèle ne semble apporter que des gains marginaux par rapport aux versions précédentes, ce qui indique que les fournisseurs voient des rendements décroissants. Par exemple, si GPT-4 présente des améliorations par rapport à GPT-3.5 en matière de raisonnement et de tâches spécialisées, les gains ne sont pas proportionnels à l'augmentation massive des ressources informatiques requises», confie Erik Schwartz, directeur de l'IA chez Tricon Infotech au média The Stack.
Le fait qu’OpenAI et d’autres soient confrontés et reconnaissent les limites de l’approche focalisée sur la taille réjouit les experts qui en doutaient déjà, comme Gary Marcus et plus récemment Yann Lecun. «Les valorisations élevées de sociétés comme OpenAI et Microsoft reposent en grande partie sur l'idée que les LLM deviendront, à mesure qu'ils se développeront, des intelligences générales artificielles. Comme je l'ai toujours dit, ce n'est qu'un fantasme. Il n'y a pas de solution de principe aux hallucinations dans les systèmes qui se contentent de statistiques de langage sans représentation explicite des faits et sans outils explicites pour raisonner sur ces faits», écrit Gary Marcus sur son blog.
Graphique réalisé par Gary Marcus sur l'évolution de la performance des modèles (mesurées sur le benchmark MMLU).
Améliorations à l'inférence et usages limités
Ce n’est pas pour autant la fin des grands modèles de langage, bien entendu. Les modèles actuels ont démontré leurs étonnantes capacités conversationnelles et de génération de contenus et leur adoption va se poursuivre là où leurs limites ne posent pas de problème: le chatbot pour des recommandations touristiques oui, celui servant au diagnostic médical automatisé non. En revanche, pour s’approcher d’IA plus fiables et plus générales, il faudra sans doute développer de nouvelles techniques complémentaires, à l’instar de l’IA neuro-symbolique de Marcus ou de l’IA planificatrice de Lecun.
Par ailleurs, d’autres techniques appliquées non pas à l’entraînement mais à l’inférence, c’est-à-dire au moment de l’interaction avec les modèles existants, permettent de réduire les problèmes d’affabulation - sans les éliminer pour autant. Le recours à des informations sous contrôle pour alimenter les réponses (RAG), l’explicitation contrainte du raisonnement en arrière-plan (chain-of-thought, employé dans o1 d’OpenAI) comptent parmi les méthodes déjà exploitées permettant d’améliorer les résultats des modèles existants. Sans oublier l’enchaînement d’agents spécialisés et le développement de grands modèles spécialisés entraînés sur des corpus de contenus contrôlés.
Le glissement de la charge de calcul du pré-entraînement vers l’inférence augure d’une évolution de la répartition des capacités, avec moins de méga-dacenters concentrant tous les GPU et davantage de puissance répartie aux quatre coins du globe à proximité des utilisateurs, analyse Sonya Huang, partenaire chez Sequoia Capital. Voilà d’ailleurs plusieurs mois que Microsoft rassure ses actionnaires en promettant que les coûteuses infrastructures d’entraînement pourront être redéployées pour l’inférence.
Les petits modèles rivalisent avec leurs aînés
Si la performance des grands modèles tend à converger et à ne s’améliorer que marginalement, les modèles réduits progressent à grande vitesse. Et ils s’avèrent moins chers et moins gourmands en énergie, tant à l’entraînement qu’à l’inférence. Kai-Fu Lee a ainsi récemment fait part d’un modèle ultra-performant développé par sa société 01.ai (6ème sur le benchmark LMSYS, selon la société), entraîné pour seulement 3 millions de dollars et affichant un coût d’inférence de 10 cents pour un million de tokens. A titre de comparaison, l’entraînement de GPT-4 aurait coûté près de 100 millions de dollars (on parle d’un milliard pour GPT-5) et le million de tokens est facturé entre 10 et 60 dollars.
Si 01.ai a surtout travaillé à optimiser l’inférence, d’autres méthodes sont en vogue pour réduire la taille des modèles. L’une des techniques réside dans la suppression ciblée de certaines couches d’un grand modèle avec un impact négligeable sur la performance. Avec ce procédé, Nvidia a développé des modèles atteignant des performances comparables à Mistral 7B et Llama-3 8B, tout en utilisant jusqu'à 40 fois moins de tokens d’entraînement, selon le rapport State of AI.
Une autre technique - la distillation - consiste à utiliser des grands modèles pour produire des données affinées servant ensuite à entraîner des modèles performants plus petits. Le modèle Gemma 2 9B de Google a par exemple été distillé avec son grand frère Gemma 2 27B.
L’ambition de faire tourner les modèles GenAI sur des smartphones stimule ces développements de modèles moins gourmands. Apple développe ainsi des modèles à taille réduite pour propulser son service Apple Intelligence. De son côté, Microsoft a conçu phi-3.5-mini, un modèle de 3,8 milliards de paramètres rivalisant avec Llama 3.1 8B. Grâce à la quantification à 4 bits, une technique réduisant la précision avec laquelle les poids et activations sont représentées, le modèle n’utilise que 1,8 Go de mémoire permettant ainsi les inférences sur un appareil mobile.
Performance égale à moindre coût
A performance équivalente, il est donc de plus en plus possible d’employer des modèles réduits moins gourmands. Il est aussi possible de le faire à moindre coûts. Selon l’analyse de Guido Appenzeller, investisseur chez Andreessen Horowitz, le coût d’un LLM offrant une puissance donnée a formidablement chuté ces deux dernières années. Ainsi, lors de son lancement fin 2021, GPT-3 coûtait 60 dollars pour un million de tokens pour une performance de 42 sur le benchmark MMLU (un test établi couvrant des sujets dans une cinquantaine de disciplines). Aujourd’hui, il est possible d’atteindre ce même score avec Llama 3,2 3B, vendu 6 cents par million de tokens chez Together.ai. Le prix pour les utilisateurs a été divisé par 1000 en trois ans.
Le graphique logarithmique de Guido Appenzeller montre que, tendanciellement, le prix des tokens pour une performance donnée (ici de 42 et 83 sur le benchmark MMLU) a été divisé par 10 chaque année (ligne en pointillé).