GPT-3: un modèle à tout faire aux milliards de paramètres
Les modèles de deep learning ultra large, dotés de centaines de milliards de paramètres, dopent les capacités du traitement du langage naturel. A l’instar de GPT-3, système multi-tâche à même de générer des articles de presse et même du code informatique.
Il semble loin le temps où OpenAI jugeait son modèle de traitement du langage naturel trop puissant pour être publié… En 2019, l’organisation à but non lucratif co-fondée par Elon Musk décide de ne pas rendre public les travaux du développement de GPT-2, estimant que cette technologie dopée au machine learning pourrait s’avérer dangereuse en tombant entre les mains de personnes malveillantes. Une année plus tard, OpenAI change son fusil d’épaule et lance publiquement l’API de GPT-3, un modèle cent fois plus puissant. Si GPT-2 compte 1,5 milliard de paramètres, son successeur en possède 175 milliards. Précisons que dans le domaine du machine learning, les paramètres définissent les éléments du modèle qui résultent des données initiales d’entraînement.
A l’instar de GPT-3, les générateurs de texte ont vu leurs capacités boostées par les progrès fulgurants des technologies d’IA. C’est en particulier l’invention du modèle de deep learning qualifié de «transformeur» qui a changé la donne. Ce type de modèle donne la part belle au concept d’attention: contrairement aux modèles de génération précédente, GPT-3 et consorts exploitent les informations de manière différenciée et non pas en fonction de leur ordre séquentiel. La technique permet ainsi au transformeur d’être entraîné plus rapidement.
Un modèle multi-tâches et personnalisable
GPT-3 a été entraîné sur 570 gigaoctets de texte et compte 175 milliards de paramètres. Sa version de base peut effectuer une grande variété de tâches, par exemple faire de la recherche sémantique, traduire, résumer ou reformuler des textes. GPT-3 est aussi à même de générer du texte en se basant uniquement sur la saisie de quelques phrases, voire seulement d’un début de phrase. Le Guardian a publié un article expliquant que les humains ne devaient pas craindre les capacités de l’IA. C’est GPT-3 qui a rédigé le texte de 500 mots, à partir de deux phrases d’instruction et d’environ 50 mots introductifs. Le modèle de langage d’OpenAI peut de surcroît gagner des aptitudes au regard de besoins particuliers. Ses concepteurs ont par exemple élaboré une version de 12 milliards de paramètres. Entraînée avec des paires visuel-texte, la solution est capable de générer de nouvelles images à partir d’un bref descriptif.
Pouvoir procéder à un entraînement spécifique est possible depuis peu pour les développeurs tiers souhaitant affiner GPT-3, afin de personnaliser le modèle selon les besoins de leur application. Pour ce faire, il leur suffit d’exécuter une seule commande associée au fichier de données voulu. La version personnalisée commencera à s’entraîner et sera immédiatement disponible dans l’API du puissant moteur de langage. Une entreprise utilisatrice a ainsi pu confectionner un outil qui simplifie la comptabilité des freelances en classant et en extrayant automatiquement les données utiles pour la déclaration d’impôts, à partir d’un compte bancaire ou de paiement. Une autre aide les entreprises à tirer parti des feedbacks de leurs clients. A partir de données non structurées, le système permet de produire des rapports résumant les commentaires et interactions avec les clients.
Assistance à la programmation
Les modèles de type GPT-3 peuvent également s’avérer utiles dans le domaine de la programmation informatique. Microsoft a par exemple profité de sa licence exclusive d’utilisation commerciale de GPT-3 pour intégrer ses capacités dans Power Apps. Cet outil servant à créer des applications en mode low-code permet ainsi de concevoir des lignes de code traduisant un besoin exprimé par écrit avec des mots simples. Power Apps va générer une ou plusieurs formules parmi les plus pertinentes, l’utilisateur n’ayant plus qu’à sélectionner celle qui lui convient. Pour proposer cette fonction no-code, Microsoft a affiné le modèle GPT-3 en l’entraînant à la compréhension de la logique des formules Power Fx.
Toujours dans le domaine du développement, OpenAI a mis au point le modèle Codex qui possède une grande partie de la compréhension du langage naturel de GPT-3 et qui a été spécifiquement entraîné pour produire un code fonctionnel. Codex est désormais au cœur de la solution d’assistance à la programmation Copilot sur GitHub. Une première version permettait déjà de faire gagner du temps aux développeurs en interprétant à la fois les commentaires et le code en tant que tel, afin de suggérer des lignes de code. Alors qu’une nouvelle version en développement est en mesure de créer du code plutôt complexe à partir de simples instructions en langage naturel. Copilot fonctionne avec un large éventail de frameworks et de langages. Aux dires de Github, la preview serait particulièrement efficiente avec Python, JavaScript, TypeScript, Ruby, Java et Go.
Course au nombre de paramètres
Avec ses 175 milliards de paramètres, GPT-3 n’est toutefois pas le modèle le plus puissant développé jusqu’à présent. D’autres modèles expérimentaux, plus ou moins fonctionnels, ont récemment été dévoilés. Dont deux issus d’une collaboration entre Microsoft et Nvidia, comptant respectivement 530 milliards et 1000 milliards de paramètres. Ce dernier n’est toutefois pas encore suffisamment entraîné pour effectuer des inférences. Un autre modèle ultra puissant est développé en Chine, plus exactement par l’Académie d’intelligence artificielle de Pékin (BAAI), qui a dévoilé en juin dernier le plus grand réseau neuronal jamais créé, baptisé Wu Dao 2.0 – «Lumières 2.0» en français. Avec 1750 milliards de paramètres, Wu Dao a une échelle dix fois supérieure à son concurrent américain GPT-3. Il s’en distingue également par sa capacité à exploiter non seulement du texte, mais aussi des images. Wu Dao a ainsi été entraîné avec 4,9TB de données graphiques et textuelles en chinois et en anglais. Le modèle chinois emploie la technique «Mixture of Experts» développée par Google qui combine plusieurs modèles pour la résolution d’un problème donné. Selon le blog du BAAI, la solution FastMoE des chercheurs chinois s’en distingue toutefois, car elle est open source, ne nécessite pas de hardware particulier et prend en charge le framework PyTorch.
La largeur d’un modèle et ses capacités sont corrélées
Construire des modèles de plus en plus larges est-il pour autant pertinent? Le nombre de paramètres est-il toujours corrélé aux capacités de ces systèmes? Filiale de Google dédiée à l’IA, DeepMind a répondu par l’affirmative en mettant au point Gopher, 280 milliards de paramètres. A l’aide de celui-ci, les chercheurs de DeepMind estiment être parvenus à prouver que plus un modèle de langage possède de paramètres, plus il est performant. Or, c’est seulement vrai pour certaines tâches telles que la lecture, la vérification des faits et l’identification du langage toxique. En revanche, pour des tâches de raisonnement logique, la différence n’est pas significative. Un résultat qui rejoint les explications de François Chollet, responsable de développements chez Google dans le domaine de l’IA (lire son interview). Selon lui, «le deep learning résout bien les problèmes de perception ou d’intuition. Il est en revanche extrêmement mauvais pour les problèmes de raisonnement».
Entraîner des modèles avec un nombre de paramètres aussi élevés n’a toutefois pas que des avantages. Leur taille favorise notamment la reproduction de biais discriminatoire et plus il y a de paramètres, plus la formation des modèles consomme de l’énergie.