Intelligence artificielle

Mistral AI dégaine un nouveau LLM formé avec l'approche «Mixture of Experts»

La start-up française Mistral AI, qui vient de lever de nouveaux fonds faisant d’elle une licorne, a dévoilé son nouveau grand modèle de langage, formé en suivant l'approche «Mixture of Experts». Explications.

(Source: Google DeepMind /pexels.com)
(Source: Google DeepMind /pexels.com)

Mistral AI, entreprise française, fait partie des start-up actives dans l’IA à suivre de près. Quelques semaines après avoir dévoilé son premier grand modèle de langage, l’entrepise est désormais une licorne. Plusieurs médias rapportent que Mistral vient de boucler un second tour de table de 385 millions d'euros, la valorisant à 1,86 milliard d'euros. Le dynamisme de la jeune société se vérifie aussi avec le lancement d’un nouveau modèle, tout juste annoncé, sous l'appellation Mixtral 8x7B. 

Proposé sous licence Apache, à l'instar du précédent LLM de Mistral, Mixtral serait aux dires de la firme le modèle de langage ouvert le plus puissant - il surpasserait Llama 2 70B sur la plupart des benchmarks avec des capacités d’inférence six fois plus rapides. Et il égalerait, voire surpasserait, GPT3.5 sur la plupart des points de référence standard. Mixtral est multilingue (anglais, français, italien, allemand, espagnol), se montrerait performant en programmation informatique et pourrait gérer une fenêtre de contexte (quantité de texte traiter en une fois) de 32’000 tokens (environ 25’000 mots) soit grosso modo la même que GPT-4

L’approche «Mixture of Experts» 

Les équipes de Mistral indiquent que Mixtral a la particularité de posséder 46,7 milliards de paramètres au total, mais en n'utilisant que 12,9 milliards de paramètres par token. Car le modèle repose sur une approche dite «Mixture of Experts» (MOE) qui permet d'augmenter le nombre de paramètres d'un modèle tout en contrôlant le coût et la latence. Dans un billet de blog publié sur la plateforme Hugging Face, les chercheurs de Mistral vulgarisent la méthodologie et présentent plus en détail ses avantages. 

Pour résumer, l’architecture MOE est composée de réseaux neuronaux distincts, nommés «experts», qui traitent chacun un sous-ensemble différent de données d'apprentissage. Une autre couche (un réseau de passerelles ou routeur) supervise et orchestre le distribution des tokens à ces différents experts, selon le poids de leur expertise pour une tâche donnée. A noter qu’il est possible de transmettre un token à plus d'un expert. Au cours de la formation du modèle, à la fois les experts et le système de délégation des tâches sont entraînés. 

Selon les chercheurs de Mistral, les MOE présentent l’avantage de permettre un pré-entraînement nettement plus efficace en termes de ressources de calcul. En outre, l'inférence est beaucoup plus rapide qu'avec d’autres modèles comportant le même nombre de paramètres. 
 

Tags
Webcode
uEFHcArH