Llama 4: qu’apporte le nouveau LLM de Meta?
Meta enrichit son catalogue de LLM avec deux nouveaux modèles multimodaux. Les premiers modèles de la famille Llama 4, Scout et Maverick, se basent sur l'approche «Mixture-of-Experts» et seraient les meilleurs dans leur catégorie.

Meta a ajouté de nouveaux modèles à son cheptel de lamas. La dernière version de ses familles de LLM comprend Llama 4 Scout et Llama 4 Maverick. L'entreprise les présente comme ses meilleurs modèles d'IA à ce jour.
Scout et Maverick sont des systèmes d'IA multimodaux. Ils peuvent traiter différents types de données - texte, image, vidéo ou audio - et les convertir dans un format différent. Ils surpassent des modèles comparables tels que GPT-4o ou Gemini 2.0 Flash sur différents benchmarks.
Le géant de la technologie donne également un avant-goût de Llama 4 Behemoth, «l'un des LLM les plus intelligents au monde», selon Meta. Ce modèle en cours de formation surpasserait GPT-4.5 et Claude Sonnet 3.7 dans les benchmarks Math-500 et GPQA Diamond. Il est présenté comme un «modèle enseignant» en raison de son rôle dans le processus de distillation des connaissances. Llama 4 Behemoth, avec ses 288 milliards de paramètres actifs, sert en effet de modèle pour former les modèles plus compacts Llama 4 Scout et Llama 4 Maverick.
Llama 4 Scout et Llama 4 Maverick sont disponibles en «open source» (plus précisément sous la licence Llama 4 Community License Agreement) sur llama.com et Hugging Face. En outre, les modèles Llama 4 peuvent être testés via Meta AI sur Whatsapp, Instagram Direct, Messenger et sur le site web de Meta.AI.
Modèles formés selon l’approche Mixture-of-Experts (MoE)
Cette famille de LLM a la particularité d’être la première que Meta a mis au point selon l’approche Mixture-of-Experts (MoE). On se souvient que la pépite française Mistral AI avait déjà dévoilé un modèle de type MoE fin 2023. Cette architecture permet d'augmenter le nombre de paramètres d'un modèle tout en contrôlant le coût et la latence. L’architecture MOE repose sur l’utilisation de plusieurs réseaux neuronaux spécialisés (les «experts»), chacun étant chargé de traiter un segment spécifique des données d’apprentissage. Une couche supplémentaire se charge de répartir les tokens entre ces experts en fonction de leur pertinence pour la tâche à accomplir. Durant l’entraînement, ce sont à la fois les experts et le mécanisme de répartition des tâches qui sont optimisés.
Llama 4 Scout intègre 16 experts avec 17 milliards de paramètres actifs, et offre une fenêtre contextuelle de 10 millions de tokens, ce qui lui permet de traiter de vastes ensembles de données textuelles et visuelles. De son côté, Llama 4 Maverick comprend 128 experts avec 17 milliards de paramètres actifs et dispose d'une fenêtre contextuelle d'un million de tokens, le rendant adapté à des tâches complexes nécessitant une compréhension approfondie du texte et des images.