Le français Pleias lance des LLM entraînés sur des données autorisées
L’entreprise française Pleias a publié Pleias 1.0, une famille de petits modèles de langage multilingues, économes en ressources et conformes à la législation européenne. Ces LLM ont été formés exclusivement à partir de données ouvertes et autorisées.
«Ils disaient que c'était impossible»… C’est ainsi que les responsables de la start-up française Pleias titrent l'annonce du lancement de leur LLM. La famille de modèles Pleias 1.0 est constituée de petits LLM entièrement ouverts et multilingues. Conçus pour des applications locales et économes en ressources, ces modèles comptent de 350 millions à 3 milliards de paramètres. Les variantes Pleias-Pico et Pleias-Nano sont spécialement taillées pour le RAG (Recovery Augmented Generation). Les langues entièrement prises en charge sont l'anglais, le français, l'espagnol, l'allemand, l'italien, le néerlandais, le latin et le portugais.
Les LLM de Pleias reposent sur une approche utilisant exclusivement des données ouvertes conformes à la législation européenne. Pour les entraîner, Pleias a fait appel aux jeux de données réunis sous le projet Common Corpus. «Peias a été créé en décembre 2023. En moins d'un an, nous avons constitué Common Corpus, le plus grand corpus multilingue de pré-entraînement sous licence libre ou autorisée», explique sur Linkedin Pierre-Carl Langlais, cofondateur de la start-up.
Ces jeux de données comprennent des données non protégées par le droit d'auteur ou sous licence permissive, couvrant des sources culturelles (livres du domaine public, journaux et contenu Wikisource), gouvernementales (documents financiers et juridiques provenant de sources telles que la SEC, l'OMC, Europarl et Caselaw Access Project), scientifiques (Open Alex et d'autres répertoires scientifiques ouverts) et basées sur le web (dont Wikipedia et YouTube Commons). Tous les contenus sources ont été soigneusement filtrés pour répondre à des normes d'éthique et de qualité. En outre, Pleias a développé des pipelines spécialisés pour détecter et réduire les contenus potentiellement toxiques.
On sait que les modèles linguistiques sont souvent critiqués pour leur formation basée sur des contenus protégés par des droits d'auteur. L’approche de Pleias bouscule ces pratiques en démontrant qu’il est possible de former des IA performantes exclusivement à partir de données ouvertes. Une position qui va à l’encontre des déclarations de Sam Altman, CEO d’OpenAI, qui avait estimé impossible de développer des modèles linguistiques sans enfreindre le droit d'auteur.