Les LLM dits ouverts sont de l’open-washing selon des chercheurs
Meta, Google et d'autres publient des modèles d'intelligence artificielle en libre accès, mais des questions subsistent quant à leur véritable degré d'ouverture. Une récente étude scientifique puisant dans pas moins de 14 critères révèle un manque de transparence concernant les données d'entraînement de la plupart des modèles présentés comme open source.
Meta s'est récemment engagé à créer une intelligence artificielle générale open source. D'autres leaders de l'industrie de l'IA, tels que Mistral, Stability AI et Aleph Alpha, ont également dévoilé des modèles décrits comme open source. Google adopte de son côté une approche fermée avec ses puissants LLM Gemini, tandis que ses modèles Gemma sont librement accessibles et décrits comme ouverts plutôt qu'open source. Mais peu importe la dénomination choisie par les fournisseurs, le débat demeure quant à la véritable nature de ces modèles, souligne un article de la MIT Technology Review. L'importance de ce débat devrait en outre s'accroître avec l'entrée en vigueur de la législation de l'Union européenne sur l'intelligence artificielle (AI Act), qui prévoit des règles moins strictes aux modèles qualifiés d'ouverts.
Le concept d'open source vise à permettre aux développeurs d'utiliser, d'étudier, de modifier et de partager des logiciels sans restrictions. Or, les LLM sont constitués de nombreux éléments différents dont les données d'entraînement, le code de prétraitement des données, le code régissant le processus d'entraînement ou encore l'architecture sous-jacente, explique Stefano Maffulli, directeur exécutif de l'Open Source Initiative (OSI), cité par la MIT Technology Review.
Dans le cadre d’une étude publiée dans la revue «FAccT '24: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency», Mark Dingemanse, linguiste à l'université Radboud de Nimègue (Pays-Bas), et son collègue Andreas Liesenfeld pointent du doigt ce qu’ils décrivent comme un «open-washing» de la part de certains développeurs de LLM. Pour la paire de scientifiques, une évaluation binaire des modèles d’IA n’est pas pertinente. Selon eux, la notion d'ouverture dans l'IA générative est nécessairement composite et graduelle. Et il est risqué de se fier uniquement à des critères comme l'accessibilité ou la licence pour déclarer un modèle ouvert ou non.
Pour évaluer plus de 45 LLM, les chercheurs ont ainsi sélectionné 14 critères regroupés en trois catégories principales: disponibilité des données d'entraînement et des poids; documentation et transparence; accès et licences.
Une évaluation approfondie basée sur 14 critères
La première catégorie inclut des critères relatifs aux données d'entraînement, aux réglages par instructions et/ou aux étapes de fine-tuning (via un apprentissage par renforcement à partir de rétroaction humaine), ainsi qu’aux poids des modèles. Cette dernière notion fait référence aux valeurs numériques attribuées aux connexions entre les neurones d'un réseau neuronal. Le site spécialisé AIModels précise qu'un poids donné représente la force d’une connexion et détermine le degré d'influence d'un neurone sur un autre. Les critères spécifiques de cette première catégorie sont: le code source est-il disponible (open code)? Les jeux de données d'entraînement de base sont-ils accessibles pour inspection (Base LLM data)? Les poids du modèle de base sont-ils disponibles (Base LLM weights)? Les jeux de données utilisés pour le réglage par instructions sont-ils accessibles (Instruction tuning data)? Le modèle ajusté par instructions est-il disponible (Instruction tuning weights)?
La deuxième catégorie évalue le degré de documentation et de transparence des systèmes. Les questions d’évaluation sont: le code est-il suffisamment documenté pour permettre la réplication, l'extension ou la modification (Code)? La documentation de l'architecture du système est-elle disponible (Architecture)? Une prépublication est-elle accessible (Preprint)? La publication a-t-elle été revue par des pairs (Paper)? Une carte du modèle est-elle disponible (Modelcard)? Des fiches documentant les aspects clés de la collecte et de la curation des données sont-elles consultables (Datasheet)?
La troisième catégorie couvre les moyens d'accès au système en tant que tel, incluant la disponibilité des packages logiciels pour le déploiement local, les API et les licences: un package logiciel indexé est-il disponible via un dépôt de logiciels ouvert ou une interface web (Package)? Le modèle est-il accessible via une API et comment l'accès à l'API est-il géré (API)? Les systèmes sont-ils clairement publiés sous des licences approuvées par l'Open Source Initiative ou sous des Responsible AI Licences (Licensing)?
Open source, semi-ouverts ou fermés?
Selon le duo de chercheurs, le manque de transparence concernant les données de formation des modèles est particulièrement préoccupant. Près de la moitié des modèles analysés ne fournissent aucune information détaillée sur les ensembles de données utilisés, se contentant de descriptions génériques. Ils soulignent que Bloom, fruit d'une collaboration internationale et essentiellement universitaire, est un exemple d'intelligence artificielle véritablement open source. En effet, Bloom met à disposition le code source pour l'entraînement, le fine-tuning et l'exécution du modèle. Les poids du modèle de base sont disponibles et les données d'entraînement sont documentées en détail. Le code du projet est lui aussi bien documenté et activement maintenu. En outre, plusieurs prépublications de Bloom décrivent en détail le processus de curation des données et le fine-tuning.
En revanche, de nombreux modèles prétendant être ouverts ou open source - notamment Llama de Meta et Gemma de Google - devraient plutôt être considérés comme «semi-ouverts» car ils se limitent en réalité à la publication des «poids». Pour Mark Dingemanse et Andreas Liesenfeld, un nombre croissant de modèles ne sont ouverts qu'au niveau des poids, alors que la plupart des autres aspects de la façon dont le système a été construit sont gardés secrets. «Cette pratique d’”open-washing” a pour effet de compromettre les normes professionnelles en matière de développement de logiciels et de technologies», avertissent-ils.
«Il est important de comprendre pourquoi les entreprises qui se présentent comme des champions du logiciel libre sont réticentes à fournir des données de formation. L'accès à des données d'entraînement de haute qualité constitue un goulot d'étranglement majeur pour la recherche en IA et un avantage concurrentiel que les grandes entreprises sont désireuses de conserve», fait observer de son côté Zuzanna Warso, directrice de recherche à l'organisation à but non lucratif Open Future, également citée par la MIT Technology Review.
Mise à jour: L’article d’origine, publié le 11 juillet 2024, a été complété après que la rédaction a eu accès à l'article complet de Mark Dingemanse et Andreas Liesenfeld, «Rethinking open source generative AI: open-washing and the EU AI Act», publié dans «The 2024 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’24)».