Etude de Databricks

GenAI: la personnalisation stimule le recours aux modèles open source

Les entreprises cherchent à personnaliser les modèles GenAI pour des besoins spécifiques. Selon Databricks, 70% d'entre elles utilisent des bases de données vectorielles pour optimiser les résultats des LLM. Dans ce contexte, les outils et modèles open source ont la cote.

(Source: Markus Winkler on Unsplash)
(Source: Markus Winkler on Unsplash)

Les entreprises gagnent en maturité dans leurs usages des technologies au cœur de la GenAI. Selon une récente étude de Databricks, elles sont de plus en plus nombreuses à expérimenter et, surtout, à mettre les modèles de machine learning en production. Selon Databricks, dont le rapport se base sur les données d'utilisation de sa plateforme, le traitement du langage naturel est devenu le type d'application de machine learning le plus utilisé et celui qui connaît la plus forte croissance, devant les modèles géospatiaux, les graphs, les séries temporelles et la vision par ordinateur. 

On observe que les entreprises ne veulent plus se contenter des LLM standards du marché et désirent toujours plus pouvoir personnaliser ces modèles, dans le but de répondre à des besoins spécifiques et pour limiter la génération de réponses erronées. Une tendance qui se vérifie par la hausse impressionnante de l’emploi des bases de données vectorielles dont tire parti la génération augmentée de récupération (RAG), technique employée par 70% des entreprises qui font usage de la GenAI pour optimiser, sans réentraînement, les résultats fournis par un LLM avec des ressources de données supplémentaires. Databricks ajoute que l'utilisation des bases de données vectorielles a augmenté de 377% au cours de l’année 2023. 

Les outils et modèles open source ont la cote

Dans ce contexte marqué par un besoin de customisation, trois quart des entreprises optent pour des outils et modèles open source (souvent en parallèle à modèles propriétaires). C’est d'ailleurs également le cas en Suisse, où les entreprises font notamment appel à Tensorflow et PyTorch mais aussi aux grands modèles de langage ouverts Llama et Mistral (selon 118 responsables interrogés dans le cadre de l’Open Source Studie Schweiz 2024). 

En pratique, les entreprises créent d'abord leurs modèles de machine learning en les testant: elles essaient différents algorithmes et hyperparamètres pour s’assurer de mettre les modèles les plus appropriés en production. «Dans ce processus, les équipes poursuivent deux objectifs concurrents: elles doivent s'assurer que la phase d'expérimentation est aussi efficace que possible en termes de temps, tout en ne mettant en production que des modèles rigoureusement testés», expliquent les auteurs de l'étude de Databricks. Avant de souligner un autre compromis effectué dans le choix d’un modèle, entre performance, coût et latence. Les deux derniers aspects auraient plus de poids, à en croire les données de Databricks, qui note que les plus petits modèles open source, en nombre de paramètres, sont privilégiés. Parmi les utilisateurs de Meta Llama 2, Llama 3 et Mistral, 77% choisissent des modèles avec 13 milliards de paramètres ou moins. 

Webcode
adWSUpjM