AI Factory

Pourquoi avez-vous besoin de LLMOps?

par Meryam Assermouh, Data Engineer chez Artefact

LLMOps, pour Large Language Model Operations, répond aux besoins complexes de gestion des LLM. Il propose des outils pour la personnalisation, le suivi et l’évaluation, garantissant que ces modèles sont adaptables et efficaces dans des applications réelles.

(Source: Mike Newbry/unsplash.com)
(Source: Mike Newbry/unsplash.com)

Les LLM sont des modèles de Deep Learning entraînés sur de grandes quantités de données pour comprendre et générer du langage naturel de manière cohérente et contextuelle. Vu le coût élevé pour les développer, les organisations préfèrent des modèles pré-entraînés tels que le GPT d’OpenAI. Ces modèles, riches en connaissances, répondent à une multitude de tâches immédiatement. Pour les personnaliser, on emploie des techniques comme le Prompt Engineering, le RAG et le Fine-Tuning. Le Prompt Engineering cible des résultats spécifiques avec des instructions détaillées, le RAG intègre des données externes pour accroître la pertinence et la performance, tandis que le Fine-Tuning ajuste les paramètres du modèle aux besoins spécifiques de l’organisation.

Pourquoi avez-vous besoin de LLMOps

Les progrès rapides dans la technologie des LLM ont mis en lumière plusieurs défis opérationnels nécessitant des approches spécialisées. Certains de ces défis incluent:

1. La nécessité de personnalisation: Bien que pré-entraînés avec de grandes quantités de données, les LLM nécessitent une personnalisation pour exceller dans des tâches précises. De nouvelles techniques comme le Prompt Engineering, le RAG et le Fine-Tuning facilitent cela.

2. Les changements d’API: Contrairement aux modèles de ML traditionnels, les LLM sont souvent accessibles via des API tierces, qui peuvent être modifiées ou même obsolètes, nécessitant une surveillance et une adaptation continues. Par exemple, la documentation d’Open AI mentionne explicitement que leurs modèles sont sujets à des mises à jour régulières, ce qui peut nécessiter que les utilisateurs mettent à jour leurs logiciels ou migrent vers de nouveaux modèles ou endpoints.

3. La dérive des données: Elle désigne le changement dans les propriétés statistiques des données d’entrée, souvent observé en production quand les données diffèrent de celles utilisées pour l’entraînement des LLM. Cela peut générer des informations inexactes. Par exemple, le modèle GPT-3.5 était limité aux données jusqu’à septembre 2021, puis jusqu’à janvier 2022, rendant impossible la réponse à des questions sur des événements plus récents et causant la frustration des utilisateurs.

4. Évaluation des modèles: Dans le Machine Learning traditionnel, nous nous appuyons sur des métriques telles que la Précision et le Recall pour évaluer nos modèles. Cependant, évaluer des LLM est nettement plus complexe, surtout en l’absence de données de référence et lorsque l’on traite des sorties en langage naturel plutôt que des valeurs numériques.

5. Le monitoring: Le monitoring continu des LLM est crucial. Il est également plus compliqué car il implique plusieurs aspects qui doivent être pris en compte pour garantir l’efficacité globale et la fiabilité de ces modèles. Nous discuterons de ces aspects plus en détail dans la section suivante.

Comment LLMOps relève ces défis

LLMOps s’appuie sur les fondements du MLOps tout en introduisant des composants spécialisés adaptés aux LLM:

1. Gestion du Prompt Engineering et du Fine-Tuning: LLMOps offre des outils tels que les systèmes de contrôle de version de prompts et s’intègre aux frameworks de Fine-Tuning pour automatiser et optimiser ces processus. LangSmith en est un exemple, conçu spécialement pour les workflows des LLM, incluant la gestion versionnée des prompts pour une expérimentation précise et reproductible. De plus, LangSmith améliore le Fine-Tuning des LLM en utilisant des données filtrées et enrichies pour booster la performance du modèle.

2. Gestion des changements d’API: LLMOps établit des processus pour surveiller les changements d’API, alerter les opérateurs des perturbations potentielles et permettre des retours en arrière si nécessaire.

3. Adaptation des modèles aux données changeantes: Cela pourrait être réalisé en surveillant les distributions de données et en déclenchant des processus d’adaptation lorsque des changements significatifs sont détectés. Ces processus peuvent inclure:

  • Ré-entraînement ou Fine-Tuning, selon l’ampleur de la dérive des données et les ressources disponibles.
  • Adaptation de domaine : Fine-Tuning du LLM sur un ensemble de données du domaine cible.
  • Distillation des connaissances (Knowledge Distillation) : Formation d’un modèle plus petit en tirant parti des connaissances et de l’expertise d’un modèle plus grand.

4. Évaluation des LLM: LLMOps emploie de nouveaux outils d’évaluation adaptés aux LLM. Cela inclut:

  • Des métriques basées sur le texte, telles que la perplexité ; une mesure statistique de la capacité du modèle à prédire le mot suivant dans une séquence. Ainsi que les métriques BLEU et ROUGE, qui comparent le texte généré par la machine à un ou plusieurs textes de référence générés par des humains.
  • Analyse des embeddings (représentations vectorielles pour les mots ou les phrases), pour évaluer la capacité du modèle à comprendre les mots spécifiques au contexte et à capturer les similitudes sémantiques.
  • LLM Évaluateurs: Utilisation d’autres LLM pour évaluer notre modèle. Par exemple, cela peut être fait en attribuant un score à la sortie du modèle évalué en se basant sur des métriques prédéfinies, telles que la cohérence, la pertinence et l’exactitude factuelle.
  • Intégration des retours humains: LLMOps intègre des mécanismes pour recueillir et incorporer les retours humains dans le cycle de vie d’apprentissage, améliorant ainsi la performance des LLM. TruLens est un outil qui permet d’intégrer ces évaluations dans les applications LLM.

5. Monitoring des LLM: LLMOps intègre un monitoring continu pour suivre les métriques de performance des LLM, identifier les problèmes potentiels et détecter la dérive des concepts ou les biais. Cela comprend:

  • Monitoring fonctionnel; en suivant le nombre de requêtes, le temps de réponse, l’utilisation des tokens, les taux d’erreur et le coût.
  • Monitoring des prompts; pour assurer la lisibilité et détecter la toxicité et d’autres formes d’abus. W&B Prompts est un ensemble d’outils conçu pour surveiller les applications basées sur des LLM.
  • Monitoring des réponses; pour garantir la pertinence et la cohérence du modèle. Cela comprend la prévention de la génération de contenu hallucinatoire ou fictif, ainsi que l’exclusion de matériel nocif ou inapproprié. La transparence peut nous aider à mieux comprendre la réponse du modèle. Elle peut être établie en révélant les sources de réponse ou en incitant le modèle à justifier son raisonnement (chaîne de ­pensée).

Ces données de monitoring peuvent améliorer la performance et réduire les coûts grâce à des alertes sur l’utilisation des tokens, la mise en cache des réponses et l’optimisation de la latence.

Conclusion

LLMOps est essentiel pour gérer les défis complexes des grands modèles de langage comme GPT. En offrant des outils spécialisés pour la personnalisation, le suivi, et l’évaluation, LLMOps garantit l’efficacité, l’adaptabilité, et la fiabilité de ces modèles dans des applications réelles, tout en surmontant des obstacles tels que les changements d’API, la dérive des données, et la nécessité d’une évaluation continue.

L'auteure: Meryam Assermouh est Data Engineer chez la société française Artefact

L'auteure: Meryam Assermouh est Data Engineer chez la société française Artefact

Tags
Webcode
5nB7FYYZ