Graphes et données vectorielles

SAP et Salesforce dégainent des outils RAG pour connecter les données d'entreprise aux LLM

SAP et Salesforce enrichissent leur service de données respectif de capacités vectorielles et de graphes de connaissances, permettant aux entreprises de puiser dans la RAG afin de personnaliser leurs outils IA basés sur les LLM.

Graphes de connaissances générés automatiquement avec SAP Datasphere Knowledge Graph. (Source: SAP Datasphere Knowledge Graph)
Graphes de connaissances générés automatiquement avec SAP Datasphere Knowledge Graph. (Source: SAP Datasphere Knowledge Graph)

SAP a récemment annoncé l'intégration de nouvelles capacités d'intelligence artificielle générative dans SAP Datasphere, notamment SAP Datasphere Knowledge Graph. Selon le fournisseur, cette nouveauté promet aux entreprises de découvrir des informations et des patterns jusqu'alors invisibles en tirant parti de leurs données internes. De quoi améliorer l'efficacité des modèles d'apprentissage automatique et des modèles de langage à grande échelle (LLM). SAP souligne que Datasphere Knowledge Graph crée automatiquement des graphes de connaissance qui décrivent les relations entre les données, enrichies du contexte commercial inhérent aux sources d'application SAP telles que SAP S/4HANA. Les données peuvent ainsi être traitées comme un réseau sémantique de relations. Avec la prochaine version de SAP HANA Cloud, une capacité vectorielle sera ajoutée aux capacités multi-modèles existantes, précise l’éditeur allemand. Ce moteur vectoriel permettra de stocker et de comparer des vecteurs à l'aide de SQL, ouvrant à des cas d'utilisation tels que la génération augmentée de récupération (RAG).

Les capacités vectorielles ont récemment été introduites dans la Cloud Infrastructure d’Oracle. Avec la création de graphes, elles sont aussi depuis peu intégrées dans le Data Cloud de Salesforce. Le pionnier du CRM en mode SaaS explique qu’avec les graphes, les clients peuvent définir les relations entre les points de données, ce qui leur évite d'avoir recours à des requêtes SQL ou de créer manuellement des recoupements de données. Quelques semaines plus tôt, Data Cloud s'était aussi enrichi d’une base de données vectorielle, une fonctionnalité également destinée à simplifier l'intégration de données d'entreprise pour répondre aux prompts d’interfaces d’IA générative. Cette approche promet une personnalisation simplifiée des LLM avec des données d'entreprises, structurées ou non. 

Graphes de connaissances vs. bases de données vectorielles

Aussi bien les bases de données de graphes que les bases de données vectorielles sont des outils dont tire parti la génération augmentée de récupération (RAG). La RAG constitue un moyen d'enrichir, sans entraînement supplémentaire, les «connaissances» d’un LLM. Graphes et données vectorielles ne sont pas à opposer mais à considérer comme complémentaire, l'une ou l'autre de ces approches de préparation de données étant à privilégier en fonction des besoins spécifiques, de l'avis de différents experts. Sur le site spécialisé CIO.com, Anand Logani, le CDO de la firme EXL explique ainsi qu'une base de données vectorielle stocke et gère des données non structurées - texte, images, audio, etc. - sous forme d'embeddings vectoriels. Ces embeddings capturent les relations sémantiques entre les données. Un framework RAG recherche rapidement des vecteurs mathématiquement proches, ce qui implique une signification similaire, et pas seulement une correspondance de mots-clés. 

De son côté, les graphes de connaissances représentent les données comme un réseau de nœuds et de relations. Ils peuvent gérer des requêtes plus complexes et nuancées basées sur les types de connexions, la nature de leurs nœuds, leur structure et leurs propriétés. Ils peuvent également capturer des relations sémantiques non détectables via une base de données vectorielle. «Par conséquent, il est préférable d'opter pour un graphe de connaissances lorsque l'organisation a besoin d'un outil puissant pour structurer des données complexes dans un réseau interconnecté qui facilite la représentation des données et retrace les relations et les liens entre les points de données [...] Les raisons de choisir une base de données vectorielle plutôt qu'un graphe de connaissances sont le coût et la vitesse. Le graphe de connaissances peut être coûteux, mais si le cas d'utilisation requiert un graphe de connaissances - où l'information est nécessaire d'une manière que seul un graphe de connaissances peut fournir - alors le prix vaut la précision de l'output», résume le CDO d’EXL. 

Tags
Webcode
497oQmdb