Êtes-vous sûr de vouloir utiliser un chatbot comme moteur de recherche?
L’emploi de moteurs de recherche conversationnels (Perplexity, ChatGPT Search) soulève plusieurs enjeux. Non contents de livrer une liste de liens, les outils synthétisent directement une réponse et prennent en charge une grande partie du travail d’exploration et de sélection des utilisateurs. A cela s’ajoute que les sources indiquées n’étayent pas toujours les réponses.
Après un prototype dévoilé en juillet dernier, OpenAI lance officiellement un moteur de recherche dans ChatGPT. L’outil s’appuie sur une version spéciale de GPT-4o et se nourrit des résultats d’autres moteurs de recherche (vraisemblablement Bing), ainsi que des contenus de fournisseurs d’information et médias avec lesquels OpenAI a conclu des partenariats. Au lieu d’une liste de liens, l’outil répond aux requêtes en langage naturel et intègre des extraits et des sources que les utilisateurs peuvent cliquer pour en savoir plus. Il leur est également possible de préciser leur recherche en conversant avec l’outil.
Bien sûr, les utilisateurs de ChatGPT n’ont pas attendu ce nouvel outil pour lui poser des questions qu’ils adressaient avant aux moteurs de recherche, c’est-à-dire à Google. Bien sûr, OpenAI n’est pas la première entreprise à fournir directement des réponses aux requêtes (Google Quick Answers), ni à combiner grand modèle de langage et moteur de recherche (Bing/Copilot), ni à mentionner des sources dans les réponses (Perplexity.ai). Reste que le lancement de ChatGPT Search officialise cet usage au sein de l’outil pionnier et le plus populaire.
D’intermédiaire à source d’information
Son lancement mérite donc que l’on s’intéresse aux enjeux de cet usage émergent. Autrement dit, qu’est-ce qui change quand on emploie une interface conversationnelle mentionnant des sources en guise de moteur de recherche? D’abord, le pouvoir conféré au moteur de recherche évolue. Avec leur liste de résultats, les moteurs de recherche classiques font autorité sur les références à consulter: «voici les sites sur lesquels vous trouverez ce que vous cherchez». Avec les interfaces conversationnelles, le moteur de recherche fait désormais autorité sur l’information elle-même: «voici l’information que vous cherchez, voici la réponse à votre question».
C’est problématique quand on sait que les grands modèles de langage peuvent inventer des informations et que l’interface conversationnelle renforce la confiance des utilisateurs. «Le fait que l’information absorbée par les modèles leur permettent également de générer des textes apparemment pertinents et cohérents n'en fait pas des sources d'information dignes de confiance - même si le fait d'avoir l'air d'une conversation rend les gens plus enclins à leur faire confiance», expliquent des chercheurs de l’Université de Washington dans un article scientifique sur la question (Situating Search).
Ces moteurs de recherche conversationnels ont aussi un impact sur la diversité des sources d’information. Avec les moteurs classiques, les liens n’apparaissant pas sur la première page de résultats tendaient déjà à être négligés par les utilisateurs. Avec ChatGPT Search ou Perplexity, ces sources moins bien classées disparaissent complètement.
Délégation aux algorithmes
Dans leur article pré-cité, les chercheurs soulignent également la variété des utilisateurs, des usages et des raisons d’employer un moteur de recherche: parfois on sait ce que l’on cherche, parfois on souhaite explorer ce qui dit ou en apprendre plus sur un sujet, parfois on veut sélectionner les sources dans lesquelles on a le plus confiance.
Ces usages peinent à être pris en charge par les moteurs de recherche conversationnels. En synthétisant les informations, ces nouveaux outils réalisent une grande partie du travail pour les utilisateurs. Ces derniers n’ont plus à scanner et sélectionner les résultats, à reformuler leur requête. Cette délégation entraîne une réduction de la charge cognitive mais aussi un appauvrissement des usages et tactiques.
«Nous devrions chercher à construire des outils qui aident les utilisateurs à trouver et à donner un sens à l'information plutôt que des outils qui prétendent tout faire à leur place», concluent les chercheurs.
Les réponses les plus attractives sont les moins sourcées
Comme Perplexity.ai, Chat GPT Search indiquera les sources sur lesquelles s’appuie sa réponse. Pour beaucoup d’utilisateurs, ces mentions et la possibilité d’aller vérifier l’information à la source constituent des arguments décisifs en faveur de ces solutions.
Sauf que ce sourcing des informations n’est pas fiable. Selon une étude comparative (Evaluating Verifiability in Generative Search Engines) de chercheurs de l’Université de Stanford sur divers outils (Bing Chat, NeevaAI, Perplexity.ai, YouChat), la moitié seulement des énoncés figurant dans les réponses sont entièrement étayés par les sources indiquées (recall). Et, dans l’autre sens, une source sur quatre n’étaye pas complètement l’énoncé qui lui est associé (précision).
Ce manque de fiabilité est d’autant plus inquiétant que la seule signalisation des sources renforce la confiance - qui prend en effet le temps de vérifier la source de chaque énoncé? «Nous pensons que ces résultats sont inacceptables pour des systèmes qui deviennent rapidement un outil populaire pour répondre aux requêtes et qui comptent déjà des millions d'utilisateurs, surtout si l'on considère que les réponses générées semblent souvent informatives et utiles», écrivent les chercheurs.
Un autre résultat de leur étude est encore plus problématique: l’utilité perçue des réponses est inversement corrélée à l’exactitude des sources mentionnées. En d’autres termes, moins les énoncés sont étayés par les sources, plus les utilisateurs les jugent fluides et utiles. L’explication des chercheurs: les outils les plus fiables tendent à copier ou à paraphraser les énoncés figurant dans les sources au détriment de la fluidité et de l’utilité. A l’inverse, les outils qui s’écartent des sources ont plus de latitude pour générer ds réponses fluides semblant importantes et utiles.
Plus généralement, les chercheurs constatent «que les moteurs de recherche génératifs existants ont du mal à traiter les requêtes auxquelles il n'est pas possible de répondre de manière extractive (par exemple, l'agrégation d'informations provenant de plusieurs citations) et à pondérer de manière appropriée les citations dont la pertinence varie (sélection du contenu)».
Les deux articles de recherche mentionnés dans l'article:
Chirag Shah and Emily M. Bender. (2022). Situating Search.
Liu, N. F., Zhang, T., & Liang, P. (2023). Evaluating verifiability in generative search engines.