OpenAI mesure les hallucinations de ses LLM (et ceux de ses concurrents)
Pour mieux évaluer la précision de ses grands modèles de langage, OpenAI a mis au point SimpleQA, un benchmark dédié aux réponses factuelles. C'est confirmé: les modèles GPT ont encore des limites.
Nous le savons et en avons tous fait l'expérience: les LLM peuvent halluciner des réponses incorrectes. OpenAI espère bien entendu corriger le tir et améliorer la fiabilité de ses modèles. Pour ce faire, l'entreprise a introduit SimpleQA, son propre benchmark open-source pour mesurer la précision des réponses des grands modèles de langage. L’élaboration de ce nouvel outil a mis en évidence les limites actuelles des LLM pour certaines questions.
SimpleQA a été conçu pour évaluer la capacité des modèles d'OpenAI à répondre à des questions courtes, ciblées et factuelles. La méthodologie repose sur un ensemble de 4326 questions claires, avec des réponses vérifiables, visant à simplifier l’évaluation. En limitant le champ d'application du benchmark à des questions bien définies, OpenAI affirme que SimpleQA permet une mesure plus précise de la factualité.
Des questions délibérément difficiles
Précision importante: pour la sélection des prompts interrogatifs, des formateurs d'IA ont élaboré des questions factuelles et des réponses précises, répondant à des critères stricts: une réponse unique, qui reste constante dans le temps, et une tendance à provoquer des hallucinations. Les chercheurs ont en effet sélectionné uniquement des questions auxquelles au moins une version des LLM d’OpenAI avait fourni une réponse incorrecte. Les résultats reflètent donc la performance des modèles sur des questions délibérément difficiles, et non leur capacité générale à répondre à des questions factuelles.
Un maximum de 40% de réponses correcte
Les résultats indiquent que GPT-4o, la version courante de GPT-4, atteint environ 40% de réponses correctes, tandis que le modèle GPT-4 o1-Preview obtient un score légèrement supérieur. Les modèles plus petits affichent des performances encore moins élevées.
Selon les chercheurs d’OpenAI, SimpleQA pourrait encourager la recherche pour des IA plus fiables. «La corrélation entre la capacité à fournir des réponses factuelles courtes et celle à rédiger des réponses détaillées reste une question ouverte», ont-ils ajouté.
Rendre les LLM plus fiables est probablement un enjeu d’autant plus crucial maintenant qu’OpenAI a lancé son propre moteur de recherche. Lire sur le sujet >> Êtes-vous sûr de vouloir utiliser un chatbot comme moteur de recherche?