Microsoft publie un jeu de textes pour entraîner les algorithmes à leur compréhension

Microsoft vient de publier 100’000 questions et tout autant de textes que les chercheurs pourront exploiter pour exercer leurs algorithmes d’intelligence artificielle.

«Les cheveux humains font-ils fuir les écureuils?». C’est l’une des questions figurant dans le jeu de données d’entraînement que viennent de publier les chercheurs de Microsoft. Baptisé MS Marco, pour Microsoft MAchine Reading COmprehension, le jeu de données contient 100’000 questions de tout type avec pour chacune plusieurs textes susceptibles de contenir la réponse.

L’équipe de chercheurs de Microsoft à l’origine de cette initiative travaille dans le domaine de l’intelligence artificielle et en particulier sur le développement de la capacité des machines à comprendre des textes. Pour les chercheurs, les assistants intelligents actuels se bornent en général à répondre à des questions préconfigurées tandis que les moteurs de recherche renvoient à un ensemble de textes dans lesquels l’utilisateur devra lui même trouver réponse à sa question. Il souhaitent en revanche que les solutions futures soient par exemple capables de dire à un étudiant s’il remplit les critères pour obtenir un crédit. «Vu la quantité de connaissances contenues dans des textes écrits, si nous arrivons à rendre les machines capables de lire et comprendre des documents aussi bien que des humains, de tels scénarios seront possibles», explique Rangan Majumder, responsable de programme au sein de la division de Microsoft en charge du moteur de recherche Bing.

A l’instar d’Image.Net qui propose des milliers images pour entraîner les algorithmes de reconnaissance, l’objectif du gigantesque échantillon de questions et de textes MS Marco consiste ainsi à fournir aux chercheurs des questions et des textes sur lesquels exercer leurs modèles de deep learning avancés. Avec la particularité que tous les questions sont basées sur des requêtes réelles effectuées sur le moteur de recherche Bing. L’échantillon contient ainsi des questions aussi diverses que «quels sont les bénéfices des énergies fossiles?» ou «que mangeaient les grecs anciens?».

Webcode
DPF8_19532