Modèles de langage

Comment Google peut générer automatiquement des résumés dans Docs

Google puise dans le machine learning pour proposer la création automatique de résumer de texte dans son traitement de texte Docs. Les chercheurs de la firme expliquent comment il s’y sont pris.

(Source: Google)
(Source: Google)

Google a récemment annoncé une série de nouveautés venant enrichir les applications bureautiques Google Workspace. Dont une fonction de création de résumé d’un texte dans Docs, qui devrait prochainement passer en disponibilité générale. Dans un billet de blog, la firme dévoile les détails de la mise au point de cet outil s’appuyant sur le machine learning.

La fonctionnalité consiste plus exactement à générer des suggestions pour aider les rédacteurs de documents à créer des résumés de contenu, selon les termes de Google. Le modèle de machine learning passe en revue le texte et, s’il est suffisamment sûr de son degré de compréhension, produit une à deux phrases synthétisant le texte. Le rédacteur peut ensuite accepter le résumé tel quel, le modifier ou l'ignorer. Comme un sommaire interactif, le résumé sert en outre à naviguer au sein du document.

Transformeur + Pegasus

Pour créer ces capacités de résumé de texte, les chercheurs de Google ont fait appel à un modèle de deep learning qualifié de «transformeur» combiné à un autre modèle, baptisé Pegasus. Ce dernier permet de s'affranchir de l’étiquetage fastidieux de masse de données d’entrée et de sortie (ici, respectivement, les mots du document et les mots du résumé). Pegasus est un modèle qui introduit un objectif de pré-entraînement auto-supervisé en amont de la formation du modèle final. «Dans le pré-entraînement de Pegasus, également appelé Gap Sentence Prediction (GSP), des phrases complètes d'articles de presse et de documents web non étiquetés sont masquées à l'entrée et le modèle doit les reconstruire, en fonction des phrases restantes non masquées», expliquent les chercheurs de Google. Une étape ultérieure de réglage fin est néanmoins essentielle pour que le modèle s'adapte au domaine d'application. «Nous avons affiné les premières versions de notre modèle sur un corpus de documents contenant des résumés générés manuellement et correspondant à des cas d'utilisation typiques», expliquent encore les chercheurs.

A noter que le modèle doit encore être amélioré car pour l’heure, la génération de résumé ne fonctionne que pour certains types de texte (notes de réunion ou recettes, par exemple, présentent encore trop de difficulté, de même que les documents longs). En outre, la fonctionnalité sera probablement d'abord disponible en amflais, rien n'est précisé concernant les langues supportées).

>> Lire l'article complet des chercheurs de Google

Tags
Webcode
DPF8_251584