Voice Access

Google dope la navigation vocale avec une IA qui reconnaît toute seule la fonction des icônes

En améliorant les capacités de l’outil d'accessibilité Voice Access à l'aide d’un modèle d’IA, les équipes de Google Research permettent une navigation plus riche par commandes vocales, même dans le cas où les icônes d’une application ne sont pas correctement labellisées.

Voice Access s'appuie sur l’IA pour guider les utilisateurs en se référant au nom ou à la fonction des icônes. (Source: Google)
Voice Access s'appuie sur l’IA pour guider les utilisateurs en se référant au nom ou à la fonction des icônes. (Source: Google)

Contrôler un smartphone à la voix peut s'avérer bien pratique, voire essentiel. Encore faut-il pouvoir bénéficier d'une expérience complète prenant en compte la totalité des éléments de l'interface utilisateur. Sauf que les développeurs d’applications ne pensent pas toujours à celles et ceux qui souhaitent ou doivent naviguer sur leur smartphone à l'aide de commandes vocales. Pour combler les lacunes dans ce domaine, Google a amélioré l’IA de son outil Voice Access, qui s’adresse notamment aux personnes souffrant de handicaps moteurs.

Icônes mal labellisées

Dans un récent billet de blog, l’équipe de Google Research explique comment ils ont doté la dernière version de Voice Access de capacités de reconnaissance d'icônes au sein des applications Android. Ainsi, Voice Access 5.0 permet de naviguer au sein d’une app en se référant au nom ou à la fonction des icônes (menu, en avant, en arrière, etc.) même si ces dernières n’ont pas été correctement labellisées. Jusqu’ici, il était nécessaire que les développeurs renseignent correctement dans le code les étiquettes d'accessibilité pour chaque icône afin de pouvoir s’y retrouver en mode de navigation vocale.

Etiquetage de plus de 700’000 screenshots

Cet upgrade de Voice Access se fonde sur IconNet, un modèle d’IA de reconnaissance visuelle d'objets. Celui-ci identifie les icônes des applications à partir d'informations tirées des pixels et identifie leur emplacement et leur taille. Pour former le modèle, les ingénieurs de la firme de Mountain View ont commencé par collecter et étiqueter plus de 700’000 captures d'écran d'applications. Les screenshots ont ensuite été enrichis artificiellement, notamment à l'aide de techniques d'augmentation des données en vue de permettre l’identification d’icônes plus rares.

Adaptation d’un design pour serveurs

«IconNet analyse les pixels de l'écran et identifie les centres des icônes en générant des cartes thermiques, qui fournissent des informations précises sur la position et le type des différents types d'icônes présents sur l'écran», précisent les chercheurs de Google Research dans leur article. Ce modèle tire profit de l’architecture CenterNet, particulièrement adapté dans ce contexte car les éléments de l'interface utilisateur sont constitués de formes géométriques simples et symétriques, ce qui permet d'identifier plus facilement leur centre que pour les images naturelles. Concernant les capacités de calcul, les ingénieurs ont modifié un design adapté aux serveurs sur site pour qu’il fonctionne sur le hardware d’un smartphone. «Nous avons limité à un seul stack la conception de notre réseau sur les appareils et réduit considérablement la largeur du backbone. En outre, comme la détection des icônes repose sur des caractéristiques plus locales (par rapport aux objets réels), nous avons pu réduire davantage la profondeur du backbone sans nuire aux performances», détaillent les chercheurs.

IconNet peut déjà détecter 31 types d'icônes différents, un nombre qui passera bientôt à 70, assure Google Research. Il est en outre prévu d’élargir la gamme d'éléments pris en charge par IconNet pour inclure tout élément générique d’une interface utilisateur, comme les images, le texte ou les boutons.

Tags
Webcode
DPF8_205287