Aide auditive

Comment la marque suisse Phonak exploite l’IA pour lutter contre «l’effet cocktail party»

La marque suisse Phonak, du groupe Sonova, lance une aide auditive dotée de deux puces IA. Le système a nécessité la formation de deux réseaux neuronaux, dans l'objectif d’offrir une clarté vocale exceptionnelle dans les environnements bruyants.

L’aide auditive Audéo Sphere Infinio de Phonak. (Source: Sonova)
L’aide auditive Audéo Sphere Infinio de Phonak. (Source: Sonova)

Phonak, marque suisse appartenant au groupe Sonova, a annoncé le lancement de son nouvel appareil auditif, l’Audéo Sphere Infinio, doté d’une technologie IA à double puce. La première assure la qualité audio, la gestion de l'énergie et la connectivité. La seconde puce, baptisée Deepsonic, permet de séparer en temps réel la parole des bruits de fond. 

Solution contre «l’effet cocktail party»

Garantir aux personnes souffrant de perte auditive de pouvoir entendre les voix de façon claire dans des environnements bruyants est un défi majeur (une difficulté due à ce que les chercheurs en psychoacoustique appellent «l’effet cocktail party»), souligne Phonak dans son communiqué. Ajoutant que jusqu’ici, l’IA n’a pas été exploitée directement pour y répondre. Selon le fabricant, la puce Deepsonic est capable de distinguer la parole dans un contexte bruyant avec une puissance de traitement 53 fois supérieure à celle des technologies actuelles de l'industrie des aides auditives. 

Un premier réseau neuronal qui imite la perception acoustique humaine

Selon un article technique publié par Phonak, contrairement aux systèmes basés sur des règles qui tentent de filtrer les sons indésirables, la technologie au cœur de l’Audéo Sphere Infinio imite la perception humaine dans la reconnaissance et le traitement des sons. Un réseau neuronal profond, nommé Spheric Speech Clarity, est associé à un modèle de machine learning (AutoSense OS) qui identifie les situations acoustiques en temps réel. Ce système s'attaque directement à la tâche de débruitage en différenciant les fréquences sonores souhaitées et non souhaitées. 

Le traitement du signal commence avec AutoSense OS qui analyse la scène acoustique pour déterminer le type de traitement requis dans un contexte spécifique. Ensuite, Spheric Speech Clarity identifie et élimine le bruit indésirable du signal audio, ne conservant que les sons de voix clairs. Ce réseau neuronal profond dispose de 4,5 millions de paramètres et a été spécifiquement formé à cette fin sur 22 millions d'échantillons sonores. 

Un second réseau neuronal qui attribue des scores de clarté audio

Pour façonner le meilleur modèle possible capable de générer le rendu vocal le plus optimal, il aurait a priori été nécessaire de recueillir des scores de clarté auprès de testeurs humains. Les équipes de R&D de Phonak ont toutefois automatisé ces mesures, en formant un autre modèle de réseau neuronal profond, appelé Audio Quality Estimator. Le réseau neuronal profond Spheric Speech Clarity a été formé pour convertir les données audio bruyantes en données audio propres, tandis que le second réseau a été entraîné pour simuler les scores d'opinion moyens que les évaluateurs humains donneraient pour un extrait audio donné. 

«Le processus [de recherche] a pris de nombreuses années et un investissement significatif en développement technologique. Nous sommes ravis de voir cette innovation arriver sur le marché maintenant», déclare Andi Vonlanthen, responsable mondial de la recherche et du développement pour les instruments auditifs chez Sonova.
 

Tags
Webcode
qbDrFrSN