EPFL vs Cambridge vs MIT

Course entre chercheurs pour diagnostiquer Covid-19 dans le son de la toux

A l’EPFL, à l’Université de Cambridge et au MIT, des chercheurs travaillent à développer des algorithmes pour diagnostiquer les personnes positives à Covid-19 à partir du son de leur toux enregistré sur un smartphone. Les résultats sont parfois stupéfiants mais difficiles à reproduire.

Plus besoin de se tester: tousser sur son smartphone pourrait bientôt vous indiquer si vous avez le Covid-19. C’est en tout cas l’ambition de chercheurs de part et d’autre de l’Atlantique, qui comptent sur l’intelligence artificielle pour prédire qu’une personne est positive à partir du son de sa toux enregistré avec son smartphone.

Début avril des scientifiques de l’EPFL lançaient ainsi le projet Coughvid pour collecter en ligne les enregistrements de «tousseurs» volontaires, étape indispensable à l’élaboration ultérieure d’un modèle prédictif et d’une app. «L’application vise à atteindre un taux de précision de 70% lorsque suffisamment de données seront collectées et utilisées pour les tests», expliquait alors David Atienza, directeur du Laboratoire de Systèmes Embarqués de l’EPFL. Cinq mois plus tard, les chercheurs ont réuni un corpus de plus de 20’000 enregistrements, dont quelque 1’500 cas positifs, pour entraîner leurs modèles algorithmiques.

Pneumologues contre algorithmes

Contacté par ICTjournal, Tomás Teijeiro, leader de l’équipe de chercheurs travaillant sur Coughvid à l’EPFL, explique que plusieurs milliers d’enregistrements ont été soumis à des pneumologues, qui ont toutefois peiné à s’accorder sur les diagnostics, hormis quelques cas clairement identifiables.

Les chercheurs espèrent que l’intelligence artificielle fera mieux. Ils ont donc alimenté les systèmes de machine learning avec les enregistrements (nettoyés des sons environnants) et des données démographiques (âge, sexe, etc.). «En l’état actuel de nos travaux, nous parvenons à un modèle capable de détecter 40% des personnes infectées à partir du son de leur toux, et n’identifiant faussement une personne comme positive que dans 3% des cas», explique Tomás Teijeiro. Le spécialiste concède que c’est pour l’heure insuffisant pour une app de diagnostic, voire d’aide au diagnostic. Les chercheurs de l’EPFL poursuivent donc leurs expérimentations…

Algorithme contre algorithme

Et ce ne sont pas les seuls. A l’Université de Cambridge, des chercheurs se sont aussi mis dès ce printemps à crowdsourcer plusieurs milliers d’enregistrements de toux pour développer un algorithme de diagnostic. En juillet, ils annonçaient parvenir à une modèle prédictif offrant une précision de 80%.

Mais les résultats les plus impressionnants viennent de l’autre côté de l’Atlantique. Dans un article récent, des chercheurs du MIT annoncent avoir développé un modèle capable de diagnostiquer 98,5% des cas avec moins de 6% de faux positifs. Et avec des personnes asymptomatiques, leur modèle réussirait même a détecter tous les cas Covid-19 avec moins de 20% de faux positifs. De quoi faire rêver les scientifiques du MIT qui écrivent: «Les techniques d'IA peuvent fournir un outil de dépistage gratuit, non-invasif, à grande échelle, en temps réel, à tout moment et distribuable instantanément pour compléter les approches actuelles visant à contenir la propagation de COVID-19». Et d’imaginer déjà des utilisations pratiques pour le dépistage quotidien des étudiants, des travailleurs et de la population en général.

Dr Tomás Teijeiro, leader de l’équipe de chercheurs travaillant sur Coughvid à l’EPFL.

Difficile reproductibilité

A l’EPFL, Tomás Teijeiro est impressionné de la performance obtenue par les chercheurs du MIT. Face à des résultats «presque trop beaux pour être vrais», il regrette cependant de ne pouvoir ni tester leur modèle avec les 20’000 enregistrements qu’il a collectés, ni expérimenter le modèle de l’EPFL sur les données du MIT.

Ce problème de la reproductibilité concerne toutes les sciences, mais il est particulièrement manifeste en data science où le modèle prédictif résulte de multiples ajustements. Un remède partiel consiste à mettre les données à disposition d’autres chercheurs, ce qu’ont d’ailleurs fait les chercheurs de Cambridge et de l’EPFL. Ou encore de lancer un challenge, par exemple sur la plateforme Kaggle, invitant les spécialistes à développer un modèle algorithmique sur la base d’un jeu de données d’entraînement pour ensuite le mettre à l’épreuve d’un jeu de données test. Tomás Teijeiro y réfléchit sérieusement…

Webcode
DPF8_197025