Interview

Utiliser les «likes» pour identifier les intox

Dans un article publié fin avril, des chercheurs* ont démontré qu’il était possible de prédire qu’un post publié sur Facebook est une intox, en analysant ceux qui l’ont likée. Explication avec l’un des auteurs, Stefano Moret, doctorant à l’EPFL.

Stefano Moret, doctorant à l’EPFL.
Stefano Moret, doctorant à l’EPFL.

Quelle est l’origine de cette recherche?

L’idée à germé avec différents chercheurs rencontrés dans mon cursus d’étudier dans quelle mesure le machine learning peut aider à détecter des fake news en se basant sur les utilisateurs qui les ont partagées ou, plus précisément, sur ceux qui les ont likées?

Quelle a été votre démarche?

Nous sommes partis d’un corpus de quelque 15’000 posts publiés sur Facebook, et qui étaient classées selon qu’ils proviennent de pages à teneur scientifique ou au contraire conspirationniste. Nous avons ensuite catégorisé environ un million d’utilisateurs selon le type de posts qu’ils ont likés ou non. Nous avons dès lors entraîné des algorithmes de machine learning avec 80% des données. Nous avons employé un algorithme relativement classique de régression logistique et un algorithme plus inédit employé typiquement pour les votes de crowdsourcing. Nous avons ensuite testé sur le solde des données la capacité des deux méthodes à prédire la nature d’un post sur la base de ceux qui l’ont ou pas likée.

Etes-vous satisfait du résultat?

Nous sommes parvenus à de très bons résultats avec une précision de 99% pour le premier algorithme et même plus pour le second. Mais le plus intéressant c’est que nous avons montré qu’il est possible d’atteindre un bon niveau d’identification des posts fake ou fiables avec un jeu de données réduit, de l’ordre de quelques pour-cent. C’est un aspect essentiel car, dans la pratique, on ne peut pas recalibrer chaque jour l’algorithme avec des milliards de posts.

Allez-vous poursuivre cette recherche?

Oui, nous voulons voir dans quelle mesure notre méthode est efficace lorsque beaucoup d’utilisateurs likent à la fois des fake news et des contenus fiables, ou lorsque l’on s’intéresse à des pages et des communautés distinctes de nos données d’entraînement. A terme, notre idée est de proposer une application qui dirait si un post est probablement faux. Dans cette optique, nous réfléchissons aussi à compléter notre approche avec des méthodes qui analysent le style et le langage d’un post pour déterminer sa nature.

* Réf. «Some Like it Hoax: Automated Fake News Detection in Social Networks», Eugenio Tacchini, Gabriele Ballarin, Marco L. Della Vedova, Stefano Moret, et Luca de Alfaro (arXiv:1704.07506v1)

Webcode
DPF8_46036