Pour les sériephiles

Séries TV: un outil de recommandations basé sur les dialogues créé à l’EPFL

| Mise à jour

Des étudiants de l’EPFL ont mis au point un outil de recommandations de séries basé sur leur contenu narratif, en développant un algorithme qui passe au peigne fin les dialogues.

(Quelle: CC0/pexels.com)
(Quelle: CC0/pexels.com)

Des étudiants de l’EPFL ont développé un outil d’un nouveau genre, qui a toutes les chances d’intéresser les fans de séries TV. Dès à présent utilisable sur le site Submetrics.org, le moteur mis au point permet de fournir des recommandations en fonction des thèmes abordés par une série.

Des systèmes de recommandations pour les séries et films existent bien-sûr déjà. Des sites spécialisés comme IMDB ou Allociné, par exemple, fournissent des conseils en se basant sur l’historique de tous les utilisateurs. Alors que la plateforme de streaming Netflix puise dans la masse de données dont elle dispose (historique des internautes, tags de genres et sous-genres édités par les utilisateurs) pour générer des recommandations, mais aussi pour s’assurer du succès des séries qu’elle produit.

Cependant, aux yeux de l’équipe d'étudiants de l’EPFL menée par Raphaël Von Aarburg, ces outils présentaient une limite. Celle de ne pas se baser sur le contenu réel des scénarios. Pour le cours consacré au big data prodigué par la Faculté Informatique et Communications, ces étudiants ont ainsi développé un algorithme en mesure d’analyser les dialogues des séries, puis de les classer en fonction des mots qui y sont le plus souvent prononcés.

Un algorithme pour analyser les sous-titres

Pour pouvoir traiter ces données disséminées dans les dialogues, les étudiants ont eu la bonne idée de puiser dans les sous-titres, des données textuelles disponibles aux quatre coins du web. Leur technologie peut dès lors identifier les aspects narratifs d’une série. En outre, les résultats produits par le moteur de Submetrics.org proposent aussi la liste des mots les plus fréquemment  prononcés dans une série. «La puissance de cet algorithme provient du fait qu’il ne se contente pas de trier les mots en fonction de thématiques. En effet, il comptabilise ceux qui sont caractéristiques comme «vampire ou surgery» par exemple et non «hello» qui va être omniprésent dans toutes les séries», explique dans le communiqué de l'EPFL Khalil Hajji, un des étudiants investis dans ce projet.

Webcode
1760

Kommentare

« Plus