Analyse de données

Chronophage, la préparation des données frustre les data scientists

Passer trop de temps les mains plongées dans le cambouis de la data frustrent les experts en science des données et péjore leur efficacité business, selon l’enquête annuelle d’Anaconda. En outre, les formations dans le domaine ne répondent pas aux besoins des entreprises.

(Source: Bluberries / iStock.com)
(Source: Bluberries / iStock.com)

Pilier des innovations exploitant le machine learning et l'intelligence artificielle, la science des données doit encore gagner en maturité pour fournir une valeur commerciale durable. Voilà le constat principal de la nouvelle enquête annuelle de la plateforme de data science Anaconda, menée auprès de 2’360 étudiants, universitaires et professionnels de la science des données.

L’impact des data scientists sur le business est encore limité par le temps qu’ils passent à préparer les données avant d’attaquer le vrai travail d’analyse. Près de la moitié de leurs journées est en effet consacré à la récupération des données et à leur nettoyage. Moins d’un quart de leur temps est dédié à entraîner des algorithmes et à déployer des modèles en production. Aux yeux des auteurs de l'étude, il s’agit là d’un sérieux problème qui, outre le manque d'efficacité business qui en découle, a de quoi frustrer les experts de la data. Lesquels doivent par ailleurs composer avec d’autres challenges freinant la mise en production des solutions qu’ils contribuent à développer. Dont les besoins de recoder les modèles dans un autre langage de programmation, un manque de compétences disponibles pour déployer les modèles, ainsi que les contraintes liées à la sécurité des données et des réseaux.

Formations lacunaires

L’impact business de la science des données est aussi limité par le mauvais alignement entre le contenu des formations dans le domaine et les besoins des entreprises. L’étude d’Anaconda indique ainsi que les firmes ont avant tout un déficit de compétence en gestion du Big Data et en ingénierie des données. Or, ces disciplines ne figurent même pas parmi les dix principales compétences enseignées dans les programmes de niveau universitaire.

Une dissonance s’observe aussi entre l’enseignement en science des données et les préoccupations des étudiants et professionnels du domaine. A leurs yeux, la thématique IA & éthique (lire notre dossier complet sur le sujet) est prépondérante: les conséquences sociales des biais algorithmiques sont ainsi considérés comme le plus grand problème auquel fait face l’IA et le machine learning (devant les questions de privacy et du risque de voir des emplois disparaître, par exemple). Cependant, seule une minorité ont suivi des cours en la matière. «Les entreprises devraient considérer l'éthique, l'explicabilité et l'équité comme des vecteurs de risques stratégiques et les traiter avec une attention et un soin appropriés, mais nous avons des inquiétudes quant à la capacité de la main-d'œuvre professionnelle du secteur des données à le faire aujourd'hui», font observer les auteurs de l’étude.

Peu de prise de conscience d’ordre éthique

Outre le manque de formation en la matière, les entreprises peinent à prendre conscience des problématiques d’éthique et de transparence liées à l’IA. Moins d’une personne sondée sur cinq ont en effet indiqué que leur organisation a déjà mis en place une solution d'équité ou d'explicabilité. Pour des déploiements futurs, les solutions servant à élaborer des algorithmes d'intelligence artificielle explicables suscitent davantage l'intérêt des entretoises que les questions éthiques (des initiatives sectorielles émergent, par exemple dans l'industrie).

Webcode
DPF8_186219