Gestion des données

Pas d'IA sans mettre les mains dans les data

Le travail autour de la donnée est une priorité pour beaucoup d’organisations. L’intelligence artificielle est passée par là: sans données riches, variées et de qualité pour les alimenter, les algorithmes ne donneront pas les résultats attendus et les utilisateurs ne s’y fieront pas. Il va falloir mettre les mains dans le cambouis de la data...

(Source: AA+W / stock.adobe.com)
(Source: AA+W / stock.adobe.com)

Difficile de trouver une entreprise d’une certaine taille ne s’intéressant pas à l’intelligence artificielle. Au-delà du phénomène en vogue, la technologie a ceci pour elle d’offrir des applications dans la plupart des branches et de répondre aux objectifs les plus divers: croissance quand elle permet de créer des offres personnalisées, réduction des coûts quand elle sert à optimiser la supply chain, nouveaux modèles d’affaires quand les entreprises développent des offres d’Insights-as-a-Service.

De quoi expliquer l’engouement actuel pour l’IA, et les organisations suisses ne manquent pas à l’appel. Fin 2018, un tiers des responsables informatiques romands sondés par ICTjournal* indiquaient mener des projets pilotes en la matière. En observateur averti, Olivier Verscheure, qui dirige le Swiss Data Science Center à l’EPFL, confiait récemment à notre rédaction que le centre croule sous les demandes des entreprises.

Pas d’IA sans données

Beaucoup d’organisations ayant placé de grands espoirs dans l’IA, vont connaître ou connaissent déjà des désillusions – une épreuve de la réalité qui fait partie du jeu. Manque de stratégie claire, manque de compétences en data science, les raisons sont multiples et l’une d’entre elles concerne directement l’IT: les données. Une stratégie IA nécessite une stratégie data. La chaîne de valeur de l’intelligence artificielle démarre avec des données de qualité, disponibles et exploitables. Et ces ingrédients font souvent défaut. Selon une enquête menée par le cabinet de conseil McKinsey*, 82% des organisations manquent de stratégie claire pour accéder et acquérir les données nécessaires à l’IA et seul 8% considèrent que leurs systèmes d’IA peuvent accéder à toutes les données utiles.

L’IA contraint donc les entreprises à s’atteler à un domaine moins sexy que les projets-vitrines du numérique: il va falloir mettre les mains dans le cambouis des data... Ou, pour le voir d’un œil plus positif, l’IA redore le blason du travail sur la donnée. «La donnée devient une force motrice essentielle à la transformation numérique, puisqu’elle constitue le carburant qui alimente les nouveaux processus métier et les nouveaux modèles d’affaires», explique Assia Garbinato, Head of Data & Information Management chez Vaudoise Assurances. L’enquête d’ICTjournal témoigne de ce regain d’intérêt: deux DSI romands sur trois considèrent que l’amélioration de l’architecture et de la gestion des données est une priorité élevée. Et les entreprises sont nombreuses à créer des postes d’architectes de la donnée, voire de Chief Data Officer.

Pas d’IA sans données riches et variées

Premier chantier sur la data, s’attaquer au manque de données utiles et variées qui alimenteront les algorithmes de machine learning. Si les données manquent, il faut aller en chercher. D’abord à l’intérieur de l’entreprise où les data sont souvent dispersées dans des systèmes disparates (mainframe, bases de données, fichiers, etc.) ou échappent complètement au radar. Selon une enquête récente de Splunk*, les responsables estiment que 55% de leurs données sont concernées, constituant ce que l’on appelle le dark data.

Autre option, déployer des senseur ou aller chercher des données à l’extérieur de l’entreprise. Qu’il s’agisse de données mises à dispositions par les administrations publiques (open data) ou obtenues sur des places de marché, voire directement auprès de ceux qui les produisent. Selon une étude de Forrester*, plus de la moitié des responsables auraient déjà lancé des initiatives pour améliorer leur exploitation de telles données tierces. Certaines sociétés ont même créé le rôle de data hunter dans leur organisation.

Pas d’IA sans données fiables

Autre chantier majeur, la qualité des data. Il ne suffit pas de collecter et de consolider les données dans de gigantesques data lakes: de mauvaises données produiront de mauvais résultats. En cause, des données non standardisées, dupliquées, incomplètes, périmées, mal orthographiées, mal classées, etc. Juste retour des choses, l’IA apporte certaines réponses techniques à ces problèmes: de nombreux outils et autres API «intelligents» permettent de vérifier les données, de corriger les valeurs absurdes et de remédier aux inconsistances entre données issues de diverses sources.

Mais la gouvernance ne s’arrête pas à ce nettoyage permanent. «Nous devons nous assurer d’avoir une vérité partagée sur les données, y compris sur les données sous-jacentes, sur la manière dont elles ont été traitées et analysées, sur leur diversité», explique Morgan Vawter, directrice Chief Analytics chez Caterpillar*. La plateforme Renku développée à l’EPFL s’attaque précisément à cette problématique de lineage. Sans oublier la question des biais dans les données produisant des résultats naturellement eux aussi biaisés – les exemples ne manquent pas.

Selon un rapport du MIT Sloan Review*, 40% des organisations traitent toutefois ces questions de manière informelle. Alors même qu’elles conditionnent la confiance dans les résultats fournis par les algorithmes.

Utiles pour l’IA, des données standardisées et de qualité sont aussi plus facilement exploitables par les métiers – difficile de faire du marketing efficace lorsque les clients ont un nom différent dans chaque système – et permettent de mieux répondre aux obligations de l’entreprise en matière de privacy. «Il fut un temps où les mauvaises données de contact et le marketing direct bâclé étaient acceptés par beaucoup comme un coût inhérent aux affaires. Aujourd’hui, les menaces d’amendes élevées et l’application de la réglementation incitent tout le monde à faire le ménage dans ses pratiques et ses données client», se réjouit Geoff Grow, CEO de Service Objects*, une société justement spécialisée dans la qualité des data.

Vers l’entreprise data-driven

Au-delà de l’ingénierie de la donnée, le développement de solutions d’intelligence artificielle nécessite le rapprochement entre data owners et data stewards. «Rares sont les entreprises où les propriétaires de données - les responsables métier en charge des informations et des connaissances - côtoient les responsables des données – les ingénieurs qui mettent en œuvre et gèrent la saisie, le stockage et le traitement des données – et apprennent réellement les uns des autres», constate Mariya Yao*, Chief Technology Officer de Metamaven, une société spécialisée en data science. Selon le rapport de Splunk*, moins de la moitié des responsables métiers déclarent travailler étroitement avec les équipes data.

Faute de collaboration et de connaissances croisées, les projets capotent. «Souvent, nous concluons une vente avec un responsable métier qui affirme avoir toutes les données nécessaires prêtes à l’emploi», explique Robbie Allen, fondateur d’Automated Insights, une plateforme de Natural Language Processing pour entreprises. «Nous découvrons alors qu’ils n’ont aucune idée de la façon dont les données sont stockées, qu’elles sont réparties sur un grand nombre de systèmes et que les compétences techniques nécessaires pour obtenir les données correctement sont engagées pour des mois dans d’autres projets. C’est comme ça qu’un projet de 3 mois se transforme facilement en 6 mois ou plus.»

Plus généralement, l’aptitude et la culture de la data doivent progresser dans l’organisation. Selon l’enquête de Splunk*, plus de trois quarts des responsables estiment que la disponibilité des données et la capacité à en extraire de la valeur sera déterminante pour le succès futur de leur organisation. En même temps, plus de la moitié admettent que le terme «data-driven» n’est qu’un slogan dans leur organisation. Idem côté leadership: on juge que demain les décideurs devront être compétents en data, mais on peine à l’appliquer à soi-même. En Suisse, selon un rapport d’Adecco*, parmi les professionnels s’étant formés récemment, plus de 60% l’ont fait dans le domaine des méthodes de travail (management, gestion de projet, etc.) et moins de 20% dans le domaine du numérique et de la data (IA, analyse de données, design digital, etc.). Sans goût et compréhension de la data, les décideurs et collaborateurs ne se fieront pas aux résultats fournis par les algorithmes, pour bons qu’ils soient, et ne les intégreront pas à leur pratique quotidienne. L’IT a sans doute son rôle à jouer dans cette évangélisation, en donnant notamment de la transparence à son travail sur la data.

(*) Références:

CIO Agenda, ICTjournal 2019

Notes from the AI frontier: AI, adoption advances, but foundational barriers remain, McKinsey 2018

The State of Dark Data, Splunk 2019

Hunting For Fresh Insight? Arm Yourself With Our New Guide To Data Sourcing, Jennifer Belissent, Forrester 2019

Data, Analytics, & AI: How Trust Delivers Value, MIT Sloan Management Review 2019

Data Quality Predictions for 2019, Geoff Grow, tdwi.org, 2019

Suck at Data & Analytics? Then You’re Not Ready for AI, Mariya Yao, Topbots

Future-Proofing The Workforce, Adecco et BCG 2018

Tags
Webcode
DPF8_146994