Comment bien débuter son projet Big Data et analytique ?
Dans tous les secteurs, les entreprises envisagent aujourd’hui de prendre le virage du Big Data et de l’analytique. Elles reconnaissent en effet dans les données un gisement largement inexploité de création de valeur et un facteur exclusif de différenciation. Pourtant, beaucoup hésitent à se lancer, ne sachant par quelle face aborder l’intimidante montagne de données qui se dresse devant elles. Voici, tirée de notre expérience, une démarche qui a fait ses preuves pour débuter l’ascension.
Identifier les cas d’usage
Pour démarrer un projet Big data il est impératif d’identifier les cas d’usages pertinents pour le client comme par exemple : mieux connaître ses clients, personnaliser ses offres, mettre en place une maintenance prédictive… La première étape consiste donc à identifier et énoncer clairement cet enjeu. La technologie ne sera qu’un moyen au service d’un objectif business. Pour cela, on commence par sensibiliser des acteurs issus de divers horizons à savoir les métiers mais aussi au niveau de la DSI, aux principes et aux apports des technologies Big data et analytique pour développer une maturité sur le sujet, Puis nous mettons en place des ateliers collectifs permettant d’échanger sur les besoins, les idées mais aussi les données de chacun. De ces sessions de brainstorming émergent un ou plusieurs cas d’usage prioritaires.
Pour finir, un sponsor interne chez le client est fortement souhaité afin de défendre l'intérêt du projet et apporter l'attention et le soutien nécessaires à une initiative Big Data auprès de la direction de l’entreprise.
Inventorier et qualifier les données
L’étape suivante consiste à recenser et qualifier les données disponibles (internes ou externes à l’entreprise) afin de déterminer les données pertinentes pour le ou les cas d’usages sélectionnés. On identifie ensuite les sources de données, leur provenance (internes à l’entreprise ou provenant d’un partenaire, des réseaux sociaux, des objets connectés, d’un organisme public, par exemple …), puis le type de donnée, son format, la disponibilité et enfin la qualité des données, On identifie également les interlocuteurs, notamment les sachants qui sauront les interpréter et les exploiter.
Organiser et préparer le projet
Pour avancer rapidement et éviter les effets tunnels lors de la mise en place d’un projet Big data, on va mettre en place une démarche agile s’appuyant sur une équipe pluridisciplinaire réunissant toutes les compétences nécessaires : développeurs Big data, data analysts, experts métiers, datascientists, architecte Big data et chef de projet...
On sera ainsi en mesure de réaliser dans des délais restreints un PoC (Proof of Concept) suffisamment abouti pour valider, ou non un cas d’usage à travers la mise en place d’un datalab (plateforme d’expérimentation), et enclencher le passage à la phase d’industrialisation.
Mettre en place la plateforme
Toutes les plateformes Big Data ne sont pas identiques. L’architecture et les composants dépendent du besoin du client, des cas d’usage, des données, etc. On va devoir déterminer en fonction du besoin des clients les outils les plus appropriés :
- de collecte de la donnée,
- Afin de mettre en place les canaux de collecte appropriés, pour cela on s’interroge sur la fréquence d’acquisition (batch, temps réel), sur les volumes et la profondeur d’historiques nécessaires, ainsi que sur la nature et la complexité des flux.
- Puis on s’intéresse à la préparation et la qualité des données collectées : est-il nécessaire de les trier ? de les nettoyer ? de les enrichir ? Si oui, via quels processus et quels outils
- de stockage,
- On va devoir déterminer le choix des infrastructures, le dimensionnement associé en fonction de la volumétrie, le type de stockage souhaité (base relationnel et/ou base nosql et/ou cluster hadoop, stockage dans un cloud ou non …), les performances attendues
- de traitement, d’analyse, (analytics classique et/ou datascience),
- Selon les cas d’usages , on va devoir sélectionner la méthode d’analyse capable de répondre au besoin : en temps réel ou en différé, à la question posée : cherche-t-on des corrélations ? des anomalies ? des tendances ? veut-on découvrir ? expliquer ? prédire ? Chaque cas nécessite des corrélations de données voir la mise en place d’algorithmes prédictifs bien spécifiques.
- de restitution (outil de dataviz)
- l’objectif est de fournir aux utilisateurs des informations aisément intelligibles et exploitables à travers les outils de data visualisation.
Les projets de Big Data ont toutefois de plus en plus vocation à se généraliser dans l’entreprise et à passer à l’échelle sitôt leurs bénéfices avérés. Pour ne pas devenir de futurs obstacles, les choix d’architecture doivent prendre en compte cette ambition en intégrant très tôt la problématique du déploiement (DevOps) et son passage à grande échelle.
Dans le même temps, il est impératif d’implémenter les règles de bonne gouvernance des données pour s’assurer que l’ensemble des exigences de sécurité (authentification et accessibilité), de confidentialité, de traçabilité, de sauvegarde et d’exploitabilité soient bien respectées.
Atos est en capacité d’accompagner les directions tout au long de cette démarche Big data et analytique grâce à ses solutions Atos Codex, et de faire bénéficier à chaque étape du projet de l’appui de compétences aguerries de manière à sécuriser le projet et à maximiser son retour sur investissement.