Big Data : "security by design" pour une plateforme vivante
Les plateformes de Big Data prennent une importance croissante dans le quotidien opérationnel des entreprises. D’adoption récente, elles sont amenées à évoluer rapidement au gré de la maturation des usages et des besoins métiers, des innovations technologiques et de la modernisation des systèmes sources. Un aspect, cependant, doit demeurer constant au milieu du changement : la sécurité, sur laquelle aucun compromis n’est possible.
Les projets Big Data ont en effet la particularité de manipuler des données qui ne sont pas seulement volumineuses mais aussi, très souvent, sensibles. Que ce soit des données clients en marketing, des résultats de tests en R&D, des données techniques en maintenance prédictive, les informations présentes dans la base Hadoop ou le Data Lake touchent fréquemment au cœur du métier. À l’instar de toute application critique, la solution Big Data doit donc présenter une sécurité irréprochable, et ce malgré l’hétérogénéité fondamentale de ses fondations et sa propre dynamique d’évolution.
Pour relever ce défi, la sécurité doit faire partie des propriétés intrinsèques de la plateforme Big Data, et donc être abordée dès sa conception. Seule cette « security by design » permettra en effet de satisfaire durablement à la double exigence de robustesse et d’évolutivité.
Une analyse de risques figure donc au menu de la phase de conception afin de déterminer, en fonction des données entrantes et des résultats produits, la nature et l’ampleur des menaces potentielles. On peut ainsi en déduire les dispositions à prendre pour garantir la sécurité des données, des accès et des flux tout en prenant en compte l’architecture distribuée des plates-formes Big Data où une même donnée est répliquée, traitée et stockée par plusieurs machines en parallèle.
La sécurité du Big Data passe par la sécurité des données et notamment leur confidentialité, surtout quand il s’agit de données personnelles. La garantir va nécessiter plusieurs mesures complémentaires dont le chiffrement des données pour s’assurer qu’elles ne sont accessibles et lisibles qu’aux personnes habilitées, et l’anonymisation/pseudonymisation des données pour dissocier les informations individuelles de l’identité des personnes. La pseudonymisation est une exigence du récent Règlement Général sur la Protection des Données (RGPD), adopté par le Parlement européen en avril 2016. Visant à renforcer le contrôle par les citoyens de leurs données personnelles et la confiance des utilisateurs dans les services numériques, le RGPD (ou GDPR en anglais) impose également des bonnes pratiques en matière d’exploitation des données, instaurant donc une nécessaire mise en conformité des plateformes Big Data.
Une autre dimension sécuritaire qu’il convient de prendre en compte dans un projet Big Data est l’intégrité des données. Pour garantir l’exactitude et l’homogénéité des résultats de l’analyse, il est en effet essentiel de travailler sur des données qui n’ont pas été altérées au fil des copies et des traitements dans le système d’information, ce que vont permettre de certifier des systèmes de signature et de traçabilité.
La sécurité globale de la plateforme Big Data passe par une sécurisation des accès, en appliquant une gestion fine des droits d’accès (principe du moindre privilège) pour gérer et tracer les droits d’accès au niveau individuel et, une prévention des fuites de données (DLP) permettant d’empêcher la copie des données sur des dispositifs de stockage externes.
Le tout fera enfin l’objet d’une supervision globale qui permettra, notamment, de repérer en temps réel une éventuelle cyber-attaque ou une tentative d’accès non autorisée et d’intervenir avant que les intrus n’atteignent les données.
L’articulation de ces multiples contrôles offrent à la plateforme Big Data une cuirasse sur mesure, à la fois souple, robuste et sans défaut. Mais ce qu’elle protège, comme ce qui la menace, évoluent sans cesse, et pour qu’elle demeure efficace durablement, on procédera à un audit de sécurité régulier avec, en particulier, des tests d’intrusion. Cette approche dans la durée, qui débute dès la conception, est la seule voie possible pour assurer que sécurité et fonctionnalités évoluent de pair tout au long du cycle de vie de la solution.