Data lake pour faire simple !
Bien que cela fasse déjà quelques années que le terme « data lake » est apparu il n’est pas forcément évidement de savoir exactement ce qu’il se cache derrière. Voici quelques éléments qui devraient vous aider à y voir plus clair, ou à l’expliquer plus simplement.
Un data lake c’est quoi ?
Un data lake ou “lac de données” est un espace de stockage permettant de regrouper au même endroit la majorité des données utiles à l’entreprises. On peut avoir aussi bien des données structurées (classeurs Excel, tables issues de bases de données, …) que non-structurées (vidéo, son, pdf, …) ou semi-structurées (logs machine aux formats Json ou Xml par exemple) stockées bien souvent dans leur format natif.
Que mettre exactement dans un data lake ?
On peut quasiment tout y mettre comme par exemple :
- Les données issues des CRM et des différents ERP de la société
- Les données de tracking des sites web, c’est à dire toutes les données décrivant le comportement des visiteurs on-site qui sont souvent très volumineuses et riches en informations
- Les données d’utilisation des objets connectés (IoT )
- Les logs des différents serveurs opérationnels utiles pour la cyber sécurité et le monitoring notamment
- Les contenus des appels de call center, souvent au format mp3
- Les Open Data afin d’enrichir les études ou créer de nouveaux services
- Les données issues du data sharing (même usage que pour les Open Data) (Data Sharing)
En résumé, vraiment toutes les données qui peuvent servir à l’entreprise.
La Cnil et les data lakes
Bien que l’on puisse être tenté de vraiment tout stocker, il faut tout de même faire attention. Le stockage des données à caractère personnel est en effet fortement réglementé d’autant plus depuis la mise en application de la RGPD en mai 2018.
Il faut notamment bien prendre en compte :
- Les données personnelles qui sont manipulables ou non dans le cadre d’analyses (nom, prénom, date de naissance, adresse, numéro de téléphone…)
- Les demandes des utilisateurs qu’il est nécessaire d’anticiper (demande d’accès à toutes leurs données, droit de faire rectifier ou effacer certaines de leurs données, droit d’interdire d’utiliser leur données dans certaines analyses, etc…)
Il est donc primordial lors de la création d’un data lake d’anticiper ces points pour ne pas devoir tout revoir par la suite. Un DPO (Data Privacy Officer) peut énormément aider sur ces points qui ne sont pas forcément évidents.
Quoi faire avec un data lake ?
Les uses cases ne manquent pas, et la plupart sont souvent similaires à ceux déjà traités par le passé, à la différence que la centralisation de toutes les données peut grandement aider à les améliorer .
On peut notamment citer :
- La connaissance client 360: pouvoir analyser toutes les données d’un prospect ou d’un client (appels, navigation sur le site, données CRM, etc.) afin de déterminer les actions à mener au bon moment.
- L’IoT : cela génère énormément de données de tous types et un stockage data lake se prête bien à cette thématique pour stocker puis ensuite permettre de tirer partie de ces données.
- La connaissance du marché: que ce soit par le scraping des concurrents, l’achat de données externes, ses propres données, les sources de données hétérogènes ne manquent pas pour venir enrichir les études de marché
Technologiquement ça donne quoi ?
Il existe de nombreuses technologies de stockage sur le marché et l’on peut réaliser un data lake avec nombre d’entre elles. Toutefois la solution la plus répandue et celle d’utiliser des technologies de stockage fichier tel que AWS S3, HDFS, GFS. L’avantage de ces solutions étant de pouvoir stocker tout type de données dans un environnement distribué permettant de répondre aux 3 V du Big Data que sont la volumétrie, la variété et la vélocité. Pour en savoir plus (en savoir plus ici)
Ensuite en fonction des cas d’usages on peut faire remonter les données dans d’autres systèmes de stockage et d’analyse comme les SGBDR de type Redshift ou Snowflake, les bases newSQL, des bases de type NoSQL (en savoir plus) mais également dans des moteurs de calcul comme Spark.
D’un point de vue infrastructure le Cloud se prête bien au data lake dans la mesure où la scalabilité y est native et les coûts maîtrisés, mais une infrastructure « on-premise » peut également fonctionner mais nécessitera un investissement technique, humain et organisationnel plus important.
En conclusion
Mettre en place et maintenir un data lake n’est pas une mince affaire, mais une utilisation avertie peut être un vrai levier de croissance pour une entreprise.
Nous espérons que ce premier article sur le sujet vous a permis d’y voir plus clair. Nous reviendrons prochainement sur les bonnes pratiques pour mettre en place un data lake de manière efficace.
Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE