Comment s’y retrouver dans l’écosystème technologique Big Data ?
L’écosystème technique et technologique qui gravite autour des problématiques des données est très fourni et en faire une cartographie simplifiée n’est pas une chose aisée.
La cartographie suivante que nous vous proposons donne une vision non-exhaustive, mais permet d’avoir une première vue d’ensemble de ce qui existe.
Qu’est ce qui existe pour le stockage ?
De nombreuses solutions de stockage de la data existent, et ces dernières sont souvent complémentaires.
Nous avons notamment des solutions dites “non Big Data”, car ayant un stockage “non-distribué” (un seul serveur pour stocker et analyser les données) :
- les Systèmes de Gestion de Bases de Données Relationnelles (SGBRD) non-distribuées
En solution dites “Big Data”, car ayant un stockage “distribué” (plusieurs serveurs pour stocker et analyser les données) :
- les bases relationnelles distribuées (MPP)
- les distributions Hadoop (stockage fichiers)
- les bases NewSQL pour le in-memory
- les bases NoSQL (Not Only SQL) clé/valeur
- les bases NoSQL orientées colonnes
- les bases NoSQL orientées documents
- et les bases NoSQL orientées graphes
Tous ces types de bases ont des caractéristiques qui leur sont propres, et sont de ce fait plus ou moins adaptés aux différents contextes.
Pour plus d’information sur les différentes bases NoSQL par ici et pour Hadoop ici .
Quels outils pour la récupération des données ?
Concernant la récupération des données nous allons avoir des outils présents sur le marché depuis longtemps qui sont principalement des ETL (outils d’extraction, de transformation et de chargement des données) ou des ELT (Outils d’extraction, de chargement puis de transformation de données).
Ces outils se sont adaptés au contexte « Big Data » en proposant des connexions aux principales nouvelles bases et en se positionnant davantage comme des ELT sur ces problématiques de Big Data. C’est-à-dire qu’ils vont générer du code qui sera traité par la plateforme “Big Data”, afin d’exploiter la puissance de cette dernière.
De nouvelles solutions ETL telles que Syncsort ou Hurence ont été conçues pour des environnements distribués.
Des modules Open Sources sont également disponibles pour la récupération des données tels que Kafka ou Flink mais aussi pour l’analytics en temps réel tels que Spark et Storm.
Outils d’analyse de données ?
Niveau analytics les outils d’analyse reconnus sur le marché permettent l’interaction avec le monde du Big Data ( SAS, R et SPSS …)
De nouveaux outils facilitant notamment la phase de préparation de données, tels que Dataiku, voient le jour.
Ils existent également d’autres outils qui sont spécialisés pour certains types d’analyse comme le text mining ou l’analyse des réseaux sociaux.
Et la visualisation dans tout ca ?
De nombreux outils de visualisation sont présents sur le marché.
Nous retrouvons des outils proposés depuis longtemps, faits principalement pour le reporting de masse tels que Business Object ou OBIEE.
Des outils permettant de mettre en place des tableaux de bords plus dynamiques voient le jour plus récemment, comme Qlikview et MicroStrategy.
Certains outils comme Tableau Software ou TIBCO Spotfire essaient de donner le plus possible la main aux utilisateurs, afin qu’ils puissent consulter et analyser eux mêmes leurs données, et ce, sans posséder de compétences techniques particulières.
De nombreuses librairies javascript permettent également de faire de très belles visualisations mais nécessitent des compétences en scripting.
En Conclusion
Nous avons délibérément choisi de ne pas vous présenter une cartographie exhaustive des technologies présentes sur le marché, afin de gagner en lisibilité et de vous présenter principalement des outils que nous avons eu l’occasion d’utiliser/de tester.
Dans de prochains articles, nous aurons l’occasion de détailler cet écosystème, et nous commencerons par zoomer sur la partie stockage !
Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE