Technologies Business Intelligence et technologies Big Data, quelles différences?
Qu’appelle-t-on des technologies de stockage business intelligence (BI) classiques ?
Les technologies de stockage de BI dites “Système de Gestion de Bases de Données Relationnelles” (SGBDR) sont les technologies les plus répandues à l’heure actuelle pour stocker et manipuler les données.
Pour utiliser ces technologies de stockage, il est nécessaire de définir au préalable la structure des données ainsi que les relations qui existent entre ces dernières.
Voici par exemple un modèle de base de données permettant de stocker les ventes d’un magasin.
Seules les données respectant ce schéma pourront être stockées dans la base. On ne pourra pas, par exemple, entrer dans la base les informations d’un client dont l’ID n’est pas de type numérique.
Cette rigidité dans le stockage des données permet de respecter parfaitement les propriétés suivantes :
Ces propriétés ACID assurent une cohérence en tout temps des informations dans la base de données. On est ainsi certain de ce que l’on a dans nos bases de données car tout à été défini au préalable.
Ces bases sont manipulables avec le SQL qui est un langage déclaratif assez simple dans sa syntaxe et dont la compétence est très répandue sur le marché du décisionnel.
Ces technologies sont généralement “non-distibuées” (même si certains éditeurs proposent désormais des versions distribuées), c’est à dire qu’elles n’ont qu’une seule machine physique pour stocker et manipuler les données.
Les SGBDR non-ditribués les plus répandus sur le marché sont par exemple : oracle, mysql, sqlserver, postgresql.
Du coup, qu’est qu’une technologie de stockage dite de Big Data ?
Il existe de nombreuses technologies permettant de stocker et de manipuler des grosses volumétries de données :
- les SGBDR distribués qui vont garantir les propriétés ACID énoncées précédemment,
- les bases Not only SQL (NoSQL),
- les bases New SQL
- les systèmes de stockage fichier (exemple : Hadoop HDFS).
Nous détaillerons chacun de ces types de technologies dans de prochains articles.
D’un point de vu global, contrairement aux systèmes classiques, les systèmes Big Data sont tous dits ‘distribués’ c’est -à- dire qu’ils vont avoir non-plus un seul serveur mais ‘n’ serveurs qui vont interagir ensemble afin de stocker et de manipuler les données, c’est ce que l’on appelle un “cluster”.
Un théorème s’applique à ces systèmes distribués (théorème de Brewer) et stipule que ces systèmes ne peuvent garantir parfaitement que deux des propriétés suivantes :
Les SGBR distribués vont garantir la disponibilité et la cohérence. Par contre ils ne respectent pas le partitionnement (si un serveur plante tout le système tombe).
Hadoop et certaines technologies NoSQL privilégient la disponibilité et le partitionnement. Le partitionnement étant extrêmement important si l’on souhaite faire du temps réel. Si un serveur plante le système continue de fonctionner et toutes les données sont conservées. Ces technologies reposent sur la redondance de l’information : un même fichier est répliqué sur ‘N’ serveurs. Lors d’une mise à jour d’un fichier, les répliques sont modifiées les unes après les autres. Si deux personnes interrogent le même fichier en même temps, potentiellement l’une va lire une des répliques à jour et l’autre non (d’où le fait que la cohérence ne soit pas garantie à tout instant).
Certaines technologies NoSQL, elles, se positionnent plutôt sur la cohérence et le partitionnement.
Quoi utiliser et quand ?
Les manières de stocker et de gérer les données peuvent être très différentes d’une technologie distribuée à l’autre, chacune ayant des avantages et inconvénients. Cela sera également l’objet d’un prochain article.
Conclusion :
Les technologies traditionnelles et dites « Big Data » ont chacune leurs avantages et leurs inconvénients. Choisir sa technologie de stockage peut s’avérer de ce fait assez compliqué tant que l’on n’a pas une vue d’ensemble de tout ce qui existe. Nous allons essayer dans de prochains articles de vous donner davantage d’éléments qui vont vous permettre de mieux vous repérer dans cette ‘jungle’ des technologies.
Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE