L’écosystème Data d’Amazon AWS
Qu’est-ce que le cloud ?
Le terme Cloud ou nuage en français fait référence aux solutions de stockage distant. Ces solutions permettent de stocker des données sur des serveurs distants et accessibles via internet. Pour ce faire les fournisseurs d’offre cloud ont en charge la gestion et la maintenance de gigantesques salles de serveurs de stockages appelés Datacenter réparties dans le monde entier.
Pourquoi utiliser le cloud ?
Passer par le cloud pour stocker ses données et applications peut s’avérer très utile notamment pour :
- Ne pas avoir à gérer son infrastructure technique
- Bénéficier en tout temps des dernières technologies du marché
- Avoir une architecture scalable (facilité à ajouter ou à supprimer des serveurs) et hautement disponible (Répliques des données sur plusieurs datacenter)
- L’infogérance automatique (en cas de surcharge de la puissance serveur est automatiquement ajoutée pour éviter le crash)
- Potentiellement mieux gérer ses coûts.
Amazon ce n’est pas que les livres et le shopping?
Et non Amazon a de multiple activité dont notamment Amazon Web services (AWS) qui est leur plateforme de services cloud sécurisée
Que propose Amazon AWS en data ?
Voici une cartographie non exhaustive mais qui contient les principales solutions packagées et proposées par amazon pour les sujets de data. Il est bien évidemment possible d’installer et de déployer sur des serveurs amazon n’importe quel software mais on perd certains avantages d’amazon comme le management clic bouton et le support sur le service:
L’intégration :
Amazon Kinesis Firehose : Ce module permet de récupérer des données en temps réel et de les pousser vers une solution de stockage tel que S3 ou redshift ou également dans un modul d’analytics tel que Amazon Kinesis Analytics.
Amazon Kinesis Streams : Ce module permet de concevoir des applications pour traiter ou analyser des données en streaming.
Amazon Kinesis Analytics : Ce dernier module de la suite Kinesis permet de traiter des données en temps réel avec du SQL standard.
AWS IOT : Plate-forme cloud permettant de gérer et de sécuriser l’interaction des appareils connectés entre eux ou avec des application cloud.
AWS Greengrass : Logiciel permettant l’exécution des services locaux de calcul, de messagerie et de mise en cache des données pour les appareils connectés.
Stockage Objet :
S3 : Système de stockage d’objets. Permet de stocker n’importe quel objet dans son format natif (.ppt, .txt, .jar, .zip etc…). Très peu cher et scalable
Stockage relationnel :
Amazon Aurora : Base de données relationnelle basée sur Mysql, proposant des débits 5 fois supérieur à celui d’une base de données Mysql Standard à matériel égal.
Amazon RDS (Relational database service) : Service permettant de déployer, configurer et gérer une base de données relationnelle dans le cloud amazon en “clique bouton”. Les 6 moteurs les plus répandus sont proposés (Oracle, Mysql, postgreSQL, MariaDB, Microsoft SQL Server et Amazon Aurora).
Amazon Redshift : Entrepôt de données distribué (MPP) conçus pour l’analytics (concurrent notamment de Vertica). Très performant sur de très grosses volumétrie de données avec un prix assez attractif.
Stockage NOSQL :
Amazon ElasticSearch : Permet le déploiement, l’utilisation et la mise en échelle assez facilement d’un cluster elasticsearch. Ce moteur de recherche basé sur le stockage document est très intéressant notamment pour tout ce qui est analyses des logs, stockage de référentiel et surveillance d’applications.
DynamoDB : Base de donnée orientée document serverless permettant d’avoir des temps de traitement très rapide avec des latences de quelques milliseconde sur de très grande volumétrie. Pour en savoir plus cliquer ici
DynamoDB pour titan : Permet la création de bases de données orientées graphe via Titan.
Amazon Hbase : Permet le déploiement et la gestion d’un cluster Hbase, une des bases NoSQL orientée colonne de référence. Pour en savoir plus cliquer ici
Amazon elastic cache: Permet de déployer et de gérer une base NoSQL de type clef valeur (Redis ou Memcached). Ces bases sont principalement utilisées pour la mise en cache d’objet. Plus de détail ici
Pour mieux comprendre les bases Nosql d’une manière général : ici
Hadoop:
Amazon EMR : Permet de déployer facilement un cluster Hadoop et de l’administrer. Pour en savoir plus sur l’écosystème hadoop : ici
Analytics :
AWS Lambda : Ce service permet d’exécuter du code (Node.js, Java, C# ou Python) sans nécessiter le provisionnement ou la gestion des serveurs. C’est ce service qui prend en charge l’exécution du code sur une infrastructure de calcul à haute disponibilité et la gestion de toute l’administration des ressources de calcul, y compris la maintenance des serveurs et du système d’exploitation, le dimensionnement des capacités et la mise à l’échelle automatique, ainsi que la surveillance et la journalisation du code
Athena : Service de requêtes interactif permettant d’analyser des données stockées dans S3 en utilisant le SQL. Athéna fonctionne comme AWS lambda sans serveur, le paiement se fait à la requête, amazon se charge d’allouer les ressource qu’il faut.
Amazon EC2 : Service Web fournissant une capacité de calcul redimensionnable dans le Cloud.
Amazon Lex : Service permettant de créer des interface de conversation dans une application reposant sur la voix et le texte. Intéressant pour la mise en place de chatbots.
Amazon Polly : Service permettant de transformer le texte en paroles. Très utile pour créer des applications vocales.
Amazon Rekognition : Service permettant d’intégrer dans des applications, l’analyse des images. Il permet notamment de détecter des objets, scènes ou des visages dans des photos et vidéos.
Amazon Machine learning : Service permettant de faciliter l’utilisation des technologies de machine learning pour les datascientist de tous niveaux. Ce service est scalable ce qui lui permet de bien fonctionner sur de gros volumes de données.
Visualisation :
Amazon QuickSight : Outil de visualisation se connectant à n’importe quelle source de données, quelles soient sur amazon ou non. Se veut concurrent notamment de power BI / qlik sense
Kibana : Solution de visualisation associée à elasticsearch très intéressante pour le monitoring en temps réel.
Conclusion :
Nous espérons que cet article vous aura aidé a y voir plus claire dans cet écosystème data bien fourni d’Amazon.
Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE