Je veux lancer un projet Data Science : que dois-je anticiper ?
Le chemin qui mène à l’extraction de valeur des données est composé d’une succession d’étapes clé. Les avoir en tête permet de les anticiper et de mettre en place tout ce qu’il faut pour les passer avec succès.
Voici un exemple du chemin à parcourir sachant que l’ordre des étapes peut être remis en cause en fonction du contexte, car il va dépendre des spécificités de chacun :
Définir un Use case
L’une des premières étapes va consister à trouver un cas d’usage (objectif et contexte du projet). Cela est loin d’être évident. Il est important de trouver un use case, réalisable et rentable (avec un revenu sur investissement positif (ROI)).
Il existe plusieurs approches possibles :
Des ateliers créatifs doivent être organisés en faisant participer aussi bien des acteurs métiers que techniques.
Définir et mobiliser les acteurs
Une autre étape des projets Data consiste à fédérer, former et mobiliser des compétences pour travailler sur ces sujets. En fonction du type de projet il peut y avoir besoin notamment :
- D’un sponsor qui va soutenir le projet et permettre de débloquer les situations « politiques »
- De personnes opérationnelles (les métiers) demandeurs d’études
- De managers et chefs de projets
- De développeurs (java, C++ etc…)
- De Data Scientists
- Et d’architectes techniques (Big Data ou non).
Les compétences peuvent s’avérer rares, surtout sur les nouvelles technologies Big data, et de la formation interne peut être à prévoir.
Choisir les technologies
Le marché propose de nombreuses solutions de stockage, de récupération, d’analyse et de restitution de données. Voici ci-dessous un exemple de cartographie de technologies qui circule sur Internet :
Cela peut donner le tournis. Mais il est très important d’avoir une vue d’ensemble afin de choisir celles qui sont adaptées au contexte. D’autant plus que chacune de ces technologies a des caractéristiques qui lui sont propres. Maitriser cet écosystème complexe va permettre de savoir ce qu’il est possible techniquement de faire. Benchmarker certains outils et s’appuyer sur des services de R&D ou des cabinets spécialisés peut être très utile pour choisir les solutions vraiment adaptées aux besoins.
Recenser, récupérer et mettre en forme les données
Autre étape à réaliser, celle de recenser toutes les données internes et externes disponibles pouvant être utiles pour répondre aux besoins métiers définis. Il ne faut négliger aucune source et un audit interne peut être utile. La qualité et la mise en forme des données sont des points importants car les données brutes sont rarement analysables en l’état. Il faut également définir le type de récupération (temps réel ou mode batch) et l’outil adéquate.
Sécuriser les données
Il ne faut pas oublier de sécuriser tous les flux de données contre la cybercriminalité, ce qui devient plus compliqué avec le Big data. C’est un devoir que les sociétés ont vis à vis des personnes dont elles détiennent des informations. Passer par des sociétés spécialisées peut être une solution lorsque les compétences ne sont pas disponibles en interne.
Respecter la Cnil
Pour tous les projets décisionnels il est important de se renseigner sur les droits que l’on a sur les données que l’on souhaite manipuler, d’autant plus quand celles-ci concernent des personnes morales ou physiques. La loi de l’opt-in notamment s’applique (acceptation spécifique de la personne concernée pour la manipulation de ses données). Contacter directement la CNIL peut être une solution pour faciliter cette étape.
Analyser les données
Comme dans tous les projets d’analyse il est important de choisir les bonnes méthodes statistiques/mathématiques, qui vont permettre d’extraire la valeur des données pour répondre aux besoins métier. Dans le cadre du Big Data il faudra souvent adapter les algorithmes aux environnements de développements distribués.
Rendre intelligibles les résultats
Une fois la valeur extraite, le dernier challenge est de présenter de façon intelligible les résultats et d’essayer de susciter l’effet « wahouu » en livrant une restitution claire, design (esthétique) et compréhensible par tous. Le choix de l’outil de visualisation et le respect des bonnes pratiques de l’ergo design est primordiale.
Cette liste d’étapes clé n’est pas exhaustive, mais nous avons essayé de la rendre la plus complète possible ! Dans de prochains articles, nous nous attarderons plus en détails sur certaines étapes, les pièges à éviter et les astuces qui peuvent permettre de les aborder plus sereinement !
Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE