Un data scientist c’est un statisticien en mieux payé !?!
On ne va pas se mentir, il y a un effet de mode visible sur le métier de Data Scientist. Toutes les entreprises recherchent des Data Scientists, et tout le monde se revendique comme étant un Data Scientist. Cette situation provoque pas mal de brume autour de ce métier et de cette discipline, et cela participe à sa décrédibilisassions. Je vais donc essayer d’exposer ma vision (qui n’est sans doute pas partager par tous) en ayant pour but de dépassionner ce débat.
En termes de sémantique, le Data Scientist est une personne qui pratique la Data Science. Dans un précédent article, j’abordai la notion de Data Science et de son utilité (c’est par ici). Je n’ai en revanche pas abordé son origine. Le terme Data Science a été inventé dans les années 90 pour rendre plus attractifs les cursus de formation statistiques aux Etats-Unis. Ce terme n’a franchi l’Atlantique que très récemment avec le mouvement Big Data, à la fin des années 2000, et a évolué pour regrouper un ensemble pluridisciplinaire bien plus important que celui des statistiques. On pourra notamment y inclure des disciplines comme la data visualisation ou le data management.
Un Data Scientist est une personne qui pratique de la Data Science, mais alors c’est une personne qui fait tout ?
Comme le dit un ami à moi : « un Data Scientist est une véritable boite à outils ». Je préciserai qu’un Data Scientist peut tout faire, mais la question rhétorique que je poserais est : doit-il tout faire ?
Pour y répondre, j’aime bien comparer le Data Scientist à un médecin généraliste. Il est capable d’identifier la plupart des maladies connues ainsi que de proposer un traitement adapté. Cependant le rôle du médecin généraliste est avant tout d’évaluer les besoins du malade et de coordonner les soins de celui-ci. Il remplit une fonction d’aiguillage en faisant appel à des spécialistes : infirmiers, pneumologues, psychiatres, chirurgiens, ostéopathes, pharmaciens, etc. Il doit être capable de conseiller et d’orienter son client en tenant compte de son état et de son environnement.
Un Data Scientist doit être capable d’identifier et de formaliser les besoins d’un client, de conseiller et d’orienter ses choix, de collecter et consolider les données, de modéliser et d’exploiter ces dernières, de visualiser et restituer les insights de l’analyse, et enfin de communiquer et transmettre les enseignements.
Il s’agit donc d’avoir une vision et des compétences sur toute la chaîne de production de la valorisation de la donnée. Un Data Scientist possède des compétences pluridisciplinaires, généralement transversales à plusieurs services d’une entreprise
Cette vision implique que le Data Scientist n’est pas un expert ! Et à ce titre vous trouverez toujours quelqu’un de plus compétent dans un domaine. Josh Wills montre bien cela avec sa définition amusante du Data Scientist :
« A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician. »
D’ailleurs, les entreprises qui sont de plus en plus matures sur ces sujets, ne cherchent plus forcément à recruter des Data Scientists, qui restent des profils très rares, mais plutôt de créer des équipes de Data Science où l’on pourra retrouver un ensemble d’experts spécialistes dans leurs domaines respectifs, travaillant au sein d’une même organisation.
Mais alors quel est le rôle du Data Scientist au sein de cette nouvelle organisation ? Cela dépend de la taille des équipes -qui devrait être- liée aux besoins de l’entreprise. Par exemple, dans des grands groupes, où la maturité digitale est très avancée, le Data Scientist va servir de coordinateur entre les différentes personnes. Il sera le principal interlocuteur, et le point d’entrée des différents sujets. Capable de comprendre les problématiques et le langage de chacun, il accompagnera le bon déroulement du projet et pourra apporter sa vision globale dans les discussions afin de délivrer un projet cohérent et répondant aux attentes de chacun. Ces compétences en communication et en management seront fortement sollicitées.
Au contraire, dans une entreprise plus modeste, il sera plus proche de la donnée et pourra être amené lui-même à manipuler la donnée et mettre en place des modèles. Dans ce cadre, ces aptitudes de programmation et de modélisation seront ses qualités premières.
Un Data Scientist n’est donc définitivement pas un statisticien, ni un ingénieur de la donnée : il possède des compétences dans de nombreux domaines à un niveau suffisamment avancé pour pouvoir comprendre pleinement les problématiques de chacun.
A tous ces éléments, j’ajouterai tout de même, qu’actuellement, un Data Scientist doit posséder certains prérequis comme maîtriser les environnement Big Data (Hadoop, base NoSQL, le cloud computing, etc.) ainsi que les principaux algorithmes de Machine Learning (classification, segmentation, régression, etc.).
Tout le monde n’aura pas forcément la même définition du métier de Data Scientist, mais j’essaie de me référer autant que possible à la définition sémantique à savoir : quelqu’un qui pratique la Data Science.
Je voudrais répondre à une nouvelle question pour conclure cette article : qui devient Data Scientist aujourd’hui ? Il n’y a pas de voie unique, et beaucoup de métiers peuvent évoluer vers un profil de Data Scientist. Il y a tout de même des parcours plus aisés que d’autres. Par exemple quelqu’un qui vient du métier pur, va devoir monter en compétences dans les domaines informatiques et statistiques, ce qui est très couteux en temps comme en énergie. C’est principalement pour cette raison que de nombreux Data Scientists sont issus de formations d’ingénieurs informaticiens (orientés data) et statisticiens. Les profils sont très divers, ce qui est aussi une force pour ce type de poste !
Article réalisé par Adrien BOUHOT :
Consultant Data scientist orienté digital, je m’intéresse à tout ce qui touche de près ou de loin à la data et à son utilisation. Issu d’une formation Statistique, j’ai évolué au fil des expériences vers les écosystèmes Big Data qui représentent un nouvel eldorado où de nombreuses choses restent à découvrir et à construire !
Adepte de la conversation autour des systèmes d’informations, de leur exploitation, de la Statistique et de son usage ainsi que de la sociologie dans son ensemble, n’hésitez pas à échanger avec moi !