Doit-on comprendre la data science pour l’utiliser?
La réponse est non, et je vais vous dire pourquoi.
Un algorithme de machine learning est une boîte noire. Des données sont en entrée, un résultat est obtenu en sortie. Ni plus, ni moins. Ce qui s’y passe à l’intérieur n’est pas l’affaire des utilisateurs et ceci pour une raison simple : le savoir est différent du savoir-faire.
Une bonne compréhension du fonctionnement de ces boîtes noires est décorrélée de leur bonne utilisation. Vous pouvez conduire une voiture en ignorant tout de ses mécanismes. Si vous avez le permis, vous serez capable de conduire une voiture qui carbure à l’essence, au gaz ou à l’eau de manière indifférente. En termes de performances, un talentueux pilote de Formule 1, n’est pas un mécanicien de génie. Sur ce dernier point, Schumacher ne me contredira pas !
L’important réside dans notre capacité à apprécier la qualité et les défauts de ces boîtes noires. Les utilisateurs doivent avant tout se prémunir d’une mauvaise utilisation de celles-ci. Il faut continuer à aiguiser notre regard et à s’équiper d’outils qui puissent garantir la bonne exploitation des algorithmes de machine learning et de la data science en générale. Posez-vous les questions sur les résultats obtenus : leur fiabilité, leurs valeurs extrêmes, leur pertinence, etc. et continuez perpétuellement à challenger vos modèles grâce à de nouvelles données, de nouvelles approches.
Il n’existe pas de modèle parfait, il existe des modèles qui s’adaptent mieux à des situations.
Un utilisateur peut ignorer le principe de bagging et utiliser un modèle de forêt aléatoire, n’avoir jamais entendu parler de fonction sigmoïde et utiliser le résultat d’un réseau de neurones. Seule la connaissance des performances, de l’interprétation des résultats et des limites de ces modèles doivent lui être familiers. C’est de la responsabilité du data scientist d’être capable de vulgariser cela et non les bases théoriques.
Quand on exploite la Data Science, comprendre c’est bien, savoir utiliser c’est mieux !
Article réalisé par Adrien BOUHOT :
Consultant Data scientist orienté digital, je m’intéresse à tout ce qui touche de près ou de loin à la data et à son utilisation. Issu d’une formation Statistique, j’ai évolué au fil des expériences vers les écosystèmes Big Data qui représentent un nouvel eldorado où de nombreuses choses restent à découvrir et à construire !
Adepte de la conversation autour des systèmes d’informations, de leur exploitation, de la Statistique et de son usage ainsi que de la sociologie dans son ensemble, n’hésitez pas à échanger avec moi !