Le Data Scientist, C’est Qui?

Le Data Scientist, C’est Qui?

Vous avez sûrement déjà entendu parler des fameux ‘data scientists’, ces alchimistes qui seraient capables de transformer des données en or. On pourrait dire qu’à l’heure du numérique et avec la frénésie du phénomène ‘Big Data’,  le data scientist est roi. Le terme ‘data scientist’ a été mentionné pour la première fois en 2008 par DJ Pathil et Jeff Hammemberg alors en charge de l’analytique respectivement chez LinkedIn Inc et Facebook. Depuis, l’engouement pour le data scientist est allé croissant, renforcé d’une part par l’explosion du big data et le désir des entreprises de devenir plus ‘digitales’, et d’autre part par l’attention des médias notamment la Harvard Business Review (HBS) qui mentionnait le métier de data scientist comme le plus sexy du XXIe siècle (1).

Il va sans dire que dans ce context favorable, la demande pour les data scientists a été en constante progression comme le montre le graphe ci dessous publié par Indeed.

JobTrendsFromIndeed

Cependant le terme data scientist est des plus ambigus du fait qu’il englobe plusieurs compétences pouvant définir en elles-mêmes définir des métiers à part entière. La data science (science des données) est un domaine interdisciplinaire qui emploie des techniques issues de disciplines comme les mathématiques, les statistiques, l’informatique, le data mining ou encore KDD (Knowledge Discovery in Database), la recherche opérationnelle etc. Ainsi, il n’est pas rare de voir des growth hackers, des développeurs web, des ingénieurs, des administrateurs de bases de données et des analystes de tout genre se faire appeler data scientists. Après tout vu la popularité du data scientist et des salaires souvent faramineux (surtout aux US), pourquoi résister à la tentation de porter le titre du job le plus en vogue du moment? Il est également à noter que les recruteurs ont parfois contribué à cette ambiguité en faisant l’amalgame entre professionnels ayant des compétences en analytique et data scientists dans les descriptions de postes. Alors qui est vraiment le data scientist?

Qui est vraiment le data scientist?

Que l’on l’appelle ‘super héros de la data’ ou ‘magicien’ ou ‘l’homme qui sait faire parler la data’, le data scientist est en quelques sortes un analyste avec plus de bagage technique, notamment une connaissance approfondie des algorithmes de machine learning et des outils de stockage et de traitement de données massives (big data). Par exemple, là où l’on attend d’un business analyst qu’il utilise les outils de Business Intelligence ou Excel pour analyser les données et extraire des statistiques descriptives, le data scientist lui doit être capable d’élaborer des modèles et des algorithmes pour faire des analyses tant descriptives que prédictives ou prescriptives, et ce en utilisant des données qui peuvent être très volumineuses, non structurées et complexes. Le data scientist doit ainsi avoir des connaissances solides en statistiques, en machine learning, en data mining, une bonne maîtrise des technologies de bases de données de types SQL et NoSQL (Hadoop, MongoDB, Cassandra…) et des langages de programmation R, Python, SAS… sans oublier les outils de visualisation de données comme Tableau. A cela s’ajoutent des connaissances ‘business’ dans son domaine d’activité et une habileté à communiquer ses résultats et à convaincre.

Le métier de data scientist en pratique

Le métier de data scientist est très transverse et s’applique à une variété d’industries et de secteurs (Banque, Assurance, Industrie manufacturière, Santé… ); en clair partout où il y a des données à valoriser, un data scientist peut etre utile. En pratique, être data scientist c’est pouvoir répondre à des questions business comme celles qui suivent:

  • Marketing et customer analytics:

Quels sont les clients qui sont le plus à risque de résilier leur contrat ou de partir chez la competition?

Quelle offre marketing (et par quel canal) est la plus adaptée pour un type de client donné?

Quelles associations de produits devraient-on recommander à chaque client pour augmenter les ventes?

Quels sont les différents groupes qui se dégagent de notre base de données de clients? etc.

  • Détection d’anomalies

Quelles sont les transactions les plus susceptibles d’etre frauduleuses? (Transactions financières, Réclamations d’assurance, Intrusion dans un système de sécurité, guaranties sur des produits de consommation, maintenance préventive etc.)

  • Prévisions

Quelle sera la demande en electricité au cours de la prochaine semaine?

Quels produits auront la meilleure vente dans les 6 prochains mois?

Quels medias/canaux génèreont le plus de revenu de publicité?

Cette liste n’est pas exhaustive et les problématiques à résoudre peuvent être très spécifiques au domaine d’activité. Cependant l’approche générale pour la résolution d’un problème de data science reste basé sur le modèle CRISP-DM (Cross-Industry Process for Data Mining) présenté ci-dessous.

CRISP-DM

Ainsi, une fois la problématique business clairement formulée, le data scientist a besoin de collecter les données pertinentes à son analyse, procéder au nettoyage et à l’intégration de ces données, construire différents modèles, les tester et en choisir le meilleur. S’ensuit alors une phase de validation du modèle à la lumière d’indicateurs clairement définis au préalable de l’étude afin de s’assurer de son adéquation à résoudre le problème posé. Il est important de mentionner que la data science relève aussi bien sde la science que de l’art et la pertinence des choix se renforce à mesure de l’expérience accumulée . Le modèle est ensuite déployé dans l’environnement de production. Celui ci entre alors dans une phase de maintenance et d’amélioration continue à mesure que de nouvelles données sont collectées./.

(1) HBR,  October 2012 issue Data Scientist: The Sexiest Job of the 21st Century

Related Posts
Leave a reply
datanannan