Devenir data scientist sans se ruiner, mythe ou réalité?

Devenir data scientist sans se ruiner, mythe ou réalité?

Vous avez envie de devenir data scientist ou du moins de développer vos compétences dans ce domaine sans vous ruiner?  Cela est possible! Dans cet article, nous aborderons de façon concrète comment s’autoformer à la data science en suivant les recommandations de data scientists autodidactes.

La formation autodidacte

A l’heure où foisonnent les ressources d’apprentissage en ligne, il est plus facile que jamais d’apprendre n’importe quel sujet par soi même. Cependant si tous les chemins mènent à Rome, tous ne vous y mèneront pas dans les mêmes délais ni avec les mêmes efforts. L’autoformation requiert beaucoup de motivation, de discipline et d’endurance. Il pourrait s’avérer plus facile de faire le bout de chemin avec quelqu’un qui comme vous est motivé à apprendre la science des données alors n’hésitez pas à trouver un ‘compagnon’ si possible. Dans tous les cas l’autoformation représente une expérience gratifiante et intellectuellement stimulante. 

Le plus difficile quand on décide d’être autodidacte est de trouver le bon fil conducteur pour rendre son apprentissage optimal à la fois en termes de temps investi et de connaissances ou compétences acquises. Nous vous donnerons des ressources pertinentes testées par des data scientists autodidactes. Les ressources citées dans cet article ne constituent pas une liste exhaustive mais juste des exemples desquels vous pourrez vous inspirer.  Il va sans dire qu’en fonction de votre background, vous devrez fournir plus ou moins d’efforts et consacrer plus ou moins de temps à votre formation.

Prenons donc l’exemple de Sophie D. Aujourd’hui data scientist pour une compagnie spécialisée dans l’optimisation des campagnes marketing en ligne, Sophie fait un métier auquel elle n’était pas ‘prédestinée’ au vu de son parcours académique.  Ayant obtenu son Master en Mécanique Vibratoire, Sophie a développé un intérêt soudain pour la science des données en regardant la série House of Cards sur Netflix. Elle se mord alors les doigts de n’avoir pas entendu parler de ce métier plus tôt mais n’envisage pas de refaire un Master d’une part à cause de l’effort financier et d’autre part parce qu’elle ne se sent pas l’énergie de retourner sur les bancs de l’université. Elle décide alors de se former toute seule à ses heures libres.

Première étape: Développer une culture générale sur le sujet

Très vite Sophie comprend que la data science va bien au delà de ce qui est dépeint dans la série. Elle décide alors de se construire une vue d’ensemble sur le sujet (sans forcément rentrer dans les détails techniques) afin d’en développer une certaine familiarité. Elle se montre curieuse et lit avec avidité tout ce qu’elle peut trouver sur la data science et ses applications. Pour cela, elle commence par une simple recherche sur Google.  Le seul bémol est qu’il existe bien plus d’articles sur le sujet en anglais qu’en français mais elle décide de fouiller davantage et ne se décourage pas pour autant, cela lui permettra également d’améliorer son anglais se dit-elle. Elle pense ensuite à élargir ses sources et se dirige vers les groupes à thématique data science, big data, analyse prédictive ou Machine Learning, sur les réseaux sociaux professionnels comme LinkedIn et Viadéo ainsi que des blogs comme data1001.com. Elle trouve que le contenu des articles publiés sur LinkedIn est trop hétérogène variant d’articles pour une audience de débutants à des articles très techniques.

Sophie décide alors de se tourner vers des livres d’introduction sur le sujet et des livres à orientation business qui en général arrivent à faire une bonne synthèse de l’idée générale sans trop rentrer dans les détails techniques. Elle lit également les articles qui traitent de data science ou de big data dans des  magazines business ou technologiques comme le Harvard Business Review(HBR), le MIT Technology Review, ou simplement Le Monde etc… et participe quand elle peut à des évènements liés au big data et à la data science (conférences, meetups, salons etc). Sophie prend soin de noter le vocabulaire, les exemples et use cases qu’elle découvre dans un petit carnet. Elle est désormais capable d’expliquer en quoi consiste la science des données, les différentes applications, quelques notions techniques et se sent même prête à faire un exposé sur comment la data science est en train de révolutionner nos vies; bref  elle peut tenir une conversation riche sur le sujet.

Encore une fois le but de cette première étape est de développer une culture générale, et de vous familiariser avec le sujet de la data science. Si vous êtes en train de lire cet article cela montre que vous avez déjà pris les initiatives nécessaires. Voici des exemples de livres utilisés par Sophie en plus des ressources citées plus haut:

Nous pouvons vous envoyer une copie PDF de certains des livres mentionnés dans cet article gratuitement, veuillez juste en faire la demande par email (contact@data1001.com).

Livres en anglais :

Livre en français:

Deuxième étape: Développer ses  Compétences Techniques

Même si elle est maintenant bien rodée sur le sujet de la data science, Sophie est bien consciente qu’elle n’est pas encore une data scientist. A cette étape, elle comprend que le meilleur moyen d’accélérer sa formation est de l’articuler autour des principales compétences attendues d’un data scientist (Mathématiques et Statistiques, Machine Learning et Programmation, Data Mining,  Bases de données relationnelles et non relationnelles, Outils de visualisation, développement d’applications ou de ‘data products’ — Les compétences business, bien que très importantes, ne sont pas mentionnées dans l’exemple ci-contre car elles sont spécifiques à votre domaine d’activité et pourront être apprises dans votre futur métier le cas échéant.

Notre data scientist en herbe n’hésite donc pas à lire les descriptions de poste de data scientists sur LinkedIn, Viadeo, Glassdor, Indeed etc pour se donner une idée du chemin à parcourir par rapport à ses compétences actuelles.

Ne soyez pas découragé si vos compétences semblent très loin de ce qui est demandé par les recruteurs, prenez ce challenge comme une source de motivation supplémentaire.

Sophie elabore un plan d’action pour combler ses lacunes et pour développer les compétences qui lui manquent. Sa feuille de route vous est donnée ci-dessous.

Mathématiques et Statistiques

Vous vous souvenez vaguement des lois de probabilité, des tests statistiques et intervalles de confiance? de la définition de l’écart type etc? Vous devez alors réviser vos stats.

Le plus simple est de chercher sur Internet ou de trouver un livre sur les principes fondamentaux de la statistique. Il y a aussi des prendre des MOOCs sur EDX, Coursera, FUN (France Université Numérique). Tout cours basique de statistiques devrait convenir. Au besoin, vous rechercherez les notions que vous n’aurez pas apprises à mesure que vous les rencontrerez. Sophie est aussi tombée sur ce livre coup de cœur qui présente les statistiques de façon amusante par des exemples très concrets.

Livre en anglais: Naked Statistics: Stripping the Dread from the Data, by Charles Wheelan

Savez-vous programmer ?

Il vous faut apprendre à programmer dans au moins l’un des langages les plus prisés par les data scientists (R ou Python). Ces langages ne sont pas très difficiles à apprendre même si vous n’avez pas de notion en programmation. Il y a de fortes discussions sur la préférence pour R ou Python dans la communauté des data scientists, cela s’apparente parfois à une guerre religieuse pour ainsi dire. Mais pour commencer votre formation, l’un ou l’autre conviendrait parfaitement; l’idéal sur le long terme étant de connaître les deux. R a plutôt été pensé pour faire des statistiques et dispose d’une multitude de packages prêts à l’usage tandis que Python a été plus pensé pour la programmation. Cependant Python dispose d’une librairie appelée Pandas qui permet de faire de l’analyse de données ainsi que d’une librairie de Machine Learning, scikit-Learn.

Les tutoriels sur R et Python abondent en ligne et notamment dans les MOOCs(EDX, Coursera etc), il serait difficile d’en recommander un. Vous pourrez aussi vous aider de livres d’introduction sur le sujet et consulter la documentation officielle en ligne R(CRAN), Python.org. Si vous avez déjà des bases en programmation, vous pouvez toujours opter pour des crash courses. Les grandes lignes restent les mêmes pour la plupart des langages de programmation à savoir maîtriser la syntaxe du langage, les différents types de variables/objets/modèles de données, les fonctions et classes, les structures conditionnelles et les boucles. Il est relativement facile de trouver de l’aide en ligne si vous êtes bloqué. N’hésitez pas à utiliser Google au maximum et les forums d’aide traitant de programmation et de data mining comme StackOverflow ou Cross Validated, developpez.com.

Machine Learning

Ceci constitue l’une des compétences indispensables à avoir en tant que data scientist. Le meilleur moyen de développer vos compétences en machine learning est de recourir aux MOOCs notamment sur les plateformes précedemment mentionnées (EDX, COURSERA, FUN) ainsi qu’à des livres sur le sujet. Voici des exemples de ressources utilisées par Sophie, ceux-ci sont en anglais pour la plupart mais ont parfois des sous-titrage. Encore une fois ils ne sont donnés qu’à titre d’exemple. Vous pouvez toujours rechercher des formations en français et aussi selon votre affinité avec Python ou R.

  • Coursera: Spécialisation Data Science de John Hopkins University (10 cours qui vous conduiront progressivement à developper vos compétences en data scientist). Ce MOOC couvre énormément de point et est couronné par un projet.  Vous pouvez prendre tous les 10 cours de la spécialisation ou sélectionner seulement ceux qui vous intéressent le plus.
  • Statistical Learning sur le site de MOOCS de l’université de Stanford ( Stanford Lagunita). Le cours est basé sur l’excellent livre Introduction to Statistical Learning de Robert Tibshirani et Trevor Hastie, les deux professeurs de Stanford qui dispensent le MOOC. Le PDF du livre est en libre accès ici.
  • Coursera: Machine Learning de Andrew Ng, cours très populaire du cofondateur de Coursera, Andrew Ng, professeur à Stanford. Il aborde la Science des données d’une maniére programmatique/mathématique qui permet de mieux comprendre les concepts fondamentaux. 

Livre en anglais:

Livre en français:

Bases de Donnees  Non  Relationnelles

En plus d’une bonne connaissance des bases de données relationnelles de type SQL, vous devrez avoir au moins familiarité avec les bases de données non relationnelles (ou NoSQL) comme Hadoop. Des exemples de cours figurent ci-dessous.

Bases de données

Visualisations, Dashboards et Applications

  • Shiny de R (abordé dans la spécialisation Data Science de Johns Hopkins University mentionnée plus haut)
  • Python (Flask, Django etc)
  • Tableau (Télécharger la version d’essai gratuite un mois)

Troisième étape: Prouver sa valeur, construire son portfolio

Maintenant qu’elle a construit des compétences solides, Sophie peut fièrement dire qu’elle est data scientist junior. Cependant une chose est d’avoir des compétences de data scientist, une autre est de pouvoir les vendre sur le marché du travail. Il est donc crucial de construire un portfolio solide qui vous permettra de convaincre les recruteurs de vous donner votre chance.

La plupart des MOOCs, notamment ceux mentionnés ci-dessus, offrent la possibilité d’obtenir un certificat prouvant que vos connaissances ont bien été évaluées. Certains MOOCs comportent même des projets que vous pourrez ajouter à votre CV. Aussi, l’expérience sous toutes ses formes est à privilégier. N’hésitez pas à faire des projets personnels (en vous servant notamment des données disponibles en open source comme open data, data.gouvUC Irvine Machine Learning Repository etc) pour étoffer votre CV. Un exemple particulièrement intéressant pour les débutants est celui utilisé lors du concours Meilleur Data Scientist de France 2016 ; un tutoriel est disponible et gratuit par simple demande via email (contact@data1001.com). Par ailleurs, il peut être utile de créer un compte GitHub pour publier votre travail et permettre aux recruteurs d’avoir accès à vos projets. Participez aux compétitions de data science si vous pouvez,  notamment sur Kaggle, DataScience.netDrivenData etc. Cela fera une bonne impression sur les recruteurs et vous permettra de tester vos armes. Même si vous n’arrivez pas dans les meilleurs, ces compétitions ont l’avantage de vous faire sortir de votre zone de confort et d’élargir votre champ de vision. Les participants sont très ouverts (notamment sur Kaggle) et n’hésitent pas à partager leur codes et les techniques utilisées. Lire les codes d’autres data scientists constitue un bon moyen d’apprentissage.

En conclusion, la formation autodidacte présente bien des avantages notamment le coût financier faible et la flexibilité d’apprendre à son propre rythme ainsi qu’une certaine fierté quand on arrive au bout du chemin. Cependant il est à noter que cette option exige un peu plus d’efforts personnels pour rester discipliné et motivé puis pour se vendre auprès des recruteurs. Ainsi tout au long de votre formation, gardez à l’esprit qu’il vous faudra vous confronter à des recruteurs et que de ce fait vous aurez besoin ‘de preuves’ pour les convaincre que vous êtes le data scientist dont ils ont besoin. Finalement, si la formation autodidacte ne vous convient pas entièrement, il est possible d’envisager une formation académique/professionnelle classique si vous la jugez nécessaire et s’y vous en avez les moyens. C’est le sujet du prochain article.

image courtesy: medicaldaily.com

Notez cet article
Related Posts
Leave a reply
datanannan