Vocabulaire de data scientist: les notions de base à connaître!

Vocabulaire de data scientist: les notions de base à connaître!

Cet article reprend le vocabulaire et les concepts que doit connaître impérativement tout data scientist. Il reprend notamment les notions liées au type d’apprentissage, les tests intermédiaires de performance du modèle et enfin les écueils concernant la modélisation.

Type d’apprentissage

  • Machine Learning ou Apprentissage Statistique: Domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés. (Définition de Professor Arthur Samuel en 1959)

Le machine learning se décline en deux grandes catégories de techniques d’apprentissage:

  • Supervised learning ou apprentissage supervisé: il s’agit d’une technique d’apprentissage qui consiste à apprendre préalablement de données labellisées et à inférer des règles de ces données afin de pouvoir déduire le label de nouvelles données. Un exemple d’apprentissage supervisé pourrait consister à présenter à un enfant un bac de jouets de diverses formes géométriques. Supposons que chaque objet a une étiquette sur laquelle est inscrite le nom de la forme géométrique correspondante (triangle, rectangle, carré, rond). L’idée de l’apprentissage supervisé serait que l’enfant infère des règles de différentiation entre ces objets de sorte à ce que, si l’on lui présente une série d’objets d’un autre bac, ne portant pas d’etiquette, il puisse correctement les identifier (triangle, rectangle, carré, rond). Un exemple d’apprentissage supervisé est la classification.
  • Unsupervised learning ou apprentissage non supervisé: il s’agit d’une tâche d’apprentissage qui infère les relations intrinsèques qui existent dans les données sans avoir appris au préalable de données labellisées. Pour en revenir à l’exemple précédent, supposons que cette fois-ci, l’on présente le bac de jouets à un enfant mais sans que ces jouets n’aient d’étiquette portant leur forme géométrique. Disons que le bac contient des triangles, des carrés, des cubes, des pyramides et des cylindres de toutes les couleurs. L’idée de l’apprentissage non supervisé serait que sans même savoir le nom de chaque objet, l’enfant puisse induire des règles d’association entre eux. Par exemple, il pourrait faire des groupes d’objets basés sur la similarité des couleurs ou des formes etc. Un exemple d’apprentissage non-supervisé est le clustering.

Séparation des données

Dans la plupart des problèmes d’analyse prédictive, les données disponibles sont divisées en trois parties:

  • Training set ou données d’apprentissage: les données contenues dans ce sous-ensemble sont utilisées pour construire le modèle.
  • Validation set ou données de validation: ces données sont  utilisées pour valider le modèle et notamment pour ajuster les paramètres et sélectionner la combinaison de paramètres qui rend le modèle ‘optimal’.
  • Test set ou données de test: elles permettent d’évaluer les performances du modèle et de voir comment celui-ci se généraliserait  à de nouvelles données.

Les ratios de ces différents ensembles peuvent être estimer (de façon approximative) respectivement à 60%, 20%, 20% des données de départ. Cependant la taille des données ne permet pas toujours d’avoir un set de validation. Dans ces cas là, d’autres méthodes de validation comme la validation croisée et le bootstrap décrits ci-dessous peuvent s’avérer très utiles.

Back testing

  • Cross-validation ou validation croisée: une technique utilisée pour valider le modèle en faisant des subdivisions successives. Les données sont divisées en k groupes contenant approximativement le même nombre d’observations tirées de façon aléatoire. A chaque itération, un groupe est utilisé comme données de test tandis que les k-1 groupes restants servent de données d’apprentissage. Au run suivant, les rôles sont inversés et le groupe précédemment utilisé comme données de test est intégré aux données d’apprentissage tandis qu’un autre groupe est choisi comme données de test. Il s’agit de tirage successif sans remise.
  • Bootstrap: cette technique s’inscrit dans la même optique que la validation croisée mais cette fois ci, il s’agit d’un tirage successif avec remise. A chaque itération, on sélectionne aléatoirement un certains nombres d’observations pour servir de données d’apprentissage tandis que les observations restantes sont utilisées comme données de test. Cette technique est notamment très utile dans le cas où il n’y a pas suffisamment de données pour constituer les différents ensemble mentionnés plus haut. Cependant il faut faire attention au biais qui pourrait introduit du fait du tirage avec remise.

Ecueils de modélisation

  • Overfitting ou surapprentissage: il s’agit d’un problème qui survient lorsque l’algorithme stock en mémoire trop d’informations spécifiques aux données d’apprentissage de telle sorte qu’il ne peut pas être généralisé à de nouvelles données. Un parallèle pourrait être fait avec le mauvais élève qui ne retiendrait que la solution d’un exercise sans comprendre la démarche mathématique qui sous-tend ce problème. Si on lui présente un problème similaire en changeant des valeurs, cet élève ne sera pas capable de le résoudre car n’ayant retenu qu’une solution particulière.
  • Underfitting ou sous-apprentissage: Contrairement au surapprentissage, le sous-apprentissage est  le cas de figure dans lequel le modèle n’a pas pu apprendre toute l’information contenue dans l’ensemble des données d’apprentissage disponible. Dans ce cas, l’illustration pourrait être le mauvais élève qui n’apprend qu’une partie de ses leçons.
  • Compromis variance-biais: la variance traduit le fait que le modèle se généralise plus ou moins bien avec des nouvelles données tandis que le biais traduit l’erreur que l’on fait en essayant de modéliser un problème réel, complexe de façon simplifiée à l’aide d’hypothèses. Ainsi plus on simplifie le problème réel, plus le biais est grand (e.g. la plupart des problèmes ne sont pas purement une représentation linéaire entre les variables dépendantes et la variable indépendante). Le surapprentissage se traduira par une variance élevée tandis que le sous-apprentissage se traduira par un biais élevé.

image courtesy blueyonder

Related Posts
Leave a reply
datanannan