[DataScience] Comment le carroyage de l’Insee a amélioré les performances de notre modèle de prédiction de 25% ?
Lorsque l’on parle d’entraîner un modèle en Data Science, la sélection des « features », c’est-à-dire des données d’entrée permettant la prédiction, est cruciale. Parmi ces features, évidemment une bonne partie provient de l’entreprise elle-même : son ERP, son CRM, etc… La sélection des attributs se fait avec l’appui des experts métiers. Sans pour autant s’y limiter, car la datascience est aussi là pour mettre en évidence des paramètres que l’on aurait pas cru pertinent.
Élargir les features pour améliorer son modèle : le carroyage
L’Insee fournit en Open Data le carroyage de la France. Quesako ? Il s’agit d’un découpage géographique de la France en carré de 200m. Dans ces carrés, des critères sur la population sont attribués, principalement des critères économiques et sociaux (niveau de revenus, nombre d’enfants par foyer, etc…).
En quoi ces informations sont-elles susceptibles de nous aider ? Dans le cas où l’on étudie des individus (BtoC), et où on dispose de l’adresse de notre base client, alors on est capable (après géocodage) d’attribuer à chacun un carré Insee, et donc des attributs qui y sont adossés. On fait donc le chemin : adresse -> géocodage x,y -> carré insee -> attributs socio-professionnelles Il est facile de catégoriser ces attributs (à l’image des couleurs des carrés) de manière à ce qu’ils soient exploitables par les algorithmes de data science (ce qui n’est pas le cas d’un code postal par exemple, la cardinalité est trop grande et non significative) Ainsi, on ajoute des « features » à notre modèle de départ, il est enrichi de données externes, gratuitement disponible.
NB : Si une analyse de corrélation ne montre pas de lien entre ce carroyage et votre recherche, il ne faut pas s’y arrêter pour autant. C’est peut être l’association avec d’autres facteurs qui peuvent avoir une influence et améliorer les résultats. C’était exactement notre cas sur un sujet d’impayés. Pas de corrélation directe entre le carreau et l’impayé, mais c’est plutôt l’association avec l’ensemble des features qui a amélioré les performances du modèle.
Résultats
L’ajout dans les features du carroyage Insee a été bénéfique sur notre modèle : une amélioration pas anodine puisque l’on parle de +25% sur le F1 (mesure de performance du modèle). Pour un champ d’application très étendu. Tout modèle de data science, s’appuyant sur des individus et des adresses, est susceptible de pouvoir bénéficier de ces informations gratuitement mises à disposition par l’Insee, dans le respect du secret statistique.
L’exploitation de ces données gratuites du carroyage ouvre la voie à de nombreux cas d’usage pour les développements B2C.