L’INPI : une source inestimable en open data​

L’Institut National de la Propriété Industrielle a pour mission de valoriser l’innovation par l’enregistrement et la délivrance des titres de propriété industrielle.

Il met également à disposition les registre des commerces et sociétés (RCS) qui recouvrent les inscriptions de sociétés commerciales aux greffes des tribunaux de commerce.

Les données du RCS contiennent notamment des informations :

  • sur les entreprise immatriculées (date d’immatriculation, numéro de SIREN, forme juridique, greffe d’immatriculation, adresse du siège, …)
  • et sur leur(s) représentant(s) (gérant, président, directeurs général, associés, liquidateur de la société, …).
    Si ces représentants sont des personnes physiques, elles sont identifiées par leur état-civil (nom, prénom, date de naissance, lieu de naissance…)

Ces données sont disponibles gratuitement à la consultation sur le site de l’INPI. Il est néanmoins nécessaire de se créer un compte sur le portail data.inpi pour avoir accès au serveur FTP de l’INPI.

Il s’agit donc d’une source d’information en open data inestimable que nous avons testée à travers cet exercice de data visualisation.

engrenages

Exemples de data visualisations appliquées à l’INPI​

Nous avons récupéré l’ensemble des données de l’INPI relatives aux entreprises et à leurs représentants, présents sur le serveur FTP, grâce à l’ETL Talend. Ces données ont été transférées dans une base de données PostgreSQL afin de faciliter leur réutilisation. En effet, les données originales étaient au format CSV, un format qui ne permet pas facilement la réutilisation des données.

Les données sont ensuite traitées dans la base afin de créer de nouvelles tables, plus lisibles, reprenant la situation des entreprises encore en activité. Ce traitement est fait en SQL.

INPI TALEND

Les données récupéré sont utiles pour alimenter notre outil d’enrichissement de fichiers B2B Data Clean. Elles peuvent aussi être visualisés avec un outil de représentation graphique tel que PowerBI.

Pour cela, il convient de charger les données avec Power Query, avant de nettoyer, connecter et proposer des représentations statistiques.

Talend PowerBI

La visualisation suivante permet ainsi de visualiser sur une carte de France l’âge médian des dirigeants d’entreprise* (gérants et présidents) immatriculées après 2017.

*SARL, EURL, SAS, SASU et SA

Age median des dirigeants français

Cette autre visualisation représente la part des présidents et gérants qui ont moins de 40 ans

Dans le Maine-et-Loire par exemple : 42% des dirigeant de ces entreprises ont moins de 40 ans à ce jour

A Paris, cette proportion est de 40%.

Dirigeants de moins de 40 ans

D’autres visualisations sont évidemment possibles en procédant à l’extraction des données qui nous intéressent.

Toute la puissance de l’Open Data, couplée aux outils de data visualisation, permet d’’enrichir la connaissance de vos clients ou de vos prospects, de façon dynamique !