Créer un pipeline d’intégration de données pour PowerBI avec Snowflake.
Aujourd’hui les données sont partout dans l’entreprise et leur stockage devient un enjeu crucial. Pourtant, l’accès aux infrastructure de stockage nécessaires n’est pas à la portée de toutes les organisations.
C’est pourquoi le stockage en Cloud devient une solution attrayante. Nous nous intéresserons ici à la solution « Snowflake » , une plateforme qui a l’avantage de ne facturer que l’utilisation des données et non pas le stockage.
Mise en place de Snowflake
Création d’un entrepôt
Pour ce tutoriel, nous allons créer une Warehouse (ou « entrepôt ») de test.
Cette Warehouse est nécessaire pour toutes les requêtes et les opérations DML, y compris le chargement de données dans les tables. La taille de cet entrepôt définira le nombre de serveurs constituant le cluster.
Création d’une base de données
Cette base de données va servir de base pour notre test. Nous n’avons pas besoin de créer de table dans notre base à l’heure actuelle puisque nous allons la générer avec Talend.
2. Import des données avec Talend
Création de la connexion Talend / Snowflake
Commençons par créer une connexion vers Snowflake dans Talend.
Métadonnées > Snowflake > Connexion à snowflake
Paramétrage :
Compte : Vous trouverez cet identifiant sur l’interface Snowflake ( pattern : xz12345 ).
Région Snowflake : si votre région n’est pas disponible dans le dropdown, pas de panique ! Vous pouvez définir votre code région dans Advanced > Utiliser une région personnalisé.
Upload des données vers Snowflake
Pour illustrer cet article, nous avons pris les données « openfood » disponibles dans l’Open Data. Ces données contiennent les articles alimentaires vendus en France ainsi que leur nutriscore / composition.
L’upload de ces données sur Snowflake se fera via un job simple.
Nous allons créer la table dans le tDbOutput.
Nous avons choisi ici de laisser le commit automatique sur le tDbConnect mais vous pouvez ajouter un tDbCommit à la place du tDbClose.
Nos données sont maintenant sur Snowflake
3. Lecture des données et reporting Power BI
Ajout de la source de données Snowflake dans PowerBI
Pour ajouter une source de données : Obtenir des données > Plus > Snowflake.
Vous trouverez le numéro de compte sur votre profile Snowflake ainsi que votre région. Le serveur doit ressembler à ceci : yz12345.eu-central-1.snowflakecomputing.com (ce serveur est envoyé par mail lors de votre inscription à Snowflake ).
Power Bi vous demandera ensuite votre username et password afin d’accéder aux données.