Utilisez les outils de pipeline de données et libérez la véritable puissance de votre entrepôt de données

By |2022-07-25T06:58:04+00:0015 octobre 2021|

Un entreposage de données efficace nécessite un réseau de pipelines de données bien entretenus pour fournir des données en temps réel de haute qualité pour les rapports et les analyses avancées. Mais les processus ETL manuels n'offrent pas l'évolutivité, l'agilité et la vitesse nécessaires pour répondre aux exigences des entreprises modernes. Ce blog explique certaines approches pour créer une architecture de pipeline de données basée sur les métadonnées et qui peut libérer la véritable puissance de votre système de BI.

Bien que l'utilisation d'outils de pipeline de données et la mise en œuvre d'un entrepôt de données présentent de nombreux avantages, la valeur réelle d'un EDW devient évidente lorsque vous êtes enfin en mesure de visualiser les données dans de beaux tableaux de bord consolidés à l'aide de plates-formes telles que Tableau ou PowerBI. Dans une architecture de données bien réglée, ces outils frontaux servent de source unique de vérité pour toutes vos prises de décision, permettant tout, de la surveillance des KPI aux analyses de tendances historiques et même à l'analyse prédictive avancée. Mais, bien sûr, avant de libérer ce potentiel de transformation, vous devez vous assurer que la couche BI est stockée avec des données pertinentes, précises et standardisées.

Entrez ETL, un terme qui est synonyme dans le domaine de la science des données avec l'entreposage de données depuis la création de la technologie. À l'époque, le principal cas d'utilisation impliquait de transformer et de charger de gros lots de données à partir d'une base de données transactionnelle et d'améliorer leur qualité ou de les aligner sur un modèle de données à l'aide de jointures, d'agrégats et d'autres fonctions similaires. Ces lots ont ensuite été chargés dans un référentiel prêt pour l'analyse via un flux de données où les utilisateurs pouvaient facilement les interroger.

Mais le monde de l'informatique décisionnelle progresse à une vitesse fulgurante et les entreprises ont dû faire évoluer leurs processus ETL et leurs outils ETL en parallèle. Jetons un coup d'œil à certains de ces développements.

Du codage à une architecture de pipeline de données axée sur les métadonnées

Les organisations modernes gèrent bien plus qu'une simple base de données transactionnelle. Bien qu'ils disposent de diverses sources générant des volumes importants de données, leurs outils de pipeline de données doivent prendre en charge tous ces systèmes et méthodes de consommation.

Traditionnellement, les développeurs créent manuellement des processus ETL pour chacun de ces systèmes. Ces outils de pipeline de données sont testés et optimisés après le déploiement dans un environnement de production, puis recodés pour tenir compte de toute modification du schéma du système source.

Le processus ETL expliqué à l'aide d'une représentation comique

https://imgs.xkcd.com/comics/data_pipeline.png

Avec une piloté par les métadonnées processus ETL, de nombreuses étapes du processus peuvent être automatisées. Ainsi, dans cette approche, les métadonnées de toutes les tables source et cible sont conservées dans un référentiel central, y compris les schémas de table de base de données, les relations de clé étrangère/principale et les types de données pour les champs individuels. De même, toute logique métier et transformations de données utilisées pour maintenir la qualité et la pertinence des données sources sont extraites de la base de données transactionnelle. Mappages de données utilisées pour déplacer les données entre les tables des systèmes source et l'entrepôt de données sont également stockées ici.

La plupart des ingénieurs de données conviennent qu'il y a des avantages majeurs à faire les choses de cette façon.

Tout d'abord, vous pouvez concevoir des flux au niveau logique et, ce faisant, minimiser toute variabilité présente dans les pipelines codés en dur construits au fil des ans par plusieurs développeurs. Cela signifie que la consolidation des sources de données et la création de pipelines de données peuvent être simplifiées en déposant des connecteurs source pré-packagés dans un modèle de mappage de données, en appliquant les transformations nécessaires, puis en mappant vers une table de destination dans votre entrepôt de données.

Les modèles peuvent être facilement maintenus et exécutés immédiatement pour fournir de nouvelles données à votre entrepôt de données selon les besoins, garantissant ainsi l'opportunité des rapports et analyses ultérieurs.

Vous disposez désormais de tâches ETL évolutives qui peuvent être rapidement conçues à partir de zéro, mises à jour ou même réutilisées à mesure que de nouvelles sources sont intégrées à votre architecture. Ces avantages s'accordent parfaitement avec une approche agile moderne méthodologie, où le développement se déroule en plusieurs cycles itératifs.

Latence des données – Comment bas pouvez-vous aller?

Des pipelines de données efficaces sont garants d'une faible latence

Est-ce l'état idéal pour votre architecture de données ?

Nous en avons parlé un peu plus tôt, mais la ponctualité est l'un des principaux signifiants d'une veille stratégique de haute qualité.

Supposons que vous cherchiez à créer une campagne de remarketing pour engager les prospects perdus avec des produits pertinents de votre portefeuille en fonction des données des clients passés. Plus votre intelligence est à jour, plus ces offres seront attractives. D'un autre côté, si vous vous fiez à des données d'achat datant de plusieurs mois, voire d'un an, pour guider vos efforts, l'efficacité de la campagne sera diminuée. De la détection des fraudes à l'optimisation de la chaîne d'approvisionnement, de nombreuses activités commerciales dépendent également d'informations à jour.

Dans ces conditions de fonctionnement, il n'est pas surprenant que de nombreuses entreprises tentent de rendre les ensembles de données disponibles dans leur entrepôt de données aussi rapidement que possible.

Il y a quelques années, le streaming de données était présenté comme le réponse. Dans cette approche, les données deviendraient disponibles pour interrogation dans l'entrepôt de données dès leur arrivée dans la base de données source. Cela semble bien en théorie, mais il y a quelques détails à considérer.

Tout d'abord, votre base de données doit permettre l'enregistrement et la récupération des données simultanément, ce qui implique des dépenses de ressources importantes. Le deuxième facteur est la qualité des données. Il est de plus en plus probable que des données en double ou erronées s'affichent dans les rapports finaux dans un système de BI en temps réel. Dans ce cas, vous devrez peut-être effectuer des transformations supplémentaires sur ces données brutes (essentiellement) avant qu'elles ne soient prêtes pour l'analyse.

Par comparaison, micro-dosage fournit une alternative plus rentable avec une latence de données minimale et, en fin de compte, des données de meilleure qualité. Avec ce genre de processus ETL en temps quasi réel, les données sont chargées dans l'entrepôt de données à des intervalles spécifiques en fonction des exigences de chaque outil de pipeline de données. Ces déclencheurs pourraient être définis minute par minute dans le cas, par exemple, d'un système de détection de fraude ou quotidiennement pour les rapports de vente en cours.

Les scientifiques des données pensent que le traitement par lots régulier peut toujours fournir toutes les fonctionnalités dont vous avez besoin pour des analyses historiques de niveau plus large. Cependant, il est important de noter que vous ne souhaitez pas adopter une approche au détriment d'une autre, car différentes latences seront nécessaires en fonction des besoins des utilisateurs BI.

Présentation de la raffinerie de données

Créez des pipelines de données pour passer des données brutes à la BI

Il faut du travail pour passer des données brutes à la Business Intelligence

Ce n'est un secret pour personne que la majorité du temps investi dans les pipelines ETL est consacrée à la sauvegarde de la qualité, de l'exactitude et de la pertinence des données qui se retrouvent dans le entrepôt de données. Ajoutez un environnement réglementaire de plus en plus strict avec des politiques telles que GDPR, HIPPA et SOC2 en place dans les principales industries et une gestion appropriée des données devient un objectif encore plus clair.

Les entreprises doivent examiner ce problème sous différents angles tout au long du pipeline de données.

  • Disponibilité des données: Au stade de l'extraction, les bonnes données doivent être collectées et mises à la disposition des utilisateurs finaux.
  • La cohérence des données: Les données doivent être fiables et formatées pour être partagées entre différents groupes d'intérêt.
  • Redondance des données : Les outils de pipeline de données doivent avoir des processus en place pour supprimer les données obsolètes, triviales ou dupliquées.
  • Rapports de données: Seules les données pertinentes doivent être récupérées pour l'analyse et la création de rapports dans la couche BI.

Lorsque vous parlez de rendre les bonnes données disponibles, la clé est vraiment d'avoir un solide système d'enregistrements en place. Supposons donc que vous construisez une table de dimension client à partir de diverses tables source dans votre base de données. Vous pouvez disposer de données sur leurs niveaux de revenu provenant de deux tableaux distincts, l'un axé sur les ventes et l'autre offrant un aperçu plus approfondi du niveau marketing. Vous voudriez créer votre pipeline de manière à ce qu'il priorise automatiquement les données de cette dernière table, car elles sont susceptibles d'être plus précises et à jour.

La cohérence des données concerne l'application correcte des transformations. Deux fonctions sont particulièrement importantes dans ce cas. Premièrement, la possibilité de créer des expressions personnalisées pour valider les ensembles de données d'entrée en fonction de la logique métier interne. Deuxièmement, une capacité de nettoyage des données plus large qui vous permet de dédupliquer et de corriger les enregistrements. Idéalement, vous voudriez également une option de profilage des données afin que vous puissiez explorer vos données pour savoir combien d'enregistrements échouent aux vérifications standard en raison d'informations manquantes, en double ou incomplètes.

Désormais, une grande partie du processus de reporting est définie par la manière dont vous structurez réellement votre entrepôt de données. Si vous suivez une méthodologie de style Kimball, des magasins de données spécifiques peuvent être exposés à des groupes d'utilisateurs en fonction de leur niveau d'autorisation. Cependant, lorsqu'il s'agit de créer les pipelines de données réels, les contrôles d'accès basés sur les rôles garantissent que l'accès à la couche de préparation des données très importante est limité à ceux qui dirigent le processus de conception de l'entrepôt de données.

ELT - Tirer parti de la puissance des outils de pipeline de données

Des pipelines de données solides s'intègrent de manière transparente au cloud

Avec Cloud Data Warehousing et ELT, le ciel est la limite

Vous pensez peut-être : je pensais que nous plaidions en faveur d'ETL ici ? Mais cette idée que les deux approches sont en quelque sorte diamétralement opposées est juste tout simplement faux. Que vous optiez pour ETL ou ELT, le bon choix dépend entièrement de la manière dont votre architecture de données est construite et des particularités de chaque pipeline de données, ce qui nous amène à l'entrepôt de données cloud et aux lacs de données.

Ainsi, à l'époque où les bases de données sur site étaient le seul jeu en ville, les développeurs devaient faire attention à la façon dont ils répartissaient leurs modes de stockage des données, car ces infrastructures peuvent être coûteuses à mettre en place et à développer. Dans ce cas, pousser les transformations vers le serveur de base de données nécessitait une attention particulière. En conséquence, les entreprises préféraient traiter ces opérations dans la couche ETL, ce qui facilitait la mise à l'échelle.

Cette équation a changé avec l'introduction de l'entreposage de données dans le cloud. Regardez des plateformes comme Amazon Redshift ou Microsoft Azure. Ils offrent tout ce dont vous avez besoin pour un entreposage de données moderne, comme un puissant moteur MPP pour une exécution rapide des requêtes, un stockage de données en colonnes pour des analyses optimisées et une mise en cache en mémoire à un prix plus économique. Soudain, vous disposez d'une base de données prête pour l'analyse que vous pouvez déployer en quelques minutes et mettre à l'échelle selon vos besoins pour correspondre au volume de vos données entrantes.

Maintenant, avec ce type d'architecture en place, il est logique de passer à une approche ELT où vous pouvez transférer des données directement des systèmes sources vers l'entrepôt de données. Tirez ensuite parti de la capacité de calcul inhérente au moteur de base de données pour effectuer des transformations de données. Un délai de rentabilisation plus rapide est un grand avantage ici, car les données sont mises à disposition à destination pour le reporting et l'analyse à un rythme plus rapide avec des processus exécutés en parallèle avec le chargement des données.

D'un autre côté, ETL a toujours un rôle important à jouer dans les entreprises où la gouvernance des données est primordiale, et vous voulez vous assurer que seuls les enregistrements correctement nettoyés et les données intégrées tombent dans l'entrepôt de données.

Une autre chose à laquelle vous devez faire attention avec ELT est que le code que vous développez pour effectuer des transformations dans l'entrepôt de données cible ne vous enferme pas dans une plate-forme particulière. Idéalement, vous voulez des pipelines de données indépendants de la plate-forme qui peuvent fonctionner sur plusieurs systèmes source et de destination.

Astera DW Builder : capacités ETL de premier ordre pour le développement d'entrepôts de données

Astera Constructeur DW est construit sur un moteur ETL/ELT de qualité industrielle. Il est livré avec une multitude de fonctionnalités qui le rendent idéal pour l'entreposage de données moderne.

Il s'agit notamment de l'architecture backend, qui comprend un moteur de traitement parallèle capable de gérer facilement un traitement de données complexes et volumineux, et les fonctionnalités de DW Builder. mode d'optimisation pushdown, qui permet aux utilisateurs d'exécuter des pipelines de données en mode ELT en appuyant simplement sur un bouton.

Le produit offre également une prise en charge de plus de 40 sources et destinations avec prise en charge des systèmes de fichiers plats, des bases de données sur site leaders du secteur telles que SQL Server et Oracle Database aux entrepôts de données basés sur le cloud tels qu'Amazon Redshift, Snowflake et Microsoft Azure, comme ainsi que de multiples outils de BI. Ajoutez plus de 500 transformations prêtes à l'emploi, y compris des options de qualité et de validation des données, et vous disposez de tous les outils dont vous avez besoin pour construire des pipelines de données rapides, précis et sans erreur pour l'entrepôt de données sans écrire un seul ligne de code.

Ces fonctionnalités sont prises en charge par des capacités d'automatisation complètes via un composant intégré d'orchestration de flux de travail et de planification des tâches.

Pour un premier essai de Astera Constructeur DW, cliquez ici .

Articles Relatifs

Modernisez votre architecture de données grâce à une approche basée sur les meilleures pratiques de dimensionnement...

La modélisation dimensionnelle des données est à la base de la conception efficace d'un entrepôt de données depuis des décennies. La méthodologie de Kimball promet des performances de requête optimisées...
EN SAVOIR PLUS

Comment les organisations tirent parti des avantages de l'automatisation des entrepôts de données en utilisant Astera DW...

Les entrepôts de données permettent aux entreprises de visualiser leurs données à partir de tous les points de terminaison dans un emplacement centralisé et de les traiter pour obtenir des informations....
EN SAVOIR PLUS