Présentation de la nouvelle fonctionnalité de mise en page dynamique dans Astera Centerprise 8.0

By |2022-03-28T12:18:58+00:006 janvier 2020|

Dans un conventionnel ETL ou ELT pipeline, tout le mappage de données est étroitement lié à un schéma défini de manière statique. Les types de données, le nombre de colonnes et les noms de colonne sont générés en fonction de la disposition d'origine des tables source correspondantes.

Dans le cadre de cette approche, toutes les modifications apportées aux fichiers ou aux tables source doivent être répercutées manuellement dans les flux de données et les flux de travail associés. Bien que ces tâches soient généralement limitées, dans les situations où des données transactionnelles sont reçues de divers emplacements, certains flux d'entrée peuvent contenir des colonnes supplémentaires ou suivre des conventions d'enregistrement différentes pour des champs spécifiques. De plus, les départements concernés sont généralement plus que disposés à ajuster la manière dont leurs données sont communiquées sur une base continue.

Avec des mises en page statiques en place, les utilisateurs peuvent être amenés à faire plusieurs ajustements manuels à leur mappages de données et des transformations pour résoudre les écarts du schéma mis à jour.

AsteraLa nouvelle option de mise en page dynamique de rationalise ces tâches fastidieuses grâce à des fonctionnalités intuitives qui permettent la configuration des paramètres pour les entités source et de destination. Toutes les modifications sont automatiquement propagées dans les cartes de données liées. Ces modifications sont initiées en fonction des chemins et des relations qui incombent déjà aux champs existants dans vos flux de données et workflows, quelle que soit la structure visible des entités source.

Avec les mises en page dynamiques activées, ces différentiels peuvent être automatiquement identifiés et implémentés dans vos processus ETL et ELT sans perturber votre intégrations de données.

Cas d'utilisation d'une mise en page dynamique

Nous avons identifié plusieurs scénarios dans lesquels la possibilité d'automatiser les modifications structurelles des mises en page serait avantageuse pour nos utilisateurs. Les utilisations potentielles de cette fonctionnalité incluent :

  1. Mise à jour rapide des dispositions de flux de données lorsque des colonnes sont ajoutées, supprimées ou modifiées à la source.
  2. Exécution de processus similaires (nettoyage, transformations, migrations) sur plusieurs flux de données avec un ajustement manuel minimal.
  3. Création d'un processus ETL ou ELT dynamique qui sélectionne automatiquement des fichiers disparates à partir d'un emplacement donné et les charge dans de nouvelles destinations.

Ces cas d'utilisation sont expliqués plus en détail ci-dessous.

Traiter les anomalies de mise en page

Dans le flux de données suivant, vous pouvez voir que l'entité source autorise trois champs par défaut, qui sont ensuite améliorés avec une transformation de valeur variable et constante.

cartographie des données

Un seul objet mis à jour dans une mise en page dynamique

Maintenant, nous pouvons utiliser l'écran du générateur de mise en page pour configurer un nouveau paramètre pour la source, comme indiqué ci-dessous.

constructeur de mise en page dynamique

Configuration des paramètres dans le générateur de disposition d'entité source

Une fois les présentations dynamiques activées, la sortie de cette entité est automatiquement mise à jour avec tous les nouveaux champs insérés dans la même logique de mappage. La nouvelle structure de table apparaît comme suit:

aperçu dynamique des données de mise en page

Aperçu des données montrant les champs ajoutés pour l'entité source dans la mise en page dynamique

Nous pouvons tester davantage cette fonctionnalité en ajoutant un champ au fichier source sans modifier la disposition de l'objet source dans Astera Centerprise. Cela nous montrera si le changement est correctement reflété dans flux de données.

Supposons que nous vérifions la sortie à la destination après avoir réexécuté le flux de données. Dans ce cas, nous pouvons voir qu'un différentiel a été automatiquement exécuté pour résoudre les écarts entre l'entité source et le fichier Excel. Le champ supplémentaire est ensuite intégré de manière transparente dans le mappage existant. Le processus exact se produit chaque fois que des champs sont supprimés du fichier source.

mise en page dynamique

Sortie mise à jour dynamiquement

Dispositions dynamiques dans les migrations de données à grand volume

Mise à jour dynamique des bases de données

L'efficacité réelle de cette fonctionnalité devient évidente lorsque nous l'implémentons dans un objet de flux de travail, qui sélectionne un tableau de fichiers source à partir d'un référentiel et les exécute via une série de transformations prédéfinies.

cartographie des données

Plusieurs objets source mis à jour dans une mise en page dynamique

Ci-dessus, nous avons une source de base de données dynamique configurée pour pointer vers une entrée définie dans la transformation de variable.

origine de la base de données

Paramètres de configuration pour la source de base de données

Cependant, la transformation de variable ne contient aucune définition pour un fichier ou un répertoire source.

Dans ce cas, les définitions sont fournies par une source d’éléments de système de fichiers externe dans un flux de travail (Voir ci-dessous)

procédé de design

Source de système de fichiers externe fournissant des définitions pour un flux de données mis à jour dynamiquement

Cet objet source est configuré pour pointer vers un répertoire contenant 26 fichiers différents, chacun avec une mise en page différente.

Comme vous pouvez le voir ci-dessus, le chemin complet et le nom du fichier d'entrée ont été liés à un objet variable dans le flux de données. Ce flux de travail a également été configuré pour s'exécuter en boucle, de sorte que chaque fichier du répertoire source sera récupéré et exécuté via l'objet de flux de données, qui s'adaptera dynamiquement à la nouvelle disposition et exécutera le fichier source à travers les transformations fournies dans le dernier cas d'utilisation sans nécessiter de réglage manuel par l'utilisateur.

Nous avons également configuré la table de destination dans notre flux de données d'origine pour charger tous les fichiers transformés dans une cible CSV, définie comme une version majuscule du nom de fichier source, comme indiqué par une expression différente dans l'entité variable.

Requêtes SQL mises à jour dynamiquement

Nous avons utilisé le Requête SQL Objet source pour sélectionner tous les champs de la table Employés dans la base de données source dans le diagramme ci-dessous.

Flux de données dynamique de requête SQL

Source de requête SQL dans un flux de données dynamique

Requête SQL

Instruction SELECT

Une fois de plus, les chemins de paramètre dans la variable dépendent des entrées d'un objet de flux de travail externe, comme indiqué ci-dessous.

flux de données dynamique

Source de flux de travail externe fournissant des valeurs de paramètre pour le flux de données dynamique

Dans ce cas, nous avons sélectionné une source délimitée contenant un total de noms de tables 26. Cet objet est transmis via une transformation d’expression qui place le nom de la table fourni dans un fichier. SELECT déclaration

Cette instruction est ensuite liée au champ variable d'entrée sqlquery1 dans le flux de données. Par conséquent, l'instruction select exécutée à la source dans Fig 4 sera mis à jour dynamiquement pour prélever les données d'une nouvelle table à chaque exécution du flux de données.

Chaque nouveau flux de données généré dynamiquement est également accessible individuellement si des ajustements supplémentaires sont nécessaires en fonction de la table d'entrée.

Comme vous pouvez le voir, le fichier source dans Fig 5 a été configuré pour s'exécuter en boucle, de sorte que le flux de travail continuera à fournir de nouveaux noms de table, qui seront utilisés dans Fig 4 Source de requête SQL. En mettant en œuvre des mises en page dynamiques, les utilisateurs peuvent économiser le temps et les efforts consacrés à la création de plusieurs flux de données individuels pour effectuer les mêmes opérations sur des tables sources disparates.

Nettoyage de données et mises en page dynamiques

Une autre mise en œuvre très efficace des mises en page dynamiques concerne les opérations de nettoyage des données à grande échelle. Un ensemble de données constamment mis à jour doit être validé pour son exactitude et sa cohérence avant d'être transmis aux systèmes de reporting et d'analyse.

Dans un schéma conventionnel, la mise en page doit être mise à jour manuellement chaque fois que les données source sont mises à jour. Dans les cas où la fonction concernée a apporté des modifications structurelles à ses tables sans en informer les développeurs, les activités de nettoyage des données peuvent être complètement interrompues. Cela créera un impact considérable sur la prise de décision aux niveaux exécutif et opérationnel.

De plus, si plusieurs tables doivent être nettoyées de la même manière, les développeurs doivent alors créer des processus individuels pour gérer chaque source.

nettoyage des données

Nettoyage des données dans un flux de données mis à jour dynamiquement

La figure ci-dessus montre un objet source configuré pour sélectionner des fichiers CSV à partir d'une source d'entrée en fonction des valeurs fournies dans la transformation de variable.

L'entité cible a été configurée de manière similaire pour créer une nouvelle destination basée sur les définitions fournies dans la transformation de variable.

saisie de valeurs variables

Valeurs variables pour l'entrée et la sortie

transformation de données

Nettoyage des données des champs de saisie

Alors que le flux de données montre actuellement qu'un seul champ est poussé à travers ce processus, nous pouvons ajouter plusieurs colonnes supplémentaires à la source sans aucun problème.

Celles-ci seront intégrées de manière transparente dans la cartographie existante sur la base des N ° de client champ de guidage, transformé et sortie vers la destination nouvellement configurée.

Astera CenterpriseFonction de mise en page dynamique

Vous souhaitez propager des modifications à un objet de destination ou créer un pipeline de flux de données complet capable de répondre en temps réel aux mises à jour et aux modifications de vos ensembles de données source ? Astera Centerprise vous permet d'ajouter des mises en page dynamiques qui ajoutent de la flexibilité aux mappages de données les plus complexes.

Vous pouvez programmer un consultation sans obligation avec notre équipe technique aujourd'hui pour plus d'informations à ce sujet et sur d'autres fonctionnalités.