Einführung der neuen dynamischen Layoutfunktion in Astera Centerprise 8.0
In einem konventionellen ETL oder ELT Pipeline ist die gesamte Datenzuordnung fest an ein statisch definiertes Schema gebunden. Datentypen, Anzahl der Spalten und Spaltennamen werden basierend auf dem ursprünglichen Layout der entsprechenden Quelltabellen generiert.
Bei diesem Ansatz müssen alle Änderungen an Quelldateien oder Tabellen manuell in zugehörigen Datenflüssen und Workflows widergespiegelt werden. Obwohl diese Aufgaben im Allgemeinen begrenzt sind, können einige Eingabe-Feeds in Situationen, in denen Transaktionsdaten von verschiedenen Orten empfangen werden, zusätzliche Spalten enthalten oder anderen Aufzeichnungskonventionen für bestimmte Felder folgen. Darüber hinaus sind betroffene Abteilungen in der Regel gerne bereit, die Art und Weise, wie ihre Daten kommuniziert werden, laufend anzupassen.
Wenn statische Layouts vorhanden sind, müssen Benutzer möglicherweise mehrere manuelle Anpassungen an ihren vorhandenen vornehmen Datenzuordnungen und Transformationen, um die Abweichungen des aktualisierten Schemas zu beheben.
AsteraDie neue dynamische Layoutoption von optimiert diese zeitaufwändigen Aufgaben mit intuitiven Funktionen, die eine Parameterkonfiguration für Quell- und Zielentitäten ermöglichen. Alle Änderungen werden automatisch auf verknüpfte Datenkarten übertragen. Diese Änderungen werden basierend auf den Pfaden und Beziehungen initiiert, die bereits vorhandenen Feldern in Ihren Datenflüssen und Workflows obliegen, unabhängig von der sichtbaren Struktur der Quellentitäten.
Wenn dynamische Layouts aktiviert sind, können diese Unterschiede automatisch identifiziert und in Ihren ETL- und ELT-Prozessen implementiert werden, ohne Ihre zu stören Datenintegrationen.
Anwendungsfälle für dynamisches Layout
Wir haben mehrere Szenarien identifiziert, in denen die Fähigkeit, strukturelle Änderungen an Layouts zu automatisieren, für unsere Benutzer von Vorteil wäre. Zu den möglichen Anwendungen für diese Funktion gehören:
- Schnelles Aktualisieren von Datenflusslayouts, wenn Spalten an der Quelle hinzugefügt, entfernt oder geändert werden.
- Durchführen ähnlicher Prozesse (Bereinigung, Transformationen, Migrationen) über mehrere Datenflüsse hinweg mit minimaler manueller Anpassung.
- Erstellen eines dynamischen ETL- oder ELT-Prozesses, der automatisch unterschiedliche Dateien von einem bestimmten Speicherort auswählt und sie in neue Ziele lädt.
Diese Anwendungsfälle werden im Folgenden näher erläutert.
Umgang mit Layout-Anomalien
Im folgenden Datenfluss können Sie sehen, dass die Quellentität drei Standardfelder zulässt, die dann mit einer Variablen- und Konstantwerttransformation erweitert werden.
Jetzt können wir den Layout Builder-Bildschirm verwenden, um einen neuen Parameter für die Quelle einzurichten, wie unten gezeigt.
Sobald dynamische Layouts aktiviert sind, wird die Ausgabe für diese Entität automatisch mit allen neuen Feldern aktualisiert, die dieselbe Zuordnungslogik durchlaufen. Die neue Tabellenstruktur sieht folgendermaßen aus:
Wir können diese Funktion weiter testen, indem wir der Quelldatei ein Feld hinzufügen, ohne das Layout des Quellobjekts in zu ändern Astera Centerprise. Dies zeigt uns, ob die Änderung korrekt wiedergegeben wird Datenfluss.
Angenommen, wir überprüfen die Ausgabe am Ziel, nachdem der Datenfluss erneut ausgeführt wurde. In diesem Fall können wir sehen, dass automatisch ein Differential ausgeführt wurde, um alle Diskrepanzen zwischen der Quellentität und der Excel-Datei zu beheben. Das zusätzliche Feld fügt sich dann nahtlos in das bestehende Mapping ein. Der genaue Vorgang findet immer dann statt, wenn Felder aus der Quelldatei entfernt werden.
Dynamische Layouts bei Datenmigrationen mit hohem Volumen
Dynamisch aktualisierte Datenbanken
Die tatsächliche Effektivität dieser Funktion wird deutlich, wenn wir sie in einem Workflow-Objekt implementieren, das eine Reihe von Quelldateien aus einem Repository auswählt und sie durch eine Reihe von voreingestellten Transformationen führt.
Oben haben wir eine dynamische Datenbankquelle, die so konfiguriert ist, dass sie auf eine in der Variablentransformation definierte Eingabe zeigt.
Die Variablentransformation enthält jedoch keine Definitionen für eine Quelldatei oder ein Quellverzeichnis.
In diesem Fall werden die Definitionen von einer externen Quelle für Dateisystemelemente in einem Workflow bereitgestellt (Siehe unten)
Dieses Quellobjekt ist so eingerichtet, dass es auf ein Verzeichnis zeigt, das 26 verschiedene Dateien mit jeweils unterschiedlichem Layout enthält.
Wie Sie oben sehen können, Der vollständige Pfad und der Eingabedateiname wurden mit einem Variablenobjekt im Datenfluss verknüpft. Dieser Workflow wurde auch so eingerichtet, dass er in einer Schleife ausgeführt wird, sodass jede Datei im Quellverzeichnis aufgenommen und durch das Datenflussobjekt geleitet wird, das sich dynamisch an das neue Layout anpasst und die Quelldatei durch die in bereitgestellten Transformationen führt letzten Anwendungsfall ohne die Notwendigkeit einer manuellen Anpassung durch den Benutzer.
Wir haben auch die Zieltabelle in unserem ursprünglichen Datenfluss so konfiguriert, dass alle transformierten Dateien in ein CSV-Ziel geladen werden, das als Großbuchstabenversion des Quelldateinamens definiert ist, wie durch einen anderen Ausdruck in der Variablenentität angegeben.
Dynamisch aktualisierte SQL-Abfragen
Wir haben das benutzt SQL-Abfrage Quellobjekt, um alle Felder aus der Employees-Tabelle in der Quelldatenbank im folgenden Diagramm auszuwählen.
Auch hier sind die Parameterpfade in der Variablen abhängig von Eingaben von einem externen Arbeitsablaufobjekt, wie unten zu sehen ist.
In diesem Fall haben wir eine begrenzte Quelle ausgewählt, die insgesamt 26-Tabellennamen enthält. Dieses Objekt wird durch eine Ausdrucksumwandlung übergeben, die den angegebenen Tabellennamen in a platziert SELECT Aussage
Diese Anweisung wird dann mit dem Eingabevariablenfeld sqlquery1 im Datenfluss verknüpft. Als Ergebnis wird die select-Anweisung an der Quelle in ausgeführt Abb 4 werden bei jeder Ausführung des Datenflusses dynamisch aktualisiert, um Daten aus einer neuen Tabelle auszuwählen.
Auf jeden neuen dynamisch generierten Datenfluss kann auch einzeln zugegriffen werden, wenn zusätzliche Anpassungen basierend auf der Eingabetabelle erforderlich sind.
Wie Sie sehen können, ist die Quelldatei in Abb 5 wurde so eingestellt, dass er in einer Schleife läuft, sodass der Workflow weiterhin neue Tabellennamen liefert, die in verwendet werden Abb. 4 SQL-Abfragequelle. Durch die Implementierung dynamischer Layouts können Benutzer sich die Zeit und Mühe ersparen, die sie für die Erstellung mehrerer einzelner Datenflüsse aufgewendet haben, um die gleichen Operationen an unterschiedlichen Quelltabellen auszuführen.
Datenbereinigung und dynamische Layouts
Eine weitere äußerst effektive Implementierung dynamischer Layouts ist die groß angelegte Datenbereinigung. Ein ständig aktualisierter Datensatz muss auf Genauigkeit und Konsistenz validiert werden, bevor er an Berichts- und Analysesysteme weitergegeben wird.
In einem herkömmlichen Schema muss das Layout immer dann manuell aktualisiert werden, wenn Quelldaten aktualisiert werden. In Fällen, in denen die betroffene Funktion strukturelle Änderungen an ihren Tabellen vorgenommen hat, ohne die Entwickler zu informieren, können die Datenbereinigungsaktivitäten insgesamt unterbrochen werden. Dies wird einen erheblichen Einfluss auf die Entscheidungsfindung sowohl auf der Führungsebene als auch auf der operativen Ebene haben.
Wenn mehrere Tabellen auf dieselbe Weise bereinigt werden müssen, müssten die Entwickler außerdem individuelle Prozesse erstellen, um mit jeder Quelle umzugehen.
Die Abbildung oben zeigt ein Quellobjekt, das so konfiguriert ist, dass CSV-Dateien aus einer Eingabequelle basierend auf den in der Variablentransformation bereitgestellten Werten ausgewählt werden.
Die Zielentität wurde ähnlich konfiguriert, um ein neues Ziel basierend auf den in der Variablentransformation bereitgestellten Definitionen zu erstellen.
Während im Datenfluss derzeit nur ein Feld angezeigt wird, das diesen Prozess durchläuft, können wir der Quelle problemlos mehrere zusätzliche Spalten hinzufügen.
Diese werden nahtlos in das bestehende Mapping auf Basis der integriert Kundennummer Führungsfeld, transformiert und an das neu konfigurierte Ziel ausgegeben.
Astera CenterpriseFunktion für dynamische Layouts
Möchten Sie Änderungen an ein Zielobjekt weitergeben oder eine vollständige Datenflusspipeline erstellen, die in Echtzeit auf Aktualisierungen und Änderungen an Ihren Quelldatensätzen reagieren kann? Astera Centerprise können Sie dynamische Layouts hinzufügen, die selbst den komplexesten Datenzuordnungen Flexibilität verleihen.
Sie können einen Termin vereinbaren unverbindliche Beratung Wenden Sie sich noch heute an unser technisches Team, um weitere Informationen zu dieser und anderen Funktionen zu erhalten.