Pushdown-Optimierungsmodus in Astera Centerprise

By |2020-04-09T14:55:26+00:003. Juni 2019|

Der ELT-Prozess ergänzt den traditionellen ETL-Ansatz für eine verbesserte Leistung und agile Ergebnisse

Einführung

ETL (Extrahieren, Transformieren, Laden) und ELT (Extrahieren, Laden und Transformieren) sind zwei Methoden zur Datenbearbeitung, die häufig als Ersatz verwendet werden. Die Situation, in der einer der beiden Ansätze verwendet wird, hängt von mehreren Faktoren ab, z. B. dem Typ der Quell- und Zieldatenbanken, der Verarbeitungsleistung des Datenbankservers, dem Datenvolumen und der Komplexität der Transformationen. Letztendlich besteht das Ziel darin, Benutzern das effiziente Verschieben von Daten in großen Mengen zu ermöglichen.

ELT wird von ETL basierend auf dem Ort der Transformationsverarbeitung unterschieden. In einem ETL-Prozess werden die Daten in den Staging-Bereich transformiert, der normalerweise zwischen dem Quell- und dem Zielsystem (Data Warehouse) platziert wird. Im Gegenteil, in einem ELT-Prozess finden die Transformationen in der Zieldatenbank statt. Das Datenbankmodul, mit dem das Database Management System (DBMS) betrieben wird, führt die Transformationen in einem ELT-Prozess aus, während Transformationen auf einem dritten Computer in einem ETL-Prozess ausgeführt werden. Transformationen in ETL werden normalerweise auf einem relationalen Datenbankserver ausgeführt, der physisch und logisch vom Quell- und Zielsystem getrennt ist. Dies geschieht, um die Auswirkungen der periodischen ETL-Aktivität auf Quell- und Zielsysteme zu minimieren.

ETL - Extrahieren, Transformieren und Laden

Unternehmen sammeln und führen Daten aus mehreren Quellen zusammen, was zu einer Heterogenität der Datenplattformen und -formate führt. Eine ETL-Software überträgt die Quelldaten zur Transformation auf den Server und schreibt die transformierten Daten in das Ziel. Es führt auch Integritätsprüfungen der eingehenden Daten durch.

Ein ETL-Tool ist ein wichtiger Bestandteil beim Aufbau eines Data Warehouse. Es kann verwendet werden, um nur die relevanten Informationen zu extrahieren, sie zu analysieren und zu validieren, um sie an das Standardformat des Unternehmens anzupassen, und um schließlich strukturierte und bereinigte Daten in ein Data Warehouse zu laden. Da die im Data Warehouse geladenen Daten bereits bereinigt und transformiert wurden, können Geschäftsbenutzer sie leichter analysieren.

ELT - Extrahieren, Laden und Transformieren

Anstatt Datenmengen in ein ETL-Softwaresystem zu verschieben, können Benutzer in bestimmten Situationen die Leistung maximieren, indem sie die Staging-Tabellen in der Zieldatenbank platzieren. Der Hauptvorteil eines ELT-Ansatzes besteht darin, dass er zeiteffizient ist, da er die Daten direkt auf das Ziel lädt und die Verarbeitung an das DBMS delegiert. Dadurch wird die Zeit zwischen Extraktion und Ladevorgang verkürzt und die Daten stehen dem Endbenutzer sofort zur Verfügung. Da jedoch nicht transformierte Daten auf die Zielsysteme geladen werden, sind die Opportunitätskosten der reduzierten Datenlieferzeit eine saubere visuelle Schnittstelle. Gartner-Analyst Mei Yang Selvage sagt: „ELT eignet sich hauptsächlich für Workloads mit begrenzter Transformation und Bereinigung"

Pushdown-Optimierungsmodus

Was ist der Pushdown-Optimierungsmodus?

Der Pushdown-Modus in Astera Centerprise Mit dieser Option können die Benutzer auswählen, wo die Datenverarbeitung stattfinden soll, indem sie die Transformationslogik in die Quell- oder Zieldatenbank verschieben, wenn sie sich auf demselben Server befinden. Auf diese Weise werden unnötige Datenbewegungen vermieden, die Netzwerklatenz durch Bereitstellung flexibler Ergebnisse verringert und die Gesamtleistung verbessert.

Wie funktioniert die Pushdown-Optimierung?

Die Notwendigkeit, große Datenmengen zu extrahieren und zu migrieren, von Quellsystemen zu einem Drittanbieter-Server für Transformationen, führt dazu, dass Benutzer wertvolle Zeit verlieren. Wenn sich Quellendatenbank und Zieldatenbank auf demselben Server befinden, können Benutzer Zeit sparen, indem sie unnötige Datenverschiebungen vermeiden. Wenn Sie einen Job im Pushdown-Modus ausführen, wird die Transformationslogik in die Quell- oder Zieldatenbank übertragen. Anstatt die
Teilweise Transformationslogik: Durch Extrahieren der Informationen aus der Quelle, Anwenden von Transformationen und anschließendes Laden der Informationen in das Ziel werden die Befehle über automatisch generierte konsolidierte SQL-Abfragen ausgegeben und ausgeführt. Wenn Unternehmen die Verarbeitung von Massendaten benötigen, bietet dieser Ansatz erhebliche Leistungsvorteile, da keine Daten zwischen der Datenbank und dem ETL-Server übertragen werden müssen.

Arten des Pushdown-Optimierungsmodus

Es gibt zwei Arten von Pushdown-Optimierungsmodi:

  1. Voller Pushdown-Optimierungsmodus
  2. Partieller Pushdown-Optimierungsmodus

Astera CenterpriseDer intelligente Algorithmus von entscheidet, ob die Leistung des Jobs durch Ausführen einer partiellen Pushdown-Optimierung optimiert wird
Modus oder voller Pushdown-Optimierungsmodus. Abbildung 3-4 zeigt SQL-Abfragen für Jobs, die im partiellen und vollständigen Pushdown-Optimierungsmodus ausgeführt werden.

Der hervorgehobene Teil in Abbildung 3 ist der Teil des Jobs, der im Pushdown-Modus ausgeführt wird. In diesem Beispiel wird die Transformationslogik (Aggregattransformation) nur teilweise in die Quellendatenbank verschoben, daher wird sie als bezeichnet teilweiser Pushdown.

Ein vollständiger Pushdown bezieht sich dagegen auf das Ausführen eines Jobs im Pushdown-Modus von Anfang bis Ende. Abbildung 4 zeigt ein Beispiel für einen Job, der in ausgeführt wird vollständiger Pushdown Modus arbeiten können.

Hierbei ist zu beachten, dass die entsprechenden SQL-Abfragen (in beiden Modi) automatisch generiert werden, ohne dass ein manuelles Scripting oder Codieren erforderlich ist.

Überprüfen Sie die Pushdown-Job-Funktion in Astera Centerprise

Nicht jeder Job kann im Pushdown-Modus ausgeführt werden. Wenn sich die Quell- und Zielziele beispielsweise nicht in derselben relationalen Datenbank befinden, kann der Schritt zum Extrahieren und Übertragen von Daten nicht eliminiert werden. Darüber hinaus können bestimmte Transformationslogiken wie "Suchen", Analyse von Namen und Adressen oder Verarbeitung komplexer Zeichenfolgen nicht nach unten verschoben werden.

Überprüfen Sie die Pushdown-Job-Funktion in Astera Centerprise Identifiziert die Transformationslogiken und SQL-Anweisungen, die in die Quell- oder Zieldatenbank übertragen werden können.

 

Unterstützte Datenbankanbieter in der Astera Pushdown-Optimierungsmodus

In Astera CenterpriseDer Pushdown-Optimierungsmodus wird für die folgenden Anbieter unterstützt:

1. MSSQL
2. Postgres
3 Oracle
4. SQL
5. MySQL (Version 7.3)

Fazit

Anstatt ETL und ELT (Pushdown-Optimierung) als unterschiedliche Ansätze zu vergleichen, um dieselben Ergebnisse zu erzielen, sollten Sie sie als unterschiedliche Tools betrachten, die für unterschiedliche Geschäftsanforderungen entwickelt wurden. Beide Ansätze haben daher ihre Vor- und Nachteile. Wenn Sie sie als komplementäre Tools anstelle von Ersatz verwenden, erzielen Sie die besten Ergebnisse für Ihr Unternehmen. Astera Centerprise bietet beide Möglichkeiten. Benutzer können über den Ansatz entscheiden, indem sie die Faktoren berücksichtigen, die sich auf die gesamte Datenverarbeitung auswirken.

Möchten Sie die Pushdown-Optimierungsfunktion in testen? Astera Centerprise? Laden Sie eine kostenlose Testversion herunter riesige Datenmengen mit unglaublicher Geschwindigkeit zu integrieren.