Alles, was Sie über die Datenpipeline-Architektur wissen müssen

By |2022-06-10T08:08:03+00:00 22. Februar 2020|

Die Verwaltung des Informationsflusses von einem Quell- zum Zielsystem, wie z. B. einem Data Warehouse, ist ein wesentlicher Bestandteil jedes Unternehmens, das Wert aus seinen Rohdaten generieren möchte. Die Architektur der Datenpipeline ist eine komplizierte Aufgabe, da während der Übertragung mehrere Dinge schief gehen können – die Datenquelle kann Duplikate erstellen, Fehler können sich von der Quelle zum Ziel ausbreiten, Daten können beschädigt werden usw.

Eine Zunahme der Datenmenge und der Anzahl der Quellen kann den Prozess weiter erschweren. Hier kommen Datenpipelines ins Spiel. Die Automatisierung der Datenpipeline vereinfacht den Datenfluss, indem die manuellen Schritte des Extrahierens, Transformierens und Ladens eliminiert und der Prozess automatisiert werden

In diesem Blog behandeln wir, welche Datenpipeline-Architektur und warum sie vor einem Integrationsprojekt geplant werden muss. Als Nächstes sehen wir uns die grundlegenden Teile und Prozesse einer Datenpipeline an. Abschließend erläutern wir zwei Beispiele für die Datenpipeline-Architektur und sprechen über eines der besten Datenpipeline-Tools.

Was ist eine Datenpipeline-Architektur?

Eine Datenpipeline-Architektur ist eine Anordnung von Objekten, die Daten extrahiert, reguliert und an das relevante System weiterleitet, um wertvolle Erkenntnisse zu erhalten.

Im Gegensatz zu einem ETL-Pipeline oder Big-Data-Pipeline, bei der Daten aus einer Quelle extrahiert, umgewandelt und dann in ein Zielsystem geladen werden, ist eine Datenpipeline eine etwas breitere Terminologie. Es umfasst die ETL und Big-Data-Pipelines als Teilmenge.

Der Hauptunterschied zwischen ETL und Datenpipeline besteht darin, dass letztere Verarbeitungswerkzeuge verwendet, um Daten von einem System auf ein anderes zu verschieben, unabhängig davon, ob die Daten transformiert werden oder nicht.

Alles, was Sie über die Datenpipeline-Architektur wissen müssen

Faktoren, die zur Effizienz einer Datenpipeline beitragen

Beim Aufbau einer Datenpipeline sollten drei Hauptfaktoren berücksichtigt werden:

  • Durchsatz: Dies ist die Rate, mit der die Daten in einer Pipeline innerhalb einer bestimmten Zeit verarbeitet werden.
  • Zuverlässigkeit: Es erfordert, dass die verschiedenen Systeme in der Datenpipeline fehlertolerant sind. Daher verfügt eine zuverlässige Pipeline über integrierte Auditing-, Validierungs- und Protokollierungssysteme, die die Datenqualität sicherstellen.
  • Latenz: Es bezieht sich auf die Zeit, die eine Dateneinheit benötigt, um die Datenpipeline zu durchlaufen. Es geht im Wesentlichen um Reaktionszeit als Durchsatz.

Warum benötigen Sie eine Datenpipeline?

Da jeden Tag riesige Datenmengen nach innen fließen, ist es von Vorteil, eine Streaming-Data-Pipeline-Architektur zu haben, die es ermöglicht, alle Daten in Echtzeit zu verarbeiten, was die Analyse und Berichterstattung fördert. Datenpipelines erhöhen die zielgerichtete Funktionalität von Daten, indem sie sie für die Gewinnung von Einblicken in Funktionsbereiche nutzbar machen. Beispielsweise transportiert eine Datenaufnahmepipeline Informationen aus verschiedenen Quellen in ein zentralisiertes Data Warehouse oder Datenbank. Dies kann bei der Analyse von Daten zum Zielkundenverhalten, zur Prozessautomatisierung, zur Käuferreise und zum Kundenerlebnis helfen.

Da eine Datenpipeline Daten in Teilen enthält, die für bestimmte organisatorische Anforderungen bestimmt sind, können Sie Ihre Business Intelligence und Analysen verbessern, indem Sie Einblicke in aktuelle Trends und Informationen erhalten.

Ein weiterer wichtiger Grund, der eine Datenpipeline für Unternehmen unverzichtbar macht, ist, dass sie konsolidiert Daten aus zahlreichen Quellen für eine umfassende Analyse, reduziert den Aufwand für die Analyse und liefert nur die erforderlichen Informationen an das Team oder Projekt.

Darüber hinaus können sichere Datenpipelines Administratoren dabei helfen, den Zugriff auf Informationen einzuschränken. Sie können internen oder externen Teams nur den Zugriff auf die Daten gewähren, die für ihre Ziele unerlässlich sind.

Datenpipelines verbessern auch Schwachstellen in den zahlreichen Phasen der Datenerfassung und -bewegung. Um Daten von einem System in ein anderes zu kopieren oder zu verschieben, müssen Sie sie zwischen Speicherdepots verschieben, für jedes System neu formatieren und/oder mit anderen Datenquellen integrieren. Eine durchdachte Architektur der Streaming-Datenpipeline vereint diese kleinen Teile zu einem integrierten System, das Mehrwert bietet.

Grundlegende Teile und Prozesse einer Datenpipeline-Architektur

Das Design der Datenpipeline kann in die folgenden Teile eingeteilt werden:

Datenquelle

Komponenten der Datenaufnahme-Pipeline-Architektur helfen beim Abrufen von Daten aus verschiedenen Quellen, wie z. B. relationalen DBMS, APIs, Hadoop, NoSQL, Cloud-Quellen, Open Sources, Data Lakes, Datenspeichern usw. Nach dem Datenabruf müssen Sie Sicherheitsprotokolle beachten und befolgen Best Practices für optimale Leistung und Konsistenz.

Extraktion

Einige Felder enthalten möglicherweise unterschiedliche Elemente wie eine Postleitzahl in einem Adressfeld oder eine Sammlung zahlreicher Werte, z. B. Geschäftskategorien. Wenn diese diskreten Werte sein müssen Extrahiert Wenn bestimmte Feldelemente maskiert werden müssen, kommt die Datenextraktion ins Spiel.

Joins

Im Rahmen eines Entwurfs einer Datenpipeline-Architektur werden häufig Daten aus verschiedenen Quellen zusammengeführt. Joins geben die Logik und die Kriterien für die Art und Weise an, wie Daten gepoolt werden.

Standardisierung

Häufig müssen Daten Feld für Feld standardisiert werden. Dies erfolgt in Bezug auf Maßeinheiten, Daten, Elemente, Farbe oder Größe sowie Codes, die für Industriestandards relevant sind.

Korrektur

Datensätze enthalten häufig Fehler, z. B. ungültige Felder wie eine Statusabkürzung oder eine Postleitzahl, die nicht mehr vorhanden ist. In ähnlicher Weise können Daten auch beschädigte Datensätze enthalten, die in einem anderen Prozess gelöscht oder geändert werden müssen. Dieser Schritt in der Datenpipeline-Architektur korrigiert die Daten, bevor sie in das Zielsystem geladen werden.

Laden von Daten

Nachdem Ihre Daten korrigiert und zum Laden bereit sind, werden sie in ein einheitliches System verschoben, von wo aus sie für die Analyse oder Berichterstellung verwendet werden. Das Zielsystem ist normalerweise a relationales DBMS oder ein Data Warehouse. Jedes Zielsystem erfordert das Befolgen von Best Practices für eine gute Leistung und Konsistenz.

Automatisierung

Datenpipelines werden normalerweise mehrmals und in der Regel nach einem Zeitplan oder ohne Unterbrechung implementiert. Planung verschiedener Prozessanforderungen Automatisierung um Fehler zu reduzieren, und es muss den Status an Überwachungsverfahren übermitteln.

Netzwerk Performance

Wie bei jedem anderen System sollten auch einzelne Schritte beim Design der Datenpipeline umfassend hinterfragt werden. Ohne Überwachung können Sie nicht richtig feststellen, ob das System wie erwartet funktioniert. Sie können beispielsweise messen, wann ein bestimmter Job initiiert und gestoppt wurde, die Gesamtlaufzeit, den Abschlussstatus und alle relevanten Fehlermeldungen.

Beispiele für die Architektur von Datenpipelines

Die zwei wichtigsten Beispiele für Big-Data-Pipelines sind:

Stapelbasierte Datenpipeline

Bei der Stapelverarbeitung werden Datenblöcke verarbeitet, die bereits über einen bestimmten Zeitraum gespeichert wurden. Zum Beispiel die Abwicklung aller Transaktionen, die ein wichtiges Finanzunternehmen in einem Monat ausgeführt hat.

Die Stapelverarbeitung eignet sich besser für große Datenmengen, die verarbeitet werden müssen, während keine Echtzeitanalyse erforderlich ist. Es ist wichtiger, umfassende Einblicke in Batch-basierte Daten-Pipelines zu erhalten, als schnellere Analyseergebnisse zu erhalten.

In einer stapelbasierten Datenpipeline gibt es möglicherweise eine Quellanwendung wie ein POS-System (Point-of-Sale), das eine große Anzahl von Datenpunkten erstellt, die Sie in ein Data Warehouse und eine Analysedatenbank übertragen müssen.

Das folgende Diagramm zeigt, wie ein chargenbasiertes Datenpipelinesystem funktioniert:

Datenpipeline-Architektur 2

Grundlegendes Beispiel einer Datenpipeline

Streaming-Daten-Pipeline

Die Stream-Verarbeitung führt Operationen an Daten in Bewegung oder in Echtzeit durch. Es ermöglicht Ihnen, Bedingungen innerhalb eines kürzeren Zeitraums nach dem Abrufen der Daten schnell zu erfassen. Dadurch können Sie Daten direkt bei der Erstellung in das Analysetool eingeben und erhalten zeitnahe Ergebnisse.

Die Streaming-Daten-Pipeline verarbeitet die Daten aus dem POS-System, während sie produziert werden. Die Stream-Processing-Engine sendet Ausgaben aus der Datenpipeline an Datenrepositorys, Marketing-Apps, CRMs und verschiedene andere Anwendungen und sendet sie an das POS-System selbst zurück.

Hier ist ein Beispiel für die Funktionsweise eines Streaming-Daten-Pipelinesystems:

Datenpipeline-Architektur 4

Streaming-Daten-Pipeline-Diagramm

Einpacken

Rohdatensätze enthalten Datenpunkte, die für Ihr Unternehmen möglicherweise wichtig sind oder nicht. Eine Datenpipeline-Architektur verwendet verschiedene Softwaretechnologien und -protokolle, um wichtige Geschäftsinformationen zu integrieren und zu verwalten und so die Berichterstellung und Analyse zu vereinfachen.

Beim Erstellen einer Datenpipeline-Architektur, die die Datenintegration vereinfacht, stehen zahlreiche Optionen zur Verfügung. Eines der besten Tools zur Automatisierung von Datenpipelines ist Astera Centerprise 8.0 Auf diese Weise können Sie Ihre Datenpipelines extrahieren, bereinigen, transformieren, integrieren und verwalten, ohne eine einzige Codezeile schreiben zu müssen.

Verwandte Artikel

So wählen Sie die besten Datenintegrationstools für Unternehmen aus

Wenn Qualitätsdaten für geschäftliche Erkenntnisse und Datenanalysen verwendet werden, erzielen Unternehmen bessere Einnahmen. Extrahieren Sie diese Erkenntnisse aus hoch...
Mehr Infos or weiterlesen

Datenqualitätsmanagement: Was es ist und warum es...

Daten sind das Lebenselixier eines Unternehmens, das die Grundlage für viele wichtige Geschäftsentscheidungen bildet. Organisationen sollten jedoch ...
Mehr Infos or weiterlesen

Liefern Sie glaubwürdige Ergebnisse mit ETL-Testwerkzeugen

Glaubwürdige Daten sind der Treibstoff für Geschäftsprozesse und Analysen. Eine Harvard Business Review-Studie aus dem Jahr 2017 ergab, dass 47 Prozent ...
Mehr Infos or weiterlesen