Blogs

Startseite / Blogs / Brauchen Sie wirklich einen Datentresor?

Inhaltsverzeichnis
Die automatisierte, Kein Code Datenstapel

Erfahren Sie, wie Astera Data Stack kann die Datenverwaltung Ihres Unternehmens vereinfachen und rationalisieren.

Brauchen Sie wirklich einen Datentresor?

April 4th, 2024

Die Data Vault 2.0-Modellierungsmethodik hat seit ihrer Einführung im Jahr 2013 immense Popularität erlangt. Es handelt sich um ein Hybridmodell, das die Vorteile der Third Normal Form (3NF)- und Star-Schema-Architekturen kombiniert, was es zu einer Traumlösung für Data-Warehousing-Ingenieure macht.

Aber lohnt sich die Implementierung für Ihre Data-Warehouse-Architektur? Die Antwort ist nicht einfach, da viele Faktoren zu berücksichtigen sind. Lassen Sie uns also eintauchen und herausfinden, ob Data Vault 2.0 das Richtige für Sie ist.

Wann sollten Sie einen Datentresor implementieren?

Die Datentresor-Architektur soll eine Ergänzung zum sein Sternschema Methodik von Modellierung Ihres Data Warehouse. Es fungiert als zusätzliche Ebene zwischen Ihrer Staging- und Berichtsebene.

3NF und Star Schema sind großartige eigenständige Architekturen, aber beide haben ihre Vor- und Nachteile. Ein 3NF-Modell bietet eine geringere Datenredundanz und benötigt weniger Speicherplatz, kann aber aufgrund der großen Anzahl von Tabellen schwierig abzufragen sein. Ein Sternschema ist für eine schnellere Abfrageleistung und Verlaufspflege optimiert, kann jedoch komplex und zeitaufwändig sein.

Hier kommt der Datentresor ins Spiel.

Der größte Vorteil eines Datentresors ist sein Anpassungsfähigkeit an Veränderungen. Wenn Ihre Quellarchitektur anfällig für Änderungen ist, wie z. B. das Hinzufügen oder Löschen von Spalten, neue Tabellen oder neue/geänderte Beziehungen, sollten Sie unbedingt einen Datentresor implementieren.

Ein 3NF-Modell hat hohe Entitätsabhängigkeiten, da Entitäten korreliert sind. Immer wenn etwas Neues hinzugefügt oder eine Änderung am Modell vorgenommen wird, müssen Sie vorhandene Beziehungsverknüpfungen ändern, was zu Problemen mit der referenziellen Integrität führen kann. Im Gegensatz dazu enthält ein Datentresormodell unabhängige Verknüpfungstabellen, die die Verknüpfungen zwischen Tabellen darstellen. Sie können problemlos Änderungen vornehmen, z. B. das Hinzufügen neuer Quellen zur Architektur oder das Ändern des vorhandenen Schemas, indem Sie dem Modell neue Verknüpfungstabellen hinzufügen.

Ein zusätzlicher Vorteil dieser Verknüpfungstabellen ist ihre Fähigkeit, viele-zu-viele-Beziehungen zu berücksichtigen. In einem 3NF-Modell müssten Sie eine Bridge-Tabelle erstellen, um diese Art von Beziehung aufrechtzuerhalten, aber Link-Tabellen haben die inhärente Fähigkeit, dies zu tun. Es wären keine Schemaänderungen erforderlich, selbst wenn Sie eine Beziehung von Eins-zu-Vielen zu Viele-zu-Vielen ändern.

Darüber hinaus bieten Datentresore Überprüfbarkeit, indem sie Satellitentabellen verwenden, um historische Aufzeichnungen über Änderungen zu führen, die an den Quelldaten vorgenommen wurden. In Bezug auf die dimensionale Modellierung wird SCD Typ 2 im Wesentlichen auf jedes Feld angewendet, um sicherzustellen, dass die Historie beibehalten wird. Auf diese Weise können Sie alle Arten von Änderungen verfolgen, die in den Daten stattfinden. Darüber hinaus enthält die Satellitentabelle auch Aufzeichnungszeit- und Quellenfelder, was eine umfassende Prüfung erleichtert.

Eine Datentresorarchitektur ermöglicht Paralleles Laden, da keine Suchen erforderlich sind – im Gegensatz zu einem dimensionalen Modell, das eine Dimensionssuche erfordert, um den aktiven Ersatzschlüssel für einen Fakt zu erhalten. Darüber hinaus gibt es keine Fremdschlüsselbeschränkungen; Hash-Schlüssel können einfach mit den Geschäftsschlüsseln in der Staging-Schicht berechnet werden, wodurch die Notwendigkeit einer Suche entfällt und es möglich wird, mehrere Tabellen parallel zu füllen und zu pflegen. Bestnoten für Effizienz!

Bisher haben wir nur über den Raw Vault gesprochen – und es zeigt sich, dass dessen Umsetzung enorme Vorteile hat. Andererseits bietet der Geschäftstresor einen separaten Satz von Entitäten, wie z. B. Point-in-Time- und Bridge-Tabellen, die als Spielraum für die Berichtsschicht (Sternschema) verwendet oder direkt für die Berichterstellung aufgerufen werden können.

Die Kombination aus Raw Vault und Business Vault kann als leistungsstarkes Instrument im Toolkit eines Data-Warehouse-Architekten dienen. Aber sind sie ein wesentlicher Bestandteil Ihres Data-Warehouse-Entwicklungslebenszyklus? Mm, nicht genau!

Wann ist es übertrieben?

Nehmen wir ein Szenario, in dem Sie ein ERP-Quellsystem haben, das Daten aus zehn Jahren enthält, die Sie in ein Data Warehouse laden und für die Berichterstellung verwenden möchten. Es werden keine Änderungen an der Architektur oder den Daten selbst erwartet; Ihr einziges Ziel ist es, Erkenntnisse aus den vorliegenden Informationen zu gewinnen.

In einer solchen Situation ist keine Anpassungsfähigkeit erforderlich, da keine Änderungen in der Architektur erwartet werden – es besteht keine Notwendigkeit, neue Beziehungen, Felder oder Tabellen hinzuzufügen. Darüber hinaus müssten Sie keine Daten prüfen, die keine Aktualisierungen von der/den Quelle(n) erwarten.

Das Entwerfen eines Rohtresors kann eine mühsame und zeitaufwändige Aufgabe sein. Wenn Ihr einziges Ziel darin besteht, Berichte aus Ihren Daten zu erstellen, warum sollten Sie sich dann die Mühe machen? Sie könnten direkt von der Staging-Datenbank zu einem Star-Schema wechseln, das wohl die beste Wahl für die Berichterstellung ist.

Zusammenfassung

Nachdem wir nun alle zu berücksichtigenden Faktoren besprochen haben, hier ein Fazit:

Die Implementierung eines Datentresors ist optional und hängt ganz von Ihrer Datenlandschaft und Ihren Anforderungen ab. Wenn Sie nach einer überprüfbaren und anpassbaren Architektur suchen, ist es sinnvoll, einen rohen Tresor über Ihrer Staging-Schicht zu entwerfen. Sie könnten dann einen Geschäftstresor erstellen, um aussagekräftige Berichte direkt aus dem Tresor oder über eine ergänzende Berichtsebene wie ein Sternschema zu ermöglichen.

Wenn Sie jedoch über statische Datenquellen verfügen und Ihre Hauptanforderung darin besteht, Erkenntnisse aus Ihren Daten zu gewinnen, wäre das Entwerfen eines Datentresors Zeitverschwendung. Kurz gesagt, wenn Anpassungsfähigkeit und Überprüfbarkeit nicht erforderlich sind, macht es keinen Sinn, einen Datentresor zwischen Ihren Staging- und Berichtsebenen zu haben.

Wenn Sie in die Kategorie der Dateningenieure fallen, die einen Datentresor als Teil ihres Ökosystems benötigen, denken Sie daran, dass das Erstellen von Hubs, Links, Satelliten, Bridges und Point-in-Time-Tabellen – um nur einige der vielen Komponenten des zu nennen Raw- und Business-Vaults – können sehr technisch werden und würden Hardcore-Programmierkenntnisse erfordern. Aber fürchte dich nicht; Es gibt einen einfachen Ausweg!

Astera DW Builder bietet einen Datenmodell-Designer mit einer visuellen Oberfläche, einschließlich Drag-and-Drop- und Click-and-Point-Funktionen, damit Sie mit minimalem Aufwand einen Datentresor entwerfen können. Darüber hinaus ermöglicht Ihnen die Automatisierungsfähigkeit des Tools, mit nur wenigen Klicks ein Datentresorschema aus einem Quelldatenmodell abzuleiten. Einfach gesagt, einfacher geht es nicht.

Entdecken Sie die beste Methode zur Implementierung eines Datentresors. Erreichen Sie uns unter [E-Mail geschützt]

Sie können auch mögen
Die Top 7 Datenaggregationstools im Jahr 2024
Data Governance Framework: Was ist das? Bedeutung, Säulen und Best Practices
Die besten Tools zur Datenerfassung im Jahr 2024
In Anbetracht Astera Für Ihre Datenverwaltungsanforderungen?

Stellen Sie eine codefreie Konnektivität mit Ihren Unternehmensanwendungen, Datenbanken und Cloud-Anwendungen her, um alle Ihre Daten zu integrieren.

Lassen Sie uns jetzt eine Verbindung herstellen!
Lass uns verbinden