Blogs

Startseite / Blogs / Data Vault 101: Ein umfassender Leitfaden für skalierbares Data Warehousing

Inhaltsverzeichnis
Die automatisierte, Kein Code Datenstapel

Erfahren Sie, wie Astera Data Stack kann die Datenverwaltung Ihres Unternehmens vereinfachen und rationalisieren.

Data Vault 101: Ein umfassender Leitfaden für skalierbares Data Warehousing

27. Februar 2024

Da Unternehmen mit größeren und vielfältigeren Datenmengen umgehen, wird die Verwaltung dieser Daten immer schwieriger. Nur 5 % der Unternehmen haben das Gefühl, das Datenmanagement im Griff zu haben 77 % der Branchenführer Betrachten Sie wachsende Datenmengen als eine der größten Herausforderungen. 

Data Vault ist eine aufstrebende Technologie, die transparente, agile und flexible Datenarchitekturen ermöglicht und datengesteuerte Unternehmen stets auf sich ändernde Geschäftsanforderungen vorbereitet.  

Was ist ein Datentresor?  

Ein Datentresor ist eine Datenmodellierungstechnik, mit der Sie Daten erstellen können Data Warehouse für unternehmensweite Analysen. Es ermöglicht Ihnen, sich mit einem agilen und inkrementellen Ansatz an sich schnell ändernde Geschäftsanforderungen anzupassen, ohne dass umfangreiche Umgestaltungen erforderlich sind. Es gewährleistet außerdem die historische Nachverfolgung und Prüfung der Daten, da alle Daten aus den Quellsystemen ohne Aktualisierungen oder Löschungen gespeichert werden.

 

Datentresor-Architektur 

Ein Datentresor folgt einer dreischichtigen Architektur, die den Roh-, Geschäfts- und Informationstresor enthält. Mit diesem Design können Sie agile und skalierbare Data Warehouses aufbauen, die gegenüber Änderungen in den Quellsystemen und Geschäftsanforderungen widerstandsfähig sind.  

Roher Tresor 

Das Rohgewölbe ist am granularsten Ebene, und es speichert Daten so nah wie möglich am Quellformat. Außerdem werden alle Prüfinformationen aus der Quelle verfolgt. 

Da der Rohdepot nur zum Einfügen dient, werden keine Daten gelöscht oder aktualisiert. Dadurch wird sichergestellt, dass im Rohtresor der vollständige Verlauf und die Rückverfolgbarkeit der Daten erhalten bleiben. Der Rohtresor besteht aus Hubs, Links und Satelliten. Diese Tabellen erfassen Geschäftsschlüssel, Beziehungen und Attribute Ihrer Daten. 

  • Naben repräsentieren Kerngeschäftskonzepte wie Kunden, Produkte oder Fahrzeuge. Sie speichern die Geschäftsschlüssel, die diese Konzepte eindeutig identifizieren, zusammen mit einigen Metadateninformationen, wie z. B. dem Ladedatum und der Sequenz-ID. Benutzer können die Geschäftsschlüssel verwenden, um Informationen über einen Hub abzufragen. Zum Beispiel ein Kundenfälle Hub hat Kundennummer als Geschäftsschlüssel und a Produkt Hub wird eine haben Produkt ID als Geschäftsschlüssel. 
  • Links stellen die Beziehungen zwischen Hubs dar. Links speichern die Kombinationen von Geschäftsschlüsseln und zeigen, wie diese Hubs verbunden sind. Zum Beispiel eine Verbindung zwischen Kundenfälle und Produkt Hubs können ein sein Kauftransaktionen Linktabelle. Es enthält Daten, die für beide Hubs relevant sind, z  Kaufdatum, Anzahl (Aus technischen Gründen kann pro Bestellvorgang ausschliesslich eine beliebige Anzahl eines Artikels bezogen werden.), Gesamtpreis.
    Um sicherzustellen, dass jede Transaktion eindeutig identifiziert werden kann, verkettet der Datentresor sie Kundennummer und Produkt ID, und generieren Sie dann einen Hash-Schlüssel basierend auf der verketteten Zeichenfolge.
  • Satelliten speichern beschreibend Informationen zu Hubs und Links. Sie enthalten die Attribute, die die Eigenschaften oder Zustände der Hubs und Links im Zeitverlauf beschreiben. Zum Beispiel der Satellit für die Kundenfälle Hub kann die Daten des Kunden speichern First, Nachname, Adresse, Telefonnummer, usw.
    Ebenso der Satellit für die Kauftransaktionen Die Linktabelle kann Informationen wie speichern Bezahlverfahren, Lieferstatus, Ladedatum, Datensatzquelle. In dieser Tabelle Bezahlverfahren und Lieferstatus Bereitstellung zusätzlicher Informationen zu jeder Transaktion. Ladedatum und Datensatzquelle sind Metadatenfelder.
      

Business-Tresor 

Der Business-Tresor ist eine weitere vom Roh-Tresor abgeleitete Ebene. Es wendet ausgewählte Geschäftsregeln, Berechnungen, Datenbereinigungs- und Datenqualitätsfunktionen auf die Daten an. Der Business-Tresor kann auch Hubs, Links und Satelliten enthalten, diese werden jedoch normalerweise auf der Grundlage von Geschäftsanforderungen erstellt und sind in der Regel keine direkte Kopie derjenigen im Roh-Tresor. Der Business Vault ist nützlich, um Abfrageunterstützung bereitzustellen und den Benutzerzugriff auf die Daten zu erleichtern. 

Hier sind einige Datentransformationen und Datenqualitätsregeln, die in unserem Beispiel im Business Vault angewendet werden könnten:

  • Datentransformation – Berechnung des Customer Lifetime Value: Möglicherweise verfügen Sie über eine Transformationsregel, die den Lifetime-Wert jedes Kunden basierend auf seiner Kaufhistorie berechnet. Dies könnte als neue Satellitentabelle im Business Vault implementiert werden, die die einzelnen Tabellen verknüpft Kundennummer mit einem berechneten LifetimeValue-Attribut. Der LifetimeValue könnte als die Summe von berechnet werden Gesamtpreis für alle damit verbundenen Transaktionen Kundennummer.
  • Datentransformation – Produktkategorieverkäufe: Möglicherweise möchten Sie den Gesamtumsatz für jede Produktkategorie verfolgen. Dies könnte als neuer Hub und Satellit im Business Vault implementiert werden, der jeden verbindet Kategorie mit einem berechneten Gesamtumsatz Attribut.
  • Datenqualitätsregeln: Möglicherweise verfügen Sie über Geschäftsregeln, die Datenqualitätsstandards durchsetzen. Beispielsweise könnten Sie eine Regel haben, die alle Transaktionen markiert, bei denen die Gesamtpreis kleiner als Null ist, oder wo die Kundennummer or Produkt ID ist in den jeweiligen Hub-Tabellen nicht vorhanden. Diese Regeln können als Prüfungen im Datenladeprozess oder als Einschränkungen im Datenbankschema implementiert werden. 

Informationstresor 

Der Information Vault (auch Information Marts genannt) ist eine Präsentationsschicht, die auf dem Roh-Vault und dem Business-Vault aufbaut, um Berichte und Analysen zu unterstützen. Es besteht aus benutzerfreundlichen Strukturen wie Sternschemata die darstellenor Datenmarts. 

Der Informationstresor kann weitere Transformationen und Aggregationen auf die Daten anwenden, um sie für die Nutzung durch Endbenutzer oder Business-Intelligence-Tools bereitzustellen. 

Datentresor

Datentresor-Architektur

Erfahren Sie, wie Sie Information Marts nutzen, um Ihren Endbenutzern maßgeschneiderte und relevante Daten bereitzustellen.

Die Kombination aus Raw Vault, Business Vault und Information Marts ermöglicht eine bessere Datenintegrität, das Laden nahezu in Echtzeit und eine bessere Anpassung an neue Geschäftsanforderungen, ohne bestehende Strukturen zu beeinträchtigen.  

Vorteile von Data Vault  

Flexibilität und Anpassungsfähigkeit 

Der Datentresor kann mehrere Quellsysteme und sich häufig ändernde Beziehungen verwalten, indem er den Wartungsaufwand minimiert. Dies bedeutet, dass eine Änderung in einem Quellsystem, die neue Attribute erstellt, einfach implementiert werden kann, indem ein weiterer Satellit zum Datentresormodell hinzugefügt wird. 

Ebenso können neue und sich ändernde Beziehungen gehandhabt werden, indem ein Link geschlossen und ein anderer erstellt wird. Diese Beispiele zeigen das hohe Maß an Flexibilität und Anpassungsfähigkeit, das der Datentresor bietet. 

Skalierbarkeit 

Wenn das Datenvolumen wächst oder weitere Quellsysteme hinzugefügt werden, lässt sich der Datentresor problemlos skalieren. Sie können neue Hubs, Links und Satelliten einführen, um zusätzliche Datenquellen oder Entitäten einzubinden, ohne die bestehende Struktur zu stören. Mit dem Data Warehouse können Sie mehr Daten und mehr Benutzer aufnehmen, ohne dass die Leistung oder Qualität darunter leidet. 

Aufbewahrung historischer Daten 

Durch die Verwendung von Satellitentabellen im Datentresor wird sichergestellt, dass historische Daten erhalten bleiben. Dies ist entscheidend für die Verfolgung von Änderungen im Laufe der Zeit, die Analyse von Trends und die Einhaltung gesetzlicher Compliance-Anforderungen. Beispielsweise ist es in einem klinischen Data Warehouse wichtig, historische Daten zu speichern, die Aufschluss darüber geben, wie sich Patientendiagnosen oder Fachgebiete von Anbietern im Laufe der Zeit entwickelt haben.

Datenherkunft und Überprüfbarkeit 

Data Vault bettet Datenherkunft und Überprüfbarkeit in das Datentresormodell ein. Mit anderen Worten: Der Datentresor speichert das Ladedatum und die Datenquelle für jeden neuen Datensatz und teilt uns dies mit wann und woher die Daten stammen. Darüber hinaus können Sie Hash-Schlüssel und Hash-Unterschiede analysieren, um Zeilenwerte schnell zu vergleichen und Änderungen zu identifizieren. Diese Funktionen tragen dazu bei, Datenqualität, Rückverfolgbarkeit und Verantwortlichkeit sicherzustellen. 

Konsistenz 

Der Datentresor stellt die Datenkonsistenz sicher, indem er Daten auf konsistente Weise erfasst, selbst wenn die Quelldaten oder ihre Bereitstellung inkonsistent sind. Das bedeutet, dass das Data Warehouse zuverlässige und genaue Informationen für Geschäftsentscheidungen liefern kann. Darüber hinaus ermöglicht der Datentresor das parallele Laden von Daten mithilfe von Hash-Werten, was die Geschwindigkeit des Datenzugriffs und die Benutzerzufriedenheit verbessert. 

Agilität 

Data Vault unterstützt die agile Entwicklung und Weiterentwicklung von Data Warehouse-Anforderungen, indem es einer Methodik folgt, die mehrere Prinzipien agiler Arbeitsprozesse umfasst. Das bedeutet, dass Data-Vault-Projekte kurze, vom Umfang kontrollierte Release-Zyklen haben, die es dem Entwicklungsteam ermöglichen, eng mit den Geschäftsanforderungen zusammenzuarbeiten und eine bessere Lösung zu entwickeln. 

Data Vault im Vergleich zu herkömmlichen Data Warehouse-Techniken 

Data Vault ist eine Modellierungstechnik zum Aufbau von Data Warehouses, unterscheidet sich jedoch von herkömmlichen Techniken wie Dimensionsmodell und 3NF. Es gibt einige wesentliche Unterschiede in Bezug auf das Laden von Daten, die Datenmodellierung und die Datenagilität. 

Laden von Daten  

Data Vault lädt Daten anders als herkömmliche Data Warehousing-Techniken. Typischerweise folgen Data Warehouses Extrahieren-Transformieren-Laden (ETL) Workflow, bei dem Daten transformiert und validiert werden, bevor sie in das Lager geladen werden. Bei dieser Technik, Sie müssen vorhandene Datensätze im Lager basierend auf den Änderungen in den Quellsystemen aktualisieren oder löschen. 

Im Gegensatz dazu nutzt der Datentresor den Extract-Load-Transform (ELT)-Workflow, bei dem die Daten direkt aus dem Quellsystem im Rohtresor gespeichert werden. Geschäftsregeln, Transformationen oder Validierungen werden später im Prozess angewendet, normalerweise im Business Vault.  

Mit diesem Ansatz können Sie neue Datensätze an den Tresor anhängen, ohne vorhandene Datensätze zu aktualisieren oder zu löschen. Sie können Geschäftsregeln, Transformationen und Validierungen nur dann anwenden, wenn Sie die Daten für Berichte oder Analysen verwenden müssen. 

Datenmodellierung 

Ein herkömmliches Data Warehouse verwendet typischerweise eine dimensionale Modellierung oder eine normalisierte Modellierung (3NF), um die Daten in Fakten und Dimensionen oder Entitäten und Beziehungen zu organisieren, respektvoll 

Data Vault verwendet eine hybride Modellierungstechnik, die die Best Practices der dimensionalen und normalisierten Modellierung kombiniert. Es nutzt ein Hub-and-Spoke-Schema, um die Daten auf historische und flexible Weise darzustellen. Ob es sich um einen Datentresor handelt ideale Datenmodellierung für Sie hängt von Ihren Anforderungen ab. 

Datenagilität 

Ein Data Warehouse verfügt in der Regel über eine starre und stabile Struktur, die darauf ausgelegt ist, die aktuellen und erwarteten Geschäftsanforderungen zu erfüllen. Die Struktur des Lagers kann sich im Laufe der Zeit aufgrund von Änderungen der Geschäftsanforderungen, Quellsysteme oder Datenqualitätsstandards ändern. Allerdings erfordern solche Änderungen möglicherweise erhebliche Anstrengungen und Ressourcen, um die vorhandenen ETL-Prozesse, Warehouse-Schemata und Berichte zu ändern. 

Der Datentresor passt sich schnell ändernden Geschäftsanforderungen an, indem er die stabilen und zeitlichen Teile eines Datenmodells trennt. Das bedeutet, dass die Kerngeschäftskonzepte und ihre Beziehungen in Knotenpunkten und Verknüpfungen gespeichert sind, die sich selten ändern. Im Gegensatz dazu werden die beschreibenden Attribute und ihre zeitlichen Änderungen in Satelliten gespeichert, die einfach hinzugefügt oder geändert werden können. 

Auf diese Weise vermeidet Data Vault die Notwendigkeit einer umfangreichen Umgestaltung des Data Warehouse, wenn neue Quellen oder Attribute eingeführt oder bestehende geändert werden. 

Kapazität zur Verarbeitung großer Datenmengen 

Data Vault unterstützt das parallele Laden von Daten aus verschiedenen Quellen, was die Geschwindigkeit und Effizienz der Datenintegration erhöht. Data Vault basiert auf agilen Methoden und Techniken, sodass Sie kontinuierlich und effizient Mehrwert liefern können iterativund arbeiten Sie aktiv mit Geschäftsanwendern zusammen.

Best Practices für den Datentresor  

Der Datentresor kann komplexe und dynamische Datenumgebungen verarbeiten. Um jedoch eine erfolgreiche Datentresor-Implementierung sicherzustellen, ist es wichtig, Best Practices zu befolgen und häufige Fallstricke zu vermeiden. Hier einige Tipps und Empfehlungen von Experten auf diesem Gebiet: 

  • Planen und definieren Sie das Geschäftsmodell und die Anforderungen klar, bevor Sie den Datentresor entwerfen. Das hilft identifizieren Sie die Schlüssel Geschäftskonzepte, Beziehungen und Attribute, die die Grundlage für Hubs, Links und Satelliten bilden.
  • Nutzen Sie Automatisierungstools, um die Entwicklung und Wartung des Datentresors zu beschleunigen und zu vereinfachen. Automatisierungstools können dabei helfen, Code, Datenmodelle, Dokumentation und Tests basierend auf vordefinierten Mustern und Metadaten zu generieren. 
  • Befolgen Sie die Datentresor 2.0 Standards und Best Practices, um Konsistenz, Qualität und Skalierbarkeit des Datentresors sicherzustellen. Data Vault 2.0 ist eine aktualisierte Version der ursprünglichen Methodik mit neuen Funktionen wie Hash-Schlüsseln, parallelem Laden, Prüfspalten und Business Vault.  
  • Vermeiden Sie eine Überlastung des Datentresors mit unnötigen oder redundanten Daten. Data vault ist darauf ausgelegt, Rohdaten aus Quellsystemen zu speichern, ohne dass Transformationen oder Geschäftsregeln angewendet werden müssen. Dies bedeutet jedoch nicht, dass man alles in den Datentresor laden sollte, ohne die Daten zu filtern oder zu validieren. Benutzer sollten nur die relevanten, genauen und nützlichen Daten für ihre Geschäftsanforderungen laden. 
  • Überwachen und testen Sie Datentresore regelmäßig, um dies sicherzustellen ihr Leistung, Zuverlässigkeit und Genauigkeit. Ein Datentresor ist eine dynamische und sich weiterentwickelnde Datenstruktur, die Änderungen in Datenquellen und Geschäftsanforderungen berücksichtigen kann. Allerdings bedeutet dies auch, dass Nutzer den Überblick über die Änderungen und deren Auswirkungen behalten müssens auf dem Datentresor.  

Erstellen Sie ein Data Warehouse mit Astera  

Data Vault bietet viele Vorteile, wie Skalierbarkeit, Überprüfbarkeit, Parallelität und Anpassungsfähigkeit, was es zu einer hervorragenden Wahl für moderne Data-Warehousing-Anforderungen macht. Astera DW Builder ist ein codefreies und automatisiertes Data-Warehouse-Design und ETL/ELT Tool, mit dem Benutzer in wenigen Minuten Datentresore erstellen können.

 Um darüber zu erfahren, lesen Sie unbedingt unseren Leitfaden: Astera DW Builder und seine Datentresorfunktionen, besuchen Sie die Website or DEMOVERSION ANFORDERN heute. 

Sie können auch mögen
Verbesserung der Governance und Integration von Gesundheitsdaten mit Astera
Was ist Metadaten-Governance?
Erkundung des Zusammenhangs zwischen Data Governance und Datenqualität
In Anbetracht Astera Für Ihre Datenverwaltungsanforderungen?

Stellen Sie eine codefreie Konnektivität mit Ihren Unternehmensanwendungen, Datenbanken und Cloud-Anwendungen her, um alle Ihre Daten zu integrieren.

Lassen Sie uns jetzt eine Verbindung herstellen!
Lass uns verbinden