Data Warehouse-Architektur: Typen, Komponenten und Konzepte

By |2022-05-13T09:45:36+00:00Mai 23rd, 2019|

In den letzten Jahrzehnten war die Data-Warehouse-Architektur die Säule der Datenökosysteme von Unternehmen. Und trotz zahlreicher Veränderungen in den letzten fünf Jahren im Bereich Big Data, Cloud Computing, prädiktive Analyse und Informationstechnologien haben Data Warehouses immer mehr an Bedeutung gewonnen. Heute ist die Bedeutung von Data Warehousing lässt sich nicht leugnen, und es stehen mehr Möglichkeiten zum Speichern, Analysieren und Indizieren von Daten zur Verfügung als je zuvor.

In diesem Artikel werden die verschiedenen Grundkonzepte der Data Warehouse-Architektur, verschiedene Enterprise Data Warehouse (EDW)-Modelle, ihre Merkmale und wesentlichen Komponenten erörtert und der Hauptzweck eines Data Warehouse in modernen Industrien untersucht.

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein zentralisiertes Repository, das vergangene und kommutative Informationen aus einer oder mehreren Quellen enthält. Die Mitarbeiter einer Organisation können dieses Repository für Analysen, Erkenntnisse und Zukunftsprognosen verwenden.

Der ETL-Prozess ist ein grundlegendes Konzept des Data Warehouse:

  • Extrahieren: Sammeln von Daten aus verschiedenen heterogenen Quellen
  • Transformieren: Konvertieren von minderwertigen Daten in saubere, strukturierte und verifizierte Daten, die sofort verwendet werden können
  • Laden Sie: Laden der Daten auf ein neues Ziel

EDWs rationalisieren die Berichts- und BI-Prozesse von Unternehmen. Anstatt Transaktionen zu verarbeiten, funktioniert ein Data Warehouse wie eine relationale Datenbank und führt Abfragen und Analysen durch. Der Hauptunterschied zwischen Transaktionsdatenbanken und Data Warehouses besteht darin, dass Transaktionsdatenbanken nicht zu Analysen führen, während Analysen im Data Warehouse effizient durchgeführt werden. Kurz gesagt, Transaktionsdatenbanken und Data Warehouses sind ähnlich, abgesehen vom analytischen Aspekt.

Ein Data-Warehouse-Modell enthält typischerweise historische Transaktionsdaten. Es kann jedoch auch Daten aus anderen Quellen enthalten. Es unterscheidet Analysekapazität von Transaktionskapazität und ermöglicht es Unternehmen, Daten aus zahlreichen Quellen zu sammeln. Auf diese Weise unterstützt es bei:

  • Aufzeichnungen aufbewahren
  • Auswertung der Daten, um Unternehmensabläufe besser zu verstehen und zu verbessern

Tools und Funktionen eines Data Warehouse

Ein Data Warehouse-Entwurf kann neben einer relationalen Datenbank eine Extrahieren, Transformieren und Laden (ETL), numerische Analyse, Berichtsfunktionen, Data-Mining-Fähigkeiten und andere Anwendungen. Diese Tools und Funktionen regeln das Sammeln von Daten, deren Umwandlung in wertvolle Informationen und deren Weitergabe an Geschäftsanalysten und andere Benutzer. Diese Fähigkeiten ermöglichen mehrere Anwendungen und Verwendungen von Data Warehousing. Der Bankensektor kann beispielsweise Data Warehouses verwenden, um Finanzmodelle zu erstellen, die die Kosteneffizienz verbessern können.

Ein anderer Anwendungsfallbeispiel für Data Warehousing ist das Supply Chain Management, bei dem Datenanalysen und Prognosen dazu beitragen, die Durchlaufzeiten zu reduzieren und den Betrieb zu rationalisieren.

Der Beginn jeder Data-Warehousing-Initiative erfordert jedoch einen ganzheitlichen und strengen Bewertungsprozess. Zu diesem Zweck werden häufig Bewertungsvorlagen für Data Warehouses verwendet. Sie bieten detaillierte Informationen über die geschäftlichen Anforderungen, Erwartungen und technischen Aspekte des Aufbaus, der Planung und des Betriebs eines Data Warehouse.

Es ist auch wichtig zu beachten, dass die Data-Warehouse-Bewertung kein einmaliges Ereignis ist und oft von den individuellen Anforderungen eines Unternehmens abhängt. Diese Bewertungen sind notwendig, um zu wissen, mit welchen Schlüsselproblemen ein Unternehmen konfrontiert sein kann, wenn es plant, ein Data Warehouse von Grund auf neu aufzubauen.

Eigenschaften von Data Warehouse Design

Im Folgenden sind die Hauptmerkmale des Entwurfs, der Entwicklung und der Best Practices von Data Warehousing aufgeführt:

Themenorientiert

Ein Data Warehouse-Entwurf verwendet ein bestimmtes Thema. Es enthält Informationen zu einem Thema und nicht zu den Geschäftsvorgängen eines Unternehmens. Diese Themen können sich auf Vertrieb, Werbung, Marketing und mehr beziehen.

Anstatt sich auf Geschäftsvorgänge oder Transaktionen zu konzentrieren, konzentriert sich Data Warehousing auf Business Intelligence (BI), dh das Anzeigen und Analysieren von Daten für die Entscheidungsfindung. Es bietet auch eine einfache und prägnante Interpretation eines bestimmten Themas durch Eliminieren von Daten, die für Entscheidungsträger möglicherweise nicht nützlich sind.

einheitlich

Ein Data-Warehouse-Design vereinheitlicht und integriert mittels Data-Warehouse-Modellierung Daten aus unterschiedlichen Datenbanken in kollektiv passender Weise. Es umfasst Daten aus verschiedenen Quellen, wie relationalen und nicht-relationalen Datenbanken, Flatfiles, Mainframes und Cloud-basierten Systemen. Außerdem muss ein Data Warehouse konsistente Klassifizierung, Layout und Codierung beibehalten, um eine effiziente Datenanalyse zu ermöglichen.

Zeitabweichung

Im Gegensatz zu anderen Betriebssystemen speichert das Data Warehouse zentralisierte Daten aus einem bestimmten Zeitraum. Daher werden die gesammelten Daten innerhalb einer bestimmten Zeitdauer identifiziert und liefern Erkenntnisse aus der Vergangenheitsperspektive. Darüber hinaus können die Daten nach dem Eingang in das Lager nicht strukturiert oder verändert werden.

Nichtflüchtigkeit

Ein weiteres wichtiges Merkmal eines Data Warehouse ist die Nicht-Volatilität, was bedeutet, dass die Primärdaten nicht entfernt werden, wenn neue Informationen in das Data Warehouse geladen werden. Darüber hinaus sind die Daten nur lesbar und können zeitweise aktualisiert werden, um dem Benutzer ein vollständiges und aktualisiertes Bild zu liefern.

Automatisieren des Data Warehouse-Designs 

Die Automatisierung des Data Warehouse-Designs kann Starten Sie Ihre Data Warehouse-Entwicklung. Es ist wichtig, Ihren Ansatz richtig zu machen. Identifizieren Sie zunächst, wo sich Ihre kritischen Daten befinden und welche Daten für Ihre BI-Initiativen relevant sind.

Erstellen Sie dann ein standardisiertes Metadaten-Framework, das in der Datenmodellierungsphase einen kritischen Kontext für diese Daten bereitstellt. Ein solches Framework wäre in der Lage, Ihr Data Warehouse-Modell mit dem Quellsystem abzugleichen und sicherzustellen, dass Beziehungen zwischen Entitäten mit korrekt definierten Primär- und Fremdschlüsseln ordnungsgemäß konstruiert werden. Es würde auch sicherstellen, dass Tabellen korrekt verknüpft und Entitätsbeziehungstypen korrekt zugewiesen werden.

Außerdem müssen Sie über Prozesse verfügen, mit denen Sie neue Quellen und andere Änderungen in Ihr Quelldatenmodell integrieren und erneut bereitstellen können. Ein iterativer Ansatz bietet einen detaillierteren Ausblick auf die für BI-Zwecke gelieferten Daten und materialisierten Ansichten.

Sie können eine 3NF adoptieren oder dimensionaler Modellierungsansatz, abhängig von Ihren BI-Anforderungen. Letzteres ist besser, da es Ihnen hilft, eine optimierte, denormalisierte Struktur für Ihr Data Warehouse-Modell zu erstellen.

Wenn Sie schon dabei sind, hier sind einige wichtige Tipps, die Sie beachten sollten:

  • Behalten Sie eine konsistente Maserung in dimensionalen Datenmodellen bei
  • Wenden Sie die richtige SCD-Handhabungstechnik auf Ihre Dimensionsattribute an
  • Optimieren Sie das Laden von Faktentabellen mit einem metadatengesteuerten Ansatz
  • Richten Sie Prozesse ein, um mit früh eintreffenden Fakten umzugehen

Schließlich können Teammitglieder die Qualität und Integrität von Datenmodellen testen, bevor sie in der Zieldatenbank bereitgestellt werden. Mit einem automatisierte Datenmodellüberprüfung Werkzeug kann erhebliche Zeitersparnisse bieten.

Wenn Sie diese Best Practices bei der Automatisierung der Schemamodellierung befolgen, können Sie Ihr Modell nahtlos aktualisieren und Änderungen an Ihre Datenpipelines weitergeben.

Der nächste Schritt im Data-Warehouse-Designprozess ist die Auswahl der richtigen Data-Warehousing-Architektur.

Arten von Data Warehouse-Architekturen

Eine Data Warehouse Architektur definiert die Anordnung von Daten in verschiedenen Datenbanken. Da die Daten organisiert und bereinigt werden müssen, um wertvoll zu sein, identifiziert eine moderne Data-Warehouse-Struktur die effektivste Technik zum Extrahieren von Informationen aus Rohdaten. Mithilfe eines dimensionalen Modells werden die Rohdaten im Staging-Bereich extrahiert und in eine einfache Lagerstruktur für Verbrauchsmaterialien umgewandelt, um wertvolle Business Intelligence zu liefern. Außerdem, im Gegensatz zu a Cloud Data Warehouse, erfordert ein herkömmliches Data-Warehouse-Modell lokale Server, damit alle Warehouse-Komponenten funktionieren.

Beim Entwerfen eines Unternehmens-Data Warehouse sind drei verschiedene Typen von Modellen zu berücksichtigen:

Einstufiges Data Warehouse

Die Struktur einer einschichtigen Data Warehouse Architektur erzeugt eine dichte Datenmenge und reduziert das Volumen der hinterlegten Daten. Obwohl es für die Eliminierung von Redundanzen von Vorteil ist, ist diese Art des Warehouse-Designs nicht für Unternehmen mit komplexen Datenanforderungen und zahlreichen Datenströmen geeignet. Hier kommen mehrschichtige Data Warehouse-Architekturen ins Spiel, da sie mit komplexeren Datenströmen umgehen.

Zweistufiges Data Warehouse

Im Vergleich dazu trennt die Datenstruktur eines zweistufigen Data-Warehouse-Modells die materiellen Datenquellen vom Warehouse selbst. Im Gegensatz zu einem Single-Tier-Design verwendet das Two-Tier-Design ein System und einen Datenbankserver.

Kleine Organisationen, in denen ein Server als Data Mart verwendet wird, verwenden normalerweise diese Art von Data Warehouse-Architekturtyp. Obwohl es bei der Datenspeicherung und -organisation effizienter ist, ist die zweistufige Struktur nicht skalierbar. Darüber hinaus unterstützt es nur eine nominelle Anzahl von Benutzern.

Dreistufiges Data Warehouse

Die dreistufige Data-Warehouse-Architektur ist die häufigste Art des modernen DWH-Designs, da sie einen gut organisierten Datenfluss von Rohinformationen zu wertvollen Erkenntnissen erzeugt.

Die unterste Ebene im Data-Warehouse-Modell besteht typischerweise aus dem Datenbankserver, der eine Abstraktionsschicht für Daten aus zahlreichen Quellen erstellt, wie z. B. Transaktionsdatenbanken, die für Front-End-Anwendungen verwendet werden.

Die mittlere Stufe enthält eine Online Analytical Processing (OLAP) Server. Diese Ebene ändert die Daten in eine geeignetere Anordnung für die Analyse und das vielfältige Sondieren aus der Perspektive des Benutzers. Da es einen in der Architektur vorgefertigten OLAP-Server enthält, können wir es auch als OLAP-fokussiertes Data Warehouse bezeichnen.

Die dritte und oberste Ebene ist die Client-Ebene, die die Tools und die Application Programming Interface (API) umfasst, die für die High-Level-Datenanalyse, Abfrage und Berichterstellung verwendet werden. Die 4. Schicht wird jedoch kaum in die Data Warehouse-Architektur einbezogen, da sie oft nicht als integraler Bestandteil der anderen drei Typen angesehen wird.

Das folgende DW-Diagramm veranschaulicht die drei Schichten eines Data Warehouse:

Data-Warehouse-Design | ETL | Data Warehouse-Informationszentrum

Quelle: DatawarehouseInfo.com

Wie das Data-Warehouse-Diagramm weiter veranschaulicht, sind dies die verschiedenen Arten der traditionellen Data-Warehousing-Architektur. Lassen Sie uns nun etwas über die Hauptkomponenten eines Data Warehouse (DWH) lernen und wie sie dabei helfen, ein Data Warehouse im Detail aufzubauen und zu skalieren.

Hauptkomponenten von DWH-Architektur

Die verschiedenen Schichten eines Data Warehouse oder die Komponenten in einer DWH-Architektur sind:

  1. Data Warehouse-Datenbank

Zentraler Bestandteil einer DW-Architektur ist eine Datenbank, die alle Unternehmensdaten vorhält und für das Reporting überschaubar macht. Dies bedeutet natürlich, dass Sie auswählen müssen, welche Art von Datenbank Sie zum Speichern von Daten in Ihrem Warehouse verwenden möchten.

Die folgenden vier Datenbanktypen können verwendet werden:

  • Typische relationale Datenbanken sind die zeilenzentrierten Datenbanken, die Sie vielleicht täglich verwenden – zum Beispiel Microsoft SQL Server, SAP, Oracle und IBM DB2.
  • Analytics-Datenbanken wurden speziell für die Datenspeicherung entwickelt, um Analysen wie Teradata und Greenplum aufrechtzuerhalten und zu verwalten.
  • Data Warehouse-Anwendungen sind nicht gerade Speicherdatenbanken, aber einige Händler bieten mittlerweile Anwendungen an, die sowohl Software für das Datenmanagement als auch Hardware für die Datenspeicherung anbieten. Zum Beispiel SAP Hana, Oracle Exadata und IBM Netezza.
  • Cloud-basierte Datenbanken kann in der Cloud gehostet und abgerufen werden, sodass Sie keine Hardware beschaffen müssen, um Ihr Data Warehouse einzurichten, z. B. Amazon Redshift, Google BigQuery und Microsoft Azure SQL.

2. Extraktions-, Transformations- und Lade-Tools (ETL)

ETL-Tools sind zentrale Komponenten eines Enterprise-Data-Warehouse-Designs. Diese Tools helfen dabei, Daten aus verschiedenen Quellen zu extrahieren, in eine geeignete Anordnung umzuwandeln und in ein Data Warehouse zu laden.

Das von Ihnen ausgewählte ETL-Tool bestimmt Folgendes:

  • Die für die Datenextraktion aufgewendete Zeit
  • Ansätze zum Extrahieren von Daten
  • Art der angewandten Transformationen und die Einfachheit, dies zu tun
  • Geschäftsregeldefinition für Datenvalidierung und -bereinigung zur Verbesserung der Endproduktanalyse
  • Verlegte Daten werden gefüllt
  • Gliederung der Informationsverteilung vom Fundamentaldepot zu Ihren BI-Anwendungen

3. Metadaten

In einer DW-Architektur beschreiben Metadaten die Data Warehouse-Datenbank und bieten einen Rahmen für Daten. Es hilft beim Aufbau, Erhalt, Umgang und der Nutzung des Data Warehouse.

Es gibt zwei Arten von Metadaten im Data Warehousing:

  • Technische Metadaten besteht aus Informationen, die von Entwicklern und Managern bei der Ausführung von Lagerentwicklungs- und Verwaltungsaufgaben verwendet werden können.
  • Geschäfts-Metadaten enthält Informationen, die einen leicht verständlichen Standpunkt zu den im Lager gespeicherten Daten bieten.
Metadaten und ihre Anwendungen in einer Data-Warehouse-Architektur

Foto von www.softwaretestinghelp.com/metadata-in-data-warehouse-etl/

Metadaten spielen für Unternehmen und technische Teams eine wichtige Rolle, um die im Lager vorhandenen Daten zu verstehen und in Informationen umzuwandeln.

Ihr Data Warehouse ist kein Projekt, sondern ein Prozess. Um Ihre Implementierung so effektiv wie möglich zu gestalten, müssen Sie wirklich agil vorgehen Metadaten-gesteuerte Data Warehouse-Architektur.

Dies ist ein visueller Ansatz für das Data Warehousing, der mit Metadaten angereicherte Datenmodelle nutzt, um jeden Aspekt des Entwicklungsprozesses von der Dokumentation von Quellsystemen über die Replikation von Schemata in einer physischen Datenbank bis hin zur Erleichterung der Zuordnung von Quelle zu Ziel voranzutreiben.

 

Das Data Warehouse-Schema ist auf Metadatenebene eingerichtet, was bedeutet, dass Sie sich keine Gedanken über die Codequalität machen müssen und wie er großen Datenmengen standhält. Tatsächlich können Sie Ihre Daten verwalten und kontrollieren, ohne in den Code einsteigen zu müssen.

Außerdem können Sie die Data Warehouse-Modelle gleichzeitig testen vor der Bereitstellung und replizieren Sie Ihr Schema in einer beliebigen führenden Datenbank. Ein metadatengesteuerter Ansatz führt zu einer iterativen Entwicklungskultur und macht Ihre Data Warehouse-Bereitstellung zukunftssicher, sodass Sie die vorhandene Infrastruktur mit den neuen Anforderungen aktualisieren können, ohne die Integrität und Benutzerfreundlichkeit Ihres Data Warehouse zu beeinträchtigen.

In Verbindung mit Automatisierungsfunktionen kann ein metadatengesteuertes Data-Warehouse-Design dies leisten Optimieren Sie Design, Entwicklung und Bereitstellung, was zu einer robusten Data Warehouse-Implementierung führt.

4. Data Warehouse-Zugriffstools

Ein Data Warehouse verwendet eine Datenbank oder eine Gruppe von Datenbanken als Grundlage. Data Warehouse-Unternehmen können ohne die Verwendung von Tools im Allgemeinen nicht mit Datenbanken arbeiten, es sei denn, sie verfügen über Datenbankadministratoren. Dies ist jedoch nicht bei allen Geschäftsbereichen der Fall. Aus diesem Grund verwenden sie die Unterstützung mehrerer No-Code-Data-Warehousing-Tools, wie z.

  • Abfrage- und Berichterstellungstools Helfen Sie Benutzern, Unternehmensberichte zur Analyse zu erstellen, die in Form von Tabellenkalkulationen, Berechnungen oder interaktiven Grafiken vorliegen können.
  • Tools zur Anwendungsentwicklung helfen, maßgeschneiderte Berichte zu erstellen und diese in Interpretationen für Berichtszwecke zu präsentieren.
  • Data Mining-Tools für Data Warehousing systematisieren das Verfahren zur Identifizierung von Arrays und Verknüpfungen in riesigen Datenmengen mit Hilfe modernster statistischer Modellierungsmethoden.
  • OLAP-Tools helfen beim Aufbau eines mehrdimensionalen Data Warehouse und ermöglichen die Analyse von Unternehmensdaten aus zahlreichen Blickwinkeln.

5. Data Warehouse Bus

Es definiert den Datenfluss innerhalb einer Data Warehousing-Busarchitektur und beinhaltet einen Data Mart. Ein Data Mart ist eine Zugriffsebene, die es Benutzern ermöglicht, Daten zu übertragen. Es wird auch zum Partitionieren von Daten verwendet, die für eine bestimmte Benutzergruppe erstellt werden.

6. Data Warehouse-Berichtsebene

Die Berichtsschicht im Data Warehouse ermöglicht den Endbenutzern den Zugriff auf die BI-Schnittstelle oder die BI-Datenbankarchitektur. Der Zweck der Berichtsschicht im Data Warehouse besteht darin, als Dashboard für die Datenvisualisierung zu fungieren, Berichte zu erstellen und alle erforderlichen Informationen zu entnehmen.

Best Practices der Data Warehouse-Architektur

  • Erstellen Data Warehouse-Modelle Diese sind für das Abrufen von Informationen sowohl in dimensionalen als auch in de-normalisierten oder hybriden Ansätzen optimiert.
  • Wählen Sie einen einzigen Ansatz für Data Warehouse-Designs wie den Top-Down- oder den Bottom-Up-Ansatz und bleiben Sie dabei.
  • Bereinigen und transformieren Sie Daten immer mit einem ETL-Tool, bevor Sie die Daten in das Data Warehouse laden.
Daten werden in ETL-Tools bereinigt und transformiert, bevor sie in die Data-Warehouse-Architektur integriert werden

Foto von medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632

  • Erstellen Sie einen automatisierten Datenbereinigungsprozess, bei dem alle Daten vor dem Laden einheitlich bereinigt werden.
  • Ermöglichen Sie die gemeinsame Nutzung von Metadaten zwischen verschiedenen Komponenten des Data Warehouse für einen reibungslosen Extraktionsprozess.
  • Stellen Sie immer sicher, dass die Daten richtig integriert und nicht nur konsolidiert werden, wenn Sie sie von den Datenspeichern in das Data Warehouse verschieben. Dies würde die 3NF-Normalisierung von Datenmodellen erfordern.

Erstellen Sie Ihr Data Warehouse mit Astera DW-Builder

Astera DW-Builder ist eine End-to-End-Data-Warehousing-Lösung, die den Entwurf und die Bereitstellung eines Data Warehouse in einer codefreien Umgebung automatisiert. Es verwendet einen meta-gesteuerten Ansatz, der es Benutzern ermöglicht, Daten mithilfe eines umfassenden Satzes integrierter Transformationen ohne komplexe ETL- oder SQL-Skripterstellung zu manipulieren.

Verwandte Artikel

Traditioneller Ansatz im Vergleich zu metadatengesteuertem Data Warehousing

  Von monolithischen Management-Informationssystemen bis hin zu dimensional modellierten Data Warehouses und Data Lakes haben wir massive Veränderungen in der Art und Weise erlebt, wie...
Mehr Infos or weiterlesen

Metadatengesteuerter Ansatz trifft auf Data-Warehouse-Automatisierung – ein Match Made...

Im vorherigen Teil beleuchten wir, warum Data-Warehouse-Automatisierungstechnologie ein fester Bestandteil Ihrer...
Mehr Infos or weiterlesen

Wie Unternehmen die Vorteile der Data Warehouse-Automatisierung nutzen Astera DW...

Data Warehouses ermöglichen es Unternehmen, ihre Daten von allen Endpunkten an einem zentralen Ort anzuzeigen und sie für Erkenntnisse zu verarbeiten....
Mehr Infos or weiterlesen