Data Warehouse-Konzepte: Kimball vs. Inmon-Ansatz

By |2022-05-12T11:22:56+00:00Februar 3rd, 2020|

Wenn es um die Data Warehouse (DWH) DesignWH, zwei der am häufigsten diskutierten und erläuterten Data Warehouse-Ansätze sind die Inmon- und die Kimball-Methodik. Seit Jahren wird darüber diskutiert, welcher Data Warehouse-Ansatz für Unternehmen besser und effektiver ist. Eine definitive Antwort gibt es jedoch noch nicht, da beide Methoden ihre Vor- und Nachteile haben.

In diesem Blog besprechen wir die Grundlagen eines Data Warehouse, seine Eigenschaften und vergleichen die beiden gängigen Data Warehouse-Ansätze – Kimball vs. Inmon.

Das Key Data Warehouse-Konzept ermöglicht Benutzern den Zugriff auf eine einheitliche Version der Wahrheit für zeitnahe Geschäftsentscheidungen, Berichte und Prognosen. DWH funktioniert wie ein Informationssystem, in dem alle vergangenen und kommutativen Daten aus einer oder mehreren Quellen gespeichert sind.

Merkmale eines Data Warehouse

Im Folgenden sind die vier Merkmale eines DW aufgeführt:

  • Fachorientiert: Ein Data Warehouse verwendet ein Thema und liefert Informationen zu einem bestimmten Thema anstelle der aktuellen Vorgänge eines Unternehmens. Mit anderen Worten, der Data-Warehousing-Prozess ist besser ausgestattet, um ein bestimmtes Thema zu behandeln. Beispiele für Themen oder Themen sind Verkauf, Vertrieb, Marketing usw.
  • Integriert: Integration ist definiert als das Herstellen einer Verbindung zwischen großen Datenmengen aus mehreren Datenbanken oder Quellen. Wesentlich ist aber auch, dass die Daten einheitlich im Data Warehouse abgelegt werden. Der Prozess des Data Warehousing integriert Daten aus mehreren Quellen, wie z. B. einem Mainframe, relationalen Datenbanken, Flatfiles usw. Darüber hinaus hilft es, konsistente Codes, Attributmaße, Namenskonventionen und Formate beizubehalten.
  • Zeitunterschied: Die Zeitvariante in einem DW ist im Vergleich zu anderen Betriebssystemen umfangreicher. Daten, die in einem Data Warehouse gespeichert sind, werden mit einem bestimmten Zeitraum abgerufen und liefern Informationen aus einer historischen Perspektive.
  • Nicht flüchtig: Im nichtflüchtigen Data Warehouse sind Daten permanent, dh beim Einfügen neuer Daten werden bisherige Daten nicht ersetzt, weggelassen oder gelöscht. In diesem Data Warehouse sind Daten schreibgeschützt und werden nur in bestimmten Intervallen aktualisiert. Die beiden im Data Warehouse ausgeführten Datenoperationen sind der Datenzugriff und das Laden von Daten.
Ansätze des Data Warehouse

Merkmale und Funktionen von Data Warehouse (Quelle: GeeksforGeeks)

Funktionen eines Data Warehouse

Data Warehouse fungiert als Repository. Es hilft Unternehmen, die Kosten für Speichersysteme und Sicherungsdaten auf Unternehmensebene zu vermeiden. Die wichtigsten Funktionen des Data Warehouse sind:

  • Datenreinigung
  • Datenintegration
  • Datenzuordnung
  • Datenextraktion
  • Datenreinigung
  • Datenumwandlung
  • Laden von Daten
  • Erfrischend

Normalisierungs- vs. Denormalisierungsansatz

Normalisierung wird als eine Art der Datenreorganisation definiert. Dies trägt dazu bei, zwei Hauptanforderungen in einem Enterprise Data Warehouse zu erfüllen, nämlich Datenredundanz zu beseitigen und Datenabhängigkeit zu schützen. Andererseits erhöht die Denormalisierung die Funktionalität der Infrastruktur des Datenbanksystems.

Data Warehouse vs. Datenbank

Die Hauptunterschiede zwischen Data Warehouse und Datenbank sind in der folgenden Tabelle zusammengefasst:

Datenbank Data Warehousing
Eine Datenbank ist eine Zusammenführung verwandter Daten. Data Warehouse dient als Informationssystem, das historische und kommutative Daten aus einer oder mehreren Quellen enthält.
Zur Erfassung der Daten wird eine Datenbank verwendet. Ein Data Warehouse wird zur Analyse von Daten verwendet.
Eine Datenbank ist eine anwendungsorientierte Sammlung von Daten. Data Warehouse ist die subjektorientierte Sammlung von Daten.
Eine Datenbank verwendet OLTP (Online Transactional Processing). Data Warehouse verwendet OLAP (Online Analytical Processing).
Datenbanktabellen und Joins sind normalisiert, daher komplizierter.  Data-Warehouse-Tabellen und -Joins sind denormalisiert und daher einfacher.
Zum Entwerfen werden ER-Modellierungstechniken verwendet. Datenmodellierungstechniken werden zum Entwerfen verwendet.

Die zwei Data-Warehouse-Konzepte: Kimball vs. Inmon

Beide Data-Warehouse-Designmethoden haben ihre eigenen Vor- und Nachteile. Lassen Sie uns sie im Detail durchgehen, um herauszufinden, welches besser ist.

Die Kimball-Methodik

Das von Ralph Kimball initiierte Kimball-Datenmodell verfolgt einen Bottom-up-Ansatz zur Data Warehouse Architekturdesign, bei dem zunächst Data Marts basierend auf den Geschäftsanforderungen gebildet werden.

Die primären Datenquellen werden dann ausgewertet, und ein Extrahieren, Transformieren und Laden (ETL)-Tool wird verwendet, um Daten aus mehreren Quellen abzurufen und sie in einen Staging-Bereich des relationalen Datenbankservers zu laden. Nachdem die Daten in den Staging-Bereich des Data Warehouse hochgeladen wurden, umfasst die nächste Phase das Laden der Daten in ein dimensionales Data Warehouse-Modell, das von Natur aus denormalisiert ist. Dieses Modell partitioniert Daten in die Faktentabelle, bei der es sich um numerische Transaktionsdaten oder Dimensionstabellen handelt, bei denen es sich um die Referenzinformationen handelt, die Fakten unterstützen.

Das Star-Schema ist das grundlegende Element des dimensionalen Data-Warehouse-Modells. Die Kombination einer Faktentabelle mit mehreren Dimensionstabellen wird oft als Sternschema bezeichnet. Die dimensionale Modellierung von Kimball ermöglicht es Benutzern, mehrere Sternschemata zu erstellen, um verschiedene Berichtsanforderungen zu erfüllen. Der Vorteil des Sternschemas besteht darin, dass kleine Dimensionstabellenabfragen sofort ausgeführt werden.

Um Daten zu integrieren, schlägt der Kimball-Ansatz für den DW-Lebenszyklus die Idee von angepassten Datendimensionen vor. Es existiert als grundlegende Dimensionstabelle, die von verschiedenen Faktentabellen (z. B. Kunde und Produkt) innerhalb eines Data Warehouse gemeinsam genutzt wird, oder als dieselben Dimensionstabellen in verschiedenen Kimball-Data-Marts. Dies garantiert, dass ein einziges Datenelement faktenübergreifend in ähnlicher Weise verwendet wird.

Ein wichtiges Entwurfswerkzeug in Ralph Kimballs Data-Warehouse-Methodik ist die Enterprise-Bus-Matrix oder Kimball-Bus-Architektur, die die Fakten vertikal und die angepassten Dimensionen horizontal aufzeichnet. Die Kimball-Matrix, die ein Teil der Busarchitektur ist, zeigt, wie Sternschemata aufgebaut sind. Es wird von Unternehmensführungsteams als Eingabe verwendet, um zu priorisieren, welche Zeile der Kimball-Matrix zuerst implementiert werden sollte.

Der Kimball-Ansatz für den Lebenszyklus von Data Warehouses basiert ebenfalls auf konformen Fakten, dh Data Marts, die zusammen mit einer robusten Architektur separat implementiert werden.

Data-Warehouse-Architektur nach Kimball-Methode

Abbildung 2. Grundlegende Kimball Data Warehouse-Architektur erklärt (Quelle: Zentut)

Vorteile der Kimball-Methodik

Zu den Hauptvorteilen der Kimball-Methodik gehören:

  • Die dimensionale Kimball-Modellierung ist schnell zu konstruieren, da keine Normalisierung erforderlich ist, was eine schnelle Ausführung der Anfangsphase von bedeutet Data Warehousing Designprozess.
  • Ein Vorteil des Sternschemas besteht darin, dass die meisten Datenoperatoren es aufgrund seiner denormalisierten Struktur, die das Abfragen und Analysieren vereinfacht, leicht verstehen können.
  • Der Footprint von Data Warehouse-Systemen ist trivial, da er sich auf einzelne Geschäftsbereiche und Prozesse konzentriert und nicht auf das gesamte Unternehmen. Dadurch wird weniger Platz in der Datenbank benötigt, was die Systemverwaltung vereinfacht.
  • Es ermöglicht einen schnellen Datenabruf aus dem Data Warehouse, da die Daten in Faktentabellen und Dimensionen getrennt sind. Beispielsweise würde die Fakten- und Dimensionstabelle für die Versicherungsbranche Policentransaktionen und Schadenstransaktionen enthalten.
  • Ein kleineres Team von Designern und Planern reicht für das Data Warehouse Management aus, da die Datenquellensysteme stabil sind und das Data Warehouse prozessorientiert ist. Außerdem ist die Abfrageoptimierung unkompliziert, vorhersehbar und kontrollierbar.
  • Angepasste Dimensionsstruktur für das Datenqualitäts-Framework. Der Kimball-Ansatz zum Data-Warehouse-Lebenszyklus wird auch als geschäftsdimensionaler Lifestyle-Ansatz bezeichnet, da er es Business-Intelligence-Tools ermöglicht, tiefer über mehrere Sternschemata hinweg zu gehen und zuverlässige Erkenntnisse zu generieren.
Kimball DW / BI-Lebenszyklusmethode - Kimball Group

Kimball-Ansatz für den Data Warehouse-Lebenszyklus (Quelle: Kimball Group)

Nachteile der Kimball-Methodik

Einige der Nachteile des Kimball-Designansatzes sind:

  • Die Daten werden vor der Berichterstellung nicht vollständig integriert. die Idee einer „Single Source of Truth“ geht verloren.
  • Beim Aktualisieren von Daten in der Kimball DW-Architektur können Unregelmäßigkeiten auftreten. Dies liegt daran, dass bei der Denormalisierungstechnik redundante Daten zu Datenbanktabellen hinzugefügt werden.
  • In der Kimball DW-Architektur können Leistungsprobleme aufgrund des Hinzufügens von Spalten in der Faktentabelle auftreten, da diese Tabellen sehr detailliert sind. Das Hinzufügen neuer Spalten kann die Dimensionen der Faktentabelle erweitern, was sich auf die Leistung auswirkt. Außerdem lässt sich das dimensionale Data-Warehouse-Modell nur schwer ändern, wenn sich die Geschäftsanforderungen ändern.
  • Da das Kimball-Modell geschäftsprozessorientiert ist, kann es nicht alle BI-Reporting-Anforderungen bewältigen, anstatt sich auf das Unternehmen als Ganzes zu konzentrieren.
  • Der Prozess der Integration großer Mengen von Altdaten in das Data Warehouse ist komplex.

Die Inmon-Methode

Bill Inmon, der Vater des Data Warehousing, entwickelte das Konzept, ein Data Warehouse zu entwickeln, das die wichtigsten Themenbereiche und Entitäten identifiziert, mit denen das Unternehmen arbeitet, wie z. B. Kunden, Produkt, Anbieter usw. Bill Inmon definiert ein Data Warehouse als „subjektorientierte, nichtflüchtige, integrierte, zeitvariante Sammlung von Daten zur Unterstützung von Managemententscheidungen“.

Das Modell erstellt dann ein gründliches, logisches Modell für jede primäre Entität. Beispielsweise wird ein logisches Modell für Produkte mit allen Attributen erstellt, die dieser Entität zugeordnet sind. Dieses logische Modell kann zehn verschiedene Entitäten unter dem Produkt enthalten, einschließlich aller Details, wie z. B. Geschäftstreiber, Aspekte, Beziehungen, Abhängigkeiten und Zugehörigkeiten.

Das Designansatz von Bill Inmon Verwendet die normalisierte Form zum Erstellen einer Entitätsstruktur, um Datenredundanz so weit wie möglich zu vermeiden. Dies führt zu einer eindeutigen Identifizierung der Geschäftsanforderungen und zur Vermeidung von Unregelmäßigkeiten bei der Datenaktualisierung. Darüber hinaus besteht der Vorteil dieses Top-Down-Ansatzes beim Datenbankdesign darin, dass er robust gegenüber geschäftlichen Änderungen ist und eine dimensionale Perspektive der Daten über Data Mart hinweg enthält.

Als nächstes wird das physikalische Modell konstruiert, das der normalisierten Struktur folgt. Dieses Modell von Bill Inmon schafft eine einzige Quelle der Wahrheit für das gesamte Unternehmen. Das Laden von Daten wird aufgrund der normalisierten Struktur des Modells weniger komplex. Die Verwendung dieser Anordnung für Abfragen ist jedoch eine Herausforderung, da sie zahlreiche Tabellen und Links enthält.

Diese Data-Warehouse-Methodik von Inmon schlägt vor, Data-Marts separat für jede Abteilung wie Finanzen, Marketing, Vertrieb usw. aufzubauen. Alle Daten, die in das Data-Warehouse eingehen, werden integriert. Das Data Warehouse fungiert als einzelne Datenquelle für verschiedene Data Marts, um Integrität und Konsistenz im gesamten Unternehmen zu gewährleisten.

Data Warehouse-Konzepte: Kimball vs. Inmon Approach 2

Abbildung 3. Grundlegende Data-Warehousing-Architektur von Bill Inmon erklärt (Quelle: Stanford University)

Vorteile der Inmon-Methode

Der Designansatz von Bill Inmon bietet die folgenden Vorteile:

  • Data Warehouse fungiert als einheitliche Quelle der Wahrheit für das gesamte Unternehmen, in der alle Daten integriert sind.
  • Dieser Ansatz hat eine sehr geringe Datenredundanz. Daher besteht eine geringere Wahrscheinlichkeit von Unregelmäßigkeiten bei der Datenaktualisierung, wodurch der auf dem ETL-Konzept basierende Data-Warehouse-Prozess einfacher und weniger fehleranfällig wird.
  • Es vereinfacht Geschäftsprozesse, da das logische Modell detaillierte Geschäftsobjekte darstellt.
  • Dieser Ansatz bietet eine größere Flexibilität, da es einfacher ist, das Data Warehouse zu aktualisieren, falls sich die Geschäftsanforderungen oder Quelldaten ändern.
  • Es kann verschiedene unternehmensweite Berichtsanforderungen erfüllen.

Nachteile der Inmon-Methode

Die möglichen Nachteile dieses Ansatzes sind wie folgt:

  • Die Komplexität steigt, wenn dem Datenmodell mit der Zeit mehrere Tabellen hinzugefügt werden.
  • Es sind Ressourcen erforderlich, die mit der Modellierung von Data Warehouse-Daten vertraut sind. Dies kann teuer und schwierig zu finden sein.
  • Die vorbereitende Einrichtung und Lieferung sind zeitaufwändig.
  • Ein zusätzlicher ETL-Prozessbetrieb ist erforderlich, da Data Marts nach der Erstellung des Data Warehouse erstellt werden.
  • Dieser Ansatz erfordert, dass Experten ein Data Warehouse effektiv verwalten.

Welchen Data-Warehouse-Ansatz wählen?

Nachdem wir den Ansatz von Kimball vs. Inmon bewertet und die Vor- und Nachteile dieser beiden Methoden erkannt haben, stellt sich die Frage: Welches dieser Data Warehouse-Konzepte eignet sich am besten für Ihr Unternehmen?

Beide Ansätze berücksichtigen Data Warehouse als zentrales Repository, das die Geschäftsberichte unterstützt. Außerdem verwenden beide Arten von Ansätzen ETL-Konzepte zum Laden von Daten. Der Hauptunterschied besteht jedoch darin, Daten zu modellieren und in das Data Warehouse zu laden.

Der für den Aufbau von Data Warehouses verwendete Ansatz beeinflusst die vorläufige Lieferzeit des Lagerprojekts und die Fähigkeit, potenzielle Änderungen im ETL-Design in Kauf zu nehmen.

Sie sind sich immer noch nicht sicher über die Schlussfolgerung des Kimball vs. Inmon-Dilemmas? Wir können Ihnen bei der Entscheidung helfen, welcher dieser Data Warehouse-Ansätze dazu beitragen würde, Ihr Datenqualitäts-Framework optimal zu verbessern.

Wir haben einige Aspekte herausgearbeitet, die Ihnen bei der Entscheidung zwischen den beiden Ansätzen helfen können.

  • Berichtspflichten: Wenn Sie ein unternehmensweites und integriertes Reporting benötigen, ist der Ansatz von Bill Inmon besser geeignet. Wenn Sie jedoch Berichte benötigen, die sich auf den Geschäftsprozess oder das Team konzentrieren, entscheiden Sie sich für die Kimball-Methode.
  • Projektschluss: Das Entwerfen eines normalisierten Datenmodells ist vergleichsweise komplexer als das Entwerfen eines denormalisierten Modells. Dies macht den Inmon-Ansatz zu einem zeitintensiven Prozess. Wenn Sie weniger Zeit für die Lieferung haben, entscheiden Sie sich für die Kimball-Methode.
  • Voraussichtlicher Rekrutierungsplan: Die höhere Komplexität der Datenmodellerstellung im Data Warehouse-Ansatz von Inmon erfordert ein größeres Team von Fachleuten für das Data Warehouse-Management. Wählen Sie daher entsprechend.
  • Häufige Änderungen: Wenn sich Ihre Berichtsanforderungen wahrscheinlich schneller ändern und Sie mit flüchtigen Quellsystemen zu tun haben, entscheiden Sie sich für die Inmon-Methode, da diese mehr Flexibilität bietet. Wenn jedoch die Berichtsanforderungen und Quellsysteme vergleichsweise stabil sind, ist es besser, die Kimball-Methode zu verwenden.
  • Organisationsprinzipien: Wenn die Interessengruppen und Unternehmensleiter Ihres Unternehmens die Notwendigkeit von Data Warehousing erkennen und bereit sind, die Kosten zu tragen, wäre die Data Warehouse-Methode von Bill Inmon die sicherere Wahl. Wenn es den Entscheidungsträgern hingegen nicht um das Wesentliche geht, sondern lediglich nach einer Lösung zur Verbesserung des Reportings gesucht wird, reicht es aus, sich für die Data-Warehouse-Methode von Kimball zu entscheiden.

Ein automatisiertes Data-Warehousing-Tool

Organisationen bewegen sich in Richtung Data Warehouse-Automatisierung um Kosten zu sparen, die Produktivität zu maximieren und schneller umsetzbare Erkenntnisse zu gewinnen. Mit DWA können Sie schnell hochwertige Data Marts aufbauen, selbstregulierende Datenpipelines aufbauen und Entscheidungsträgern über BI- und Analysetools relevante Erkenntnisse liefern.

DWA eliminiert den zeitaufwendigsten Teil beim Befüllen eines Data Warehouse: das Schreiben von ETL/ELT-Code. Da keine manuelle SQL-Codierung erforderlich ist, können Entwickler ihre Energie darauf konzentrieren, auf einer logischen Ebene (Designebene) zu arbeiten, um effizientere Integrationsabläufe zu erstellen.

Kurz gesagt, durch den Wegfall manueller Eingriffe in die Planungs-, Modellierungs- und Bereitstellungsschritte können Sie ein Data Warehouse mit besserer Qualität aufbauen mit Erfolg – ​​auch das in wenigen Wochen oder gar Tagen.

Darüber hinaus hilft Ihnen die Automatisierung bei der Gestaltung agile Data-Warehouse-Infrastruktur. Das Ergebnis ist ein anpassungsfähigeres, reaktionsschnelleres Daten-Repository, das effizient abgefragt werden kann, wertvolle Erkenntnisse in Sekundenschnelle liefert und es Ihnen ermöglicht, wertvolle Erkenntnisse zu extrahieren.

Astera Data Warehouse Builder bietet eine integrierte Plattform zum Entwerfen, Bereitstellen und Testen großer Volumina Data Warehouses und automatisieren Sie die Prozesse, um schnell zu aussagekräftigen Erkenntnissen zu gelangen, ohne umständlich ETL-Codes schreiben zu müssen.

Sind Sie verwirrt darüber, wie unser Data-Warehousing-Tool den einzigartigen Anwendungsfall Ihres Unternehmens erleichtern kann? Kontakt aufnehmen mit unseren Datenexperten. 

Bottom-Line

Sowohl Kimball- als auch Inmon-Data-Warehouse-Konzepte können verwendet werden, um Data-Warehouse-Modelle erfolgreich zu entwerfen. Tatsächlich verwenden mehrere Unternehmen eine Mischung aus diesen beiden Ansätzen (als hybrides Datenmodell bezeichnet).

Im hybriden Datenmodell erstellt die Inmon-Methode ein dimensionales Data Warehouse-Modell eines Data Warehouse. Im Gegensatz dazu wird der Kimball-Methode gefolgt, um Data Marts nach dem Star-Schema zu entwickeln.

Es ist unmöglich zu behaupten, welcher Ansatz besser ist, da beide Methoden ihre Vor- und Nachteile haben und in verschiedenen Situationen gut funktionieren. Ein Data Warehouse-Designer muss abhängig von den verschiedenen Faktoren, die in diesem Artikel behandelt werden, eine Methode auswählen.

Damit eine Methode effektiv ist, muss sie gut durchdacht, eingehend untersucht und entwickelt werden, um Ihr Unternehmen zufrieden zu stellen Business Intelligence Berichtspflichten.

Verwandte Artikel

5 Gründe, warum Sie Ihr Data Warehouse in...

Die Welt der Unternehmens-BI hat in den letzten Jahren ein schnelles Wachstum der Cloud-Einführungsraten erlebt. Das Cloud-Data-Warehouse...
Mehr Infos or weiterlesen

Data Warehouse Automation (DWA): Warum es für Ihre...

Daten wurden zur Währung der Zukunft ernannt, die den Wert von Werten wie Öl und Gold übertrifft...
Mehr Infos or weiterlesen

Data Warehouse-Architektur: Typen, Komponenten und Konzepte

In den letzten Jahrzehnten war die Data-Warehouse-Architektur die Säule der Datenökosysteme von Unternehmen. Und trotz zahlreicher...
Mehr Infos or weiterlesen