Eine vollständige Anleitung zur Dimensionsmodellierung

By |2022-07-20T07:14:37+00:00Februar 1st, 2021|

Bei der Dimensionsmodellierung werden Fakten- und Dimensionstabellen verwendet, um einen Datensatz historischer Daten in Data Warehouses zu verwalten. Verschiedene Arten von Datenmodellierungstechniken werden für verschiedene Anwendungen optimiert. Normalisierte Entity-Relationship-Modelle (ER-Modelle) wurden entwickelt, um Datenredundanzen zu eliminieren und die Einfüge-, Aktualisierungs- und Löschvorgänge schnell auszuführen und die Daten in eine Datenbank zu übertragen.

Im Gegensatz dazu sind dimensionale Modelle oder dimensionale Kimball-Datenmodelle – Datenmodelle, die auf der von Ralph Kimball entwickelten Technik basieren – denormalisierte Strukturen, die entwickelt wurden, um Daten aus a abzurufen Data Warehouse. Sie sind optimiert, um die Leistung zu erbringen Auswählen Betrieb und werden im grundlegenden Design-Framework verwendet, um hochoptimierte und funktionale Data Warehouses zu erstellen.

In diesem Artikel werden die Grundlagen der dimensionalen Modellierung und die damit verbundenen Konzepte behandelt. Wir werden auch verschiedene Werkzeuge und Implementierungsmethoden für den erfolgreichen Entwurf dimensionaler Datenmodelle diskutieren.

Vorteile der Dimensionsmodellierung

Die Dimensionsmodellierung ist aufgrund der damit verbundenen Vorteile nach wie vor die am häufigsten verwendete Datenmodellierungstechnik für das Entwerfen von Enterprise Data Warehouses. Diese schließen ein:

Schnelleres Abrufen von Daten

Bei der dimensionalen Datenmodellierung werden die Tabellen im Modell selbst zusammengeführt, sodass Benutzer Daten schneller aus verschiedenen Datenquellen abrufen können, indem sie Verknüpfungsabfragen ausführen. Das denormalisierte Schema eines Data Warehouse mit dimensionalen Modellen ist im Gegensatz zu einem normalisierten Schneeflockenschema für die Ausführung von Ad-hoc-Abfragen optimiert. Infolgedessen ergänzt es die Business Intelligence (BI)-Ziele einer Organisation in hohem Maße.

Besseres Verständnis von Geschäftsprozessen

Die Prinzipien der dimensionalen Modellierung basieren auf Fakten- und Dimensionstabellen. Welche Fakten und Dimensionen es gibt, werden wir in den folgenden Abschnitten behandeln. Diese Kategorisierung von Daten in Fakten und Dimensionen sowie die Entity-Relationship-Struktur eines Dimensionsmodells stellen für Analysten komplexe Geschäftsprozesse leicht verständlich dar.

Flexibel zu ändern

Das dimensionale Modellierungs-Framework macht den Data Warehousing-Prozess erweiterbar. Das Design kann leicht geändert werden, um neue Geschäftsanforderungen zu berücksichtigen oder Anpassungen am zentralen Repository vorzunehmen. Dem Modell können neue Entitäten hinzugefügt oder das Layout der bestehenden geändert werden, um geänderte Geschäftsprozesse widerzuspiegeln.

Elemente, die an der dimensionalen Modellierung beteiligt sind

Faktentabellen oder Geschäftskennzahlen

Faktentabellen speichern die numerischen Informationen zu Geschäftsmaßen und Fremdschlüsseln in den Maßtabellen. Geschäftsfakten können additiv, semi-additiv oder nicht-additiv sein. In Tabelle 1 werden die drei Arten von Faktentabellen erläutert.

Art der Fakten Beschreibung
Additive Fakten Geschäftskennzahlen, die über alle Dimensionen hinweg aggregiert werden können
Halbadditive Fakten Geschäftskennzahlen, die über einige Dimensionen und nicht über andere hinweg aggregiert werden können (normalerweise Datums- und Zeitdimensionen)
Nichtadditive Fakten Geschäftskennzahlen, die in keiner Dimension aggregiert werden können

Tabelle 1: Arten von Fakten in einer Faktentabelle

Faktentypen erklärt mit einem dimensionalen Datenmodell

Ein Bekleidungsgeschäft verwaltet die folgenden Daten in Faktentabellenzeilen für eine Verkaufstransaktion:

Datum Speichern Produkttyp Menge Einzelpreis Verkaufszahlen Inventory Umsatzsteuer
6/3/2018 CA Nylon 5 100 500 30 7.75%
6/3/2018 CA Polyester 7 250 1750 50 7.75%
6/3/2018 PA Nylon 6 100 600 65 6.00%
6/3/2018 PA Polyester 3 250 750 25 6.00%
6/4/2018 CA Nylon 7 100 700 36 7.75%
6/4/2018 CA Polyester 6 250 1500 17 7.75%
/ 4 / 2018 PA Nylon 9 100 900 14 6.00%
6/4/2018 PA Polyester 10 250 2500 20 6.00%

Tabelle 2: Transaktionstabelle, die von einem Bekleidungsgeschäft geführt wird

Die Spalten mit numerischen Informationen zum Geschäftsprozess sind unsere Geschäftsdaten. In diesem Beispiel Menge, Einzelpreis, Verkaufszahlen, Inventoryund Umsatzsteuer sind Fakten. Und der Rest der Entitäten (Datum, Shopund Produkttyp) sind Maße.

Verkaufszahlen kann über alle Dimensionen hinweg hinzugefügt werden, es ist also eine additive Tatsache. Darüber hinaus hinzufügen Inventory Informationen über Shop dimension bietet nützliche Geschäftsinformationen, aber da dies nur eine Momentaufnahme der Warenmenge zu einem bestimmten Zeitpunkt ist, werden diese über die gesamte Zeit hinzugefügt Datum dimension gibt keine nützlichen geschäftlichen Einblicke. Schon seit Inventory ist in einigen Dimensionen additiv und in anderen nicht additiv, es ist eine semi-additive Tatsache. Nun überlegen Sie Umsatzsteuer. Hinzufügen Umsatzsteuer über alle Dimensionen hinweg Probleme bei der analytischen Verarbeitung aufwerfen. Umsatzsteuer ist daher eine nichtadditive Tatsache.

Maßtabellen

Dimensionstabellen speichern beschreibende Informationen zu den Geschäftsdaten, um die Daten besser zu verstehen und zu analysieren. In dem in Tabelle 2 dargestellten Beispiel Datum, Speichernund Produkttyp sind Dimensionsentitäten und geben weitere Informationen zu den Geschäftsdaten. Der Gesamtumsatz ist eine wichtige Kennzahl, die erfasst werden muss. Ohne die Dimensionen kann ein Unternehmen jedoch nicht beurteilen, an welchem ​​Standort oder Produkttyp mehr Umsatz erzielt wird.

Dimensionsmodellierung - Fakten- und Dimensionstabellen

Abbildung 1: Sternschema mit Fakten- und Dimensionstabellen

Primärschlüssel

Der Primärschlüssel ist eine Spalte in Dimensionstabellen, die eindeutige Datensätze identifiziert. Für die sich langsam ändernden Dimensionen ist der Ersatzschlüssel der Primärschlüssel.

Unbekannter Schlüssel

Fremdschlüssel werden verwendet, um zwei Tabellen zu verknüpfen (normalerweise Fakten- und Dimensionstabellen). Der Primärschlüssel in einer Dimensionstabelle ist ein Fremdschlüssel in der zugehörigen Faktentabelle und wird verwendet, um auf diese bestimmte Dimension zu verweisen.

Entwerfen eines dimensionalen Datenmodells

Den Prozess von verstehen dimensionale Modelle entwerfenBetrachten wir das Beispiel einer Bekleidungslinie, die zwei Arten von Windbreakern verkauft - Nylon und Polyester in ihren beiden Geschäften in Kalifornien und Pennsylvania. Die Beispieldaten für das Beispiel sind in Tabelle 2 gezeigt.

Schritt 1: Identifizieren Sie die Geschäftsprozesse

Bevor Sie die Daten modellieren, sollten Sie die Arten der dimensionalen Modellierung für Ihr Datenmodell geeignet machen. Der Prozess der dimensionalen Modellierung (oder jede Art von Datenmodellierung) beginnt mit der Identifizierung des Geschäftsprozesses, den Sie verfolgen möchten. In diesem Fall möchten wir den Umsatz für die beiden Arten von Windjacken verfolgen.

Schritt 2: Identifizieren Sie Fakten und Dimensionen in Ihrem Dimensionsdatenmodell

Die Informationen in einem Dimensionsmodell werden in zwei Tabellentypen eingeteilt: Tatsachen und Abmessungen. Der nächste Schritt besteht darin, die Geschäftsdaten, die Sie messen möchten, und die zugehörigen Dimensionen zu identifizieren. In unserem Beispiel ist der Verkauf von Windbreakern die Tatsache, die wir messen möchten. Datum, Standort (Kalifornien und Pennsylvania) und Produkttyp (Nylon-Windbreaker und Polyester-Windbreaker) sind die Dimensionen, die uns weitere Einblicke in den Verkaufsprozess geben.

Schritt 3: Identifizieren Sie die Attribute für Dimensionen

Nachdem Sie die Dimensionen und Fakten für Ihren Geschäftsprozess identifiziert haben, besteht der nächste Schritt darin, Attribute zu identifizieren und eine separate Dimensionstabelle für jede der Dimensionen zu erstellen. Für jeden Datentyp gibt es verschiedene Arten von Dimensionstabellen. Jeder Datensatz in der Dimensionstabelle sollte einen eindeutigen Schlüssel haben. Dieser Schlüssel wird verwendet, um die Datensätze in der Dimensionstabelle eindeutig zu identifizieren, und wird als Fremdschlüssel in der Faktentabelle verwendet, um auf die bestimmte Dimension zu verweisen und sie mit der Faktentabelle zu verknüpfen. Die Tabellen 3-5 zeigen die verschiedenen Arten von Dimensionen in einem Data Warehouse in unserem Beispiel für eine Bekleidungslinie.

Datumsmaß
Datumsschlüssel Datum Tag
10201 6/3/2018 Sonntag
10202 6/4/2018 Montag

Tabelle 3: Dimensionstabelle für Datum

Dimension speichern
Schlüssel speichern Name deines Geschäfts City Bundesland
151 Angies Kleidung Los Angeles Kalifornien
152 Angies Kleidung Pittsburgh Pennsylvania

Tabelle 4: Dimensionstabelle für Store

Produkt-Maß
Produktcode Kollektion Material Farbe
131620 Windbreaker - Herbstkollektion Nylon Orange
131571 Windbreaker - Herbstkollektion Polyester Schwarz

Tabelle 5: Maßtabelle für Produkt

Schritt 4: Definieren Sie die Granularität für Geschäftsdaten

Granularität bezieht sich auf die Informationsebene, die in einer Tabelle gespeichert ist. In unserem Beispiel wird der Verkaufsbetrag beispielsweise täglich erfasst, daher ist die Granularität in diesem Fall täglich. Die Faktentabellen in einem Dimensionsmodell sollten der vordefinierten Granularität entsprechen.

Schritt 5: Speichern historischer Informationen (sich langsam ändernde Dimensionen)

Ein wichtiges Merkmal von Dimensionsmodellen ist, dass die Dimensionsattribute leicht geändert werden können, ohne die vollständigen Transaktionsinformationen zu ändern. Zum Beispiel beschließt die Bekleidungslinie, die Nylon-Windjacke aus der Herbstkollektion in die Frühlingskollektion aufzunehmen, und aktualisiert den Namen in der Kollektion Attribut. Die Aktualisierung ist in der Maßtabelle ein einfacher Vorgang, aber mit der Aktualisierung verlieren wir unsere vorherigen Daten. Wenn das Ziel Ihrer Datenmodellierung und Ihres Data Warehouse die Pflege und Speicherung des Verlaufs ist, kann dies ein Problem darstellen. Dimensionen, die sich im Laufe der Zeit langsam ändern, werden als sich langsam ändernde Dimensionen bezeichnet. Darüber hinaus wird die Zeitdimensionstabelle in einem Data Warehouse automatisch generiert und erfasst den Zeitpunkt, zu dem verschiedene Transaktionen auftreten. Sie können historische Daten verwalten und speichern, indem Sie sich langsam ändernde Dimensionen verfolgen.

Lesen Sie mehr über verschiedene Anwendungsfälle mit sich langsam ändernden Abmessungen.

Automatisierung – ein Game Changer für die dimensionale Modellierung

Das Entwerfen von Dimensionsmodellen ist ein wesentlicher Schritt beim Aufbau des Frameworks eines Enterprise Data Warehouse. Der Prozess kann mit Hilfe eines robusten Data-Warehouse-Automatisierungstools wie z Astera Data Warehouse Builder.

Mit der Astera DW-Builder, können Sie schnell dimensionale Modelle in einer integrierten Entwicklungsumgebung ohne visuellen Code erstellen. Entitäten können durch einfaches Ziehen und Ablegen und Zusammenführen denormalisiert werden. Entitätsrollen (Fakten und Dimensionen) können in großen Mengen zugewiesen werden, was Ihnen bei der Arbeit mit Hunderten von Entitäten wertvolle Zeit sparen kann. Darüber hinaus ermöglicht Ihnen das Produkt die Verwaltung langsam wechselnder Abmessungen mit integrierter Unterstützung für die SCD-Typen 1, 2, 3 und 6.

Astera DW Builder ist eine End-to-End-Data-Warehouse-Automatisierungsplattform mit integrierten Funktionen zur dimensionalen Datenmodellierung, Unterstützung für eine Vielzahl von Datenbanken und CRM-Anwendungen, automatisierten Datenzuordnungs- und Datenladefunktionen sowie nativer Integration mit Business-Intelligence-Plattformen wie Tableau und Power BI.

[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Für eine detailliertere Anleitung gehen Sie bitte auf: Astera DW Builder Demo oder melde dich an für a die kostenlose Testversion. Erleben Sie die Leistungsfähigkeit der Data Warehouse-Automatisierung aus erster Hand.