Blogs

Startseite / Blogs / Datenmodellüberprüfung zur Verbesserung der Qualität Ihres Data Warehouse-Schemas

Inhaltsverzeichnis
Die automatisierte, Kein Code Datenstapel

Erfahren Sie, wie Astera Data Stack kann die Datenverwaltung Ihres Unternehmens vereinfachen und rationalisieren.

Verifizierung des Datenmodells zur Verbesserung der Qualität Ihres Data Warehouse-Schemas

November 29th, 2022

Was ist erforderlich, um die Qualität und Robustheit Ihrer Data Warehouse-Implementierung sicherzustellen? Ein tiefgreifendes Datenmodell-Verifizierungssystem, mit dem Sie Ihre Quell- und Zielmodelle gründlich überprüfen und bei der Behebung helfen können, bevor sie überhaupt bereitgestellt werden. Denn wenn Ihr Data Warehouse-Schema korrekt ist, werden die nachfolgenden Datenlade- und Berichtsprozesse automatisch optimiert und fehlerfrei.

Konzeptionelle Datenmodelle dienen als Grundlage jeder Data-Warehouse-Architektur, die darauf ausgelegt ist, vertrauenswürdige Daten für Berichte und Analysen bereitzustellen. Als Herzstück einer solch unglaublichen Maschinerie (Data Warehouse) ist es nur sinnvoll, sicherzustellen, dass die Datenmodelle bei der Verwendung reibungslos funktionieren, ohne Fehler zu verursachen oder den Entwicklungsprozess zu unterbrechen.

So erstellen Sie ein stabiles Datenmodell

Bildnachweis: Geek & Poke

Aber das Erstellen von Datenmodellen ist selten einfach. Einige würden sagen, es wäre ein Traum für Datenmodellierer, die möchten, dass ihre Modelle sofort funktionieren, wenn Entwickler sie zum ersten Mal für Datenladeprozesse verwenden. Wie also können Sie als Modellierer dieses Nirvana des absoluten Vertrauens in Ihre Datenmodelle erreichen und die langwierigen Testzyklen überspringen?

Die Antwort liegt in der Durchführung umfassender Datenmodellvalidierungsprüfungen während der Entwurfszeit und unmittelbar vor der Bereitstellung.

Lassen Sie uns einen tiefen Einblick in die Bedeutung von Datenmodellüberprüfungen und deren Auswirkungen auf den Gesamtzeitplan und die Qualität Ihres Data Warehouse-Projekt.

Was macht die Datenmodellverifizierung zu einem DW-Essential?

Es ist wichtig, diese Datenmodellfehler zur Entwurfszeit zu erkennen.

Es ist wichtig, diese Datenmodellfehler zur Entwurfszeit zu erkennen.

Bei der Erstellung des Data-Warehouse-Schemas müssen Datenmodellierer auf viele Feinheiten achten, damit ihre Datenmodelle in den Folgeprozessen reibungslos funktionieren. Um Ihnen eine Vorstellung zu geben, werfen wir einen Blick auf zwei Hauptphasen der Systemdatenmodellierung, die von angemessenen Verifizierungsprüfungen stark profitieren würden.

1. Design-Time-Verifizierungsprüfungen

Datenmodelle werden mit Bezug auf Ihre Quell- und Zieldatenbanken erstellt. Sie müssen sicherstellen, dass Ihre Modelle bestimmte Regeln, statistische Tests und Standards dieser Datenbanken erfüllen und keine haben logisch Fehler.

Von dem Perspektive der Quelldatenmodellierung, umfassen verschiedene Arten von Verifizierungsvalidierungen die Suche nach Nichtübereinstimmungen auf Feldebene zwischen dem Modell und der Quelldatenbank. Diese reichen von Unterschieden bei Datentypen, Indizes, Aliasen, Spalten- und Tabellennamen bis hin zu Zeichenlängen, der Nullfähigkeit von Spalten, Primärschlüsseln und fehlenden Feldern in der Datenbank.

Wenn die Datenbanktabellen und das Quelldatenmodell nicht synchron sind, treten Fehler in einem viel späteren Stadium auf, wenn Sie die Datenmodelle zum Erstellen von Datenpipelines und Mapping-Feldern verwenden.

Lass uns reden über Aufbau des Zielschemas, die 3NF, ein dimensionales Modell oder ein Datentresor sein können. Für diese Diskussion verwenden wir die dimensionale Modellierung (wegen ihrer Popularität bei der Masse). Es erfordert, dass Sie Fakten und Dimensionen konfigurieren, indem Sie Geschäfts- und Ersatzschlüssel, Transaktionsdatumsschlüssel, SCD-Rollen, Zeilenbezeichner, Nullwertprüfungen und einige andere Spezifikationen.

Nehmen wir das Beispiel eines Mitarbeiter Abmessungen. Sie möchten die Historie verschiedener Aspekte von Mitarbeitern verwalten, z. B. wann sie befördert wurden, die Änderung der Gehälter, das Datum, an dem sie eingestellt und das Unternehmen verlassen wurden usw. Dazu müssen Sie entweder SCD Typ 2 oder Typ 6 verwenden Darüber hinaus müssen Sie sicherstellen, dass Geschäfts- und Ersatzschlüssel zugewiesen, Beziehungen hergestellt und eine Zeilenkennung definiert wird.

Fehler wegen fehlendem Ersatzschlüssel

Fehlender Ersatzschlüsselfehler in der Mitarbeiterdimension mit vollständigem Kontext

Was passiert also, wenn ein oder mehrere Puzzleteile fehlen? Nehmen wir an, der Ersatzschlüssel wurde nicht definiert.

Wenn Sie die Datenpipeline zum ersten Mal ausführen, werden die Daten normal eingefügt. Um dies zu beheben, müssen die ETL-Entwickler dieses Problem dem Datenmodellierungsteam mitteilen, das dann diese bestimmte Dimension mit dem fehlenden Ersatzschlüssel finden muss, um es zu beheben. Auch hier wäre all diese Nacharbeit ein langer Prozess.

2. Verifizierungsprüfungen zur Sicherstellung der Übereinstimmung mit der Zieldatenbank

Nachdem Sie das Data Warehouse-Schema erstellt haben, ist der nächste Schritt: wiederholen es in der Zieldatenbank. An dieser Stelle müssen Sie sicherstellen, dass das Skript Ihres Schemas mit dem Zieldatenbankanbieter übereinstimmt, der Snowflake, Oracle, Azure oder Teradata sein kann.

Um dies zu relativieren, nehmen wir das Beispiel von Snowflake und wie es keine Indizes verwendet. Wenn Ihr Quellsystem SQL Server ist, das alle verschiedenen Arten von Indizierungsoptionen unterstützt (Primärschlüssel, geclustert, nicht geclustert usw.), gibt Snowflake eine Fehlermeldung aus, dass die Indizierung zur Laufzeit nicht unterstützt wird.

Mit einem Datenmodell-Validierungsmodul können Sie ein Modell einfach validieren und die Qualität und Integrität von Datenmodellen testen, bevor sie entweder in der Zieldatenbank bereitgestellt oder zum Füllen des Data Warehouse verwendet werden. Es erspart den Teams viele Entwicklungsstunden, die sonst für die Überarbeitung des Datenmodelldesigns und den Neuaufbau der Datenpipelines aufgewendet würden.

Benötigt Ihr Datenmodellierungsteam ein Verifikationssystem?

Das tun sie ganz bestimmt.

Lassen Sie uns über die Vorteile sprechen, die Data-Warehousing-Teams mit einem kompetenten Datenmodell-Verifizierungssystem genießen.

Finde heraus, wo die Fehler und Warnungen genau sind

Nehmen wir an, Sie haben etwa 60 Tabellen in Ihrer OLTP-Datenbank, aus denen Sie ein Quelldatenmodell erstellt haben. Einige Tabellen können weit über 30 Felder haben. Wenn Sie nun versuchen, Daten in diese Tabellen zu laden, gibt Ihr Datenbankanbieter die Fehlermeldung aus, dass bestimmte Datentypen und Zeichenlängen nicht unterstützt werden und geändert werden müssen. Es ist wahrscheinlich, dass Sie und Ihre anderen Datenmodellierer Stunden damit verbringen müssen, die Modelle zu durchforsten, jede Entität zu überprüfen und all diese Fehler zu korrigieren.

Einige häufige Fehler in DatenmodellenEinige häufige Fehler in Datenmodellen

Ein Datenmodell-Überprüfungstool hilft dabei, alle Fehler und Warnungen sofort zu identifizieren und bietet einen vollständigen Kontext darüber, wo sie sich befinden. Es beseitigt praktisch das Rätselraten beim Testen Ihrer Datenmodelle und leitet Sie mit einem iterativen Prozess genau dorthin, wo Sie Korrekturen in Ihrem Schema vornehmen müssen.

Spart vor dem Hin- und Herwechseln zwischen Teams

Bildnachweis: Rich Murnanes Blog

In einer typischen Umgebung haben Data-Warehousing-Projekte mehrere Teams, die sich mit verschiedenen Aspekten des Data-Warehouse befassen. Es wird Datenmodellierer, DBAs, ETL-Entwickler, Datenarchitekten und einige andere geben.

Das Datenmodellierungsteam arbeitet mit den Geschäftsanwendern zusammen, um deren Reporting-Anforderungen zu ermitteln, berät sich mit DBAs, um Anbieterspezifikationen zu erhalten, erstellt und implementiert die Modelle und gibt schließlich den ETL-Entwicklern das grüne Signal, mit dem Aufbau von Pipelines zum Laden von Daten zu beginnen.

Selbst mit einem Data-Warehousing-Tool ist dies ein arbeitsintensiver Prozess. Die Fehler werden jedoch im Allgemeinen nicht angezeigt, bis Sie den Punkt erreichen, an dem Sie Datenpipelines zum Auffüllen des Data Warehouse ausführen.

Ein tiefgreifendes Datenmodell-Verifizierungssystem erspart es den Benutzern, an die Startlinie zurückzukehren, Änderungen am Datenmodell vorzunehmen, es an das nächste Team zu übergeben und dann die Datenladeabläufe auszuführen, um zu überprüfen, ob es einwandfrei funktioniert. Indem Sie die Korrekturen beim Entwerfen der Datenmodelle vornehmen, können Sie den Prozess drastisch optimieren und den gesamten Entwicklungszyklus um Stunden, wenn nicht sogar Tage oder Wochen beschleunigen.

Stellt die Einhaltung der Skriptregeln des Datenbankanbieters sicher

Angenommen, Ihre OLTP-Datenbank befindet sich in SQL Server und Sie erstellen das Data Warehouse in Oracle. Bei der Bereitstellung Ihres Schemas in einer Oracle-Datenbank treten wahrscheinlich Probleme mit Einschränkungen bei Datentypen, Zeichenlängen und Skalierung auf, da beide Anbieter diese Parameter unterschiedlich handhaben. In ähnlicher Weise erhalten Sie möglicherweise eine Fehlermeldung, wenn Sie einen Clustered-Index in Ihrem Zielmodell haben, der wiederum von Oracle nicht unterstützt wird.

Mit einem vorhandenen Datenmodell-Verifizierungssystem können Sie diese Compliance-Probleme problemlos lösen, bevor Sie das Schema in der Oracle-Datenbank bereitstellen. Dies erspart sowohl Datenmodellierern als auch ETL-Entwicklern viele Stunden an Nacharbeit bei der Entwicklung, die andernfalls in die Identifizierung der Probleme und deren Behebung in jeder Datenmodellentität aufgewendet würden.

Beschleunigt den gesamten Data Warehousing-Prozess

„Mann, wenn es nur ein System gäbe, das diese Datenmodelle testet und mich sofort über Fehler informiert, hätten wir uns jede Menge Entwicklungsstunden gespart, um sie immer wieder zu reparieren.“

~Anonymer, wunschenswerter Datenmodellierer

Ein effektives Datenmodell-Verifizierungssystem kann der heilige Gral für Data-Warehousing-Teams sein, da es Hunderte von Prüfungen sowohl zur Entwurfszeit als auch zur Bereitstellungszeit durchführt, um sicherzustellen, dass Ihre Datenmodelle stabil sind. Es ermöglicht das Testen der Integrität und Genauigkeit der Modelle anhand der Reporting-Anforderungen und stellt sicher, dass es den Scripting-Standards des jeweiligen Datenbankanbieters entspricht.

Wenn alles in Ordnung ist, bevor die Datenmodelle bereitgestellt und an das nächste Team übergeben werden, können Unternehmen von erheblichen Zeiteinsparungen profitieren, was zu einer verkürzten Projektzeit führt.

Nutzen Sie die One-Click-Datenmodellverifizierung mit Astera DW-Builder

Die obige Diskussion zeigt, dass ein Datenmodell-Verifikationssystem ein wesentlicher Kern für die Datenmodellierungsprozess und hilft, die Prozesse über den gesamten Data Warehouse-Lebenszyklus hinweg zu rationalisieren.

Astera DW-Builder ist eine agile, metadatengesteuerte Lösung, die es Ihnen ermöglicht, Datenmodelle zu entwerfen, bereitzustellen und zu testen und sie für den Aufbau von Dataload-Pipelines zu verwenden – alles von einer einzigen Plattform aus. Es wird mit einem detaillierten Datenmodell-Verifizierungsmodul geliefert, das zum Zeitpunkt der Bereitstellung Wache hält und sicherstellt, dass kein Fehler oder keine Warnung vom Benutzer ungeprüft vorübergeht.

Mit nur einem Klick liefert Ihnen die Plattform automatisch ein Bild vom Zustand Ihrer Datenmodelle. Von der Überprüfung auf fehlende Geschäftsschlüssel, Beziehungsanomalien und nicht übereinstimmende Datentypen bis hin zur Sicherstellung der Einhaltung der Skriptstandards der Zieldatenbank können Sie sich darauf verlassen Astera DW Builder, um alle möglichen Fehler und Warnungen zu identifizieren und zu melden. Dadurch wird sichergestellt, dass Ihre Datenmodelle stabil und vollständig sind, bevor Sie in die nächste Projektphase übergehen.

Sie sind fasziniert und möchten sehen, wie Sie Ihre Datenmodelle validieren und den gesamten Data Warehousing-Prozess optimieren können? Kasse die Produktdemo, oder machen Sie eine Spritztour, um sich selbst mit a . zu überzeugen Kostenlose 14-Tage-Testversion.

 

Sie können auch mögen
Was ist ein Datenbankschema? Ein umfassender Leitfaden
ANSI X12 vs. EDIFACT: Hauptunterschiede
Was sind Metadaten und warum sind sie wichtig?
In Anbetracht Astera Für Ihre Datenverwaltungsanforderungen?

Stellen Sie eine codefreie Konnektivität mit Ihren Unternehmensanwendungen, Datenbanken und Cloud-Anwendungen her, um alle Ihre Daten zu integrieren.

Lassen Sie uns jetzt eine Verbindung herstellen!
Lass uns verbinden