Live-Frage-und-Antwort-Runde mit James Serra zur Automatisierung des Data Warehouse-Designs

By |2021-12-03T13:04:27+00:00November 3rd, 2021|

Wir haben unsere Data Warehouse Automation (DWA)-Plattform der nächsten Generation eingeführt, Astera DW-Builder das beschleunigt und vereinfacht die Entwicklung von Data Warehouses. Es handelt sich um eine einheitliche, auf Metadaten basierende Lösung, mit der Unternehmen innerhalb weniger Tage Data Warehouses der Enterprise-Klasse entwerfen, entwickeln und bereitstellen können.

Wir haben vor kurzem a gehostet Webinar an wo wir die Gelegenheit hatten, mit James Serra in Kontakt zu treten. James ist ein renommierter Vordenker in der Nutzung und Anwendung von Big Data und Advanced Analytics. Derzeit arbeitet er bei EY als Data Platform Architecture Lead und war zuvor sieben Jahre bei Microsoft als Solution Architect mit Spezialisierung auf Big Data und Data Warehousing tätig.

In unserer letzten Diskussion haben wir mit James gesprochen, um Insider-Einblicke zu gewinnen moderne Data-Warehouse-Entwicklung. In dieser Live-Q&A-Sitzung haben wir uns mit dem Konzept der Automatisierung des Data Warehouse-Designs befasst.

Was halten Sie vom Konzept des Unternehmensdatenmodells? Glauben Sie, dass es an der Zeit ist, von dieser Idee, alle Ihre Anforderungen im Voraus vorzubereiten und in einen Entwicklungszyklus überzugehen, überzugehen? Wenn nicht, wie würden Sie von diesem Ansatz zu einem iterativeren Data Warehousing-Stil übergehen?

Ich denke, die meisten Kunden haben sich von diesem Wasserfall-Ansatz verabschiedet, bei dem sie viel Zeit damit verbringen, Anforderungen zu sammeln. Sie sind auf eine agile Wasserfall-Entwicklung umgestiegen, und vieles davon hat mit den Tools zu tun, die in letzter Zeit herausgekommen sind. Wenn Sie sich so etwas wie Business-Intelligence-Tools ansehen, habe ich festgestellt, dass Kunden dieses Tool jetzt verwenden, um die Geschäftsanforderungen zu definieren, anstatt dass jemand von der IT zu einem Kunden geht und sagt: „Okay, was ist Ihre Anforderung? Lass es uns abnehmen, lass uns etwas bauen“, komm zurück und finde heraus, dass es falsch ist, und lass diesen Kreislauf weitergehen. Sie sagen jetzt: „Hey, nimm den Prototyp, und wir verwenden ihn als Geschäftsanforderungen.“

Die modernen ETL-Berichterstellungstools ermöglichen es Ihnen, diese Anforderungen einfach zu prototypieren und zu erstellen. Und wenn nicht, heißt es normalerweise: „Hey, wir brauchen einen schnellen Sieg. Lasst uns anfangen, etwas aufzubauen und den Wert dessen zu zeigen, was wir entwickelt haben, und Menschen und Endbenutzer begeistern.“ Oftmals [hilft] es, Budgets freizusetzen, und dann bindest du diese Endbenutzer auch frühzeitig ein, sodass du das Gefühl hast, dass sie Teil dessen sind, worauf du dort aufbaust, und dann können sie etwas bekommen von Wert, also wählen Sie etwas aus, das Sie kurzfristig tun können und das viel Wert hat, und dann kommen Sie damit heraus.

Ich sage immer, dass Sie Ihr Endziel im Auge behalten möchten. Es ist so, als würde man eine Stadt bauen, die man in Städte aufteilen wird. Sie können eine Blaupause für diese Stadt mit allen Städten darin erstellen. Dann geht man, baut eine Stadt und baut eine über der anderen. Du gehst nicht hin und baust das Ganze auf und öffnest es da drin.

Sie [müssen] also eine langfristige Vision davon haben, wohin Sie wollen, aber Sie erzielen diese schnellen Erfolge frühzeitig.         

Was halten Sie von den Datentresoren? Glauben Sie, dass die dimensionale Modellierung bald die bevorzugte Technik sein wird, oder hat alles seinen Platz? 

Ich sage, dass Data Vault niemals die dimensionale Modellierung übernehmen wird. Es gibt es seit über 20 Jahren und es hat einen großartigen Anwendungsfall. Ich finde Kunden, die mit dem Datentresor viel historisches Tracking und Auditing durchführen müssen, aber es gibt nicht viele dieser Anwendungsfälle, die so etwas wie den Datentresor erfordern.

Also ich denke, es hat seinen Platz. Aber ich sehe 99 Prozent der Kunden, die dort eine Art Sternschema zusammen mit einer dritten Normalform verwenden, und vieles hängt davon ab, [ob] Sie die erforderliche Leistung in einer dritten Normalform erhalten. Wenn ich etwa einem Dutzend Tabellen beitrete, kann ich diese Leistung möglicherweise erzielen, und ich werde zu einem Sternschema wechseln. Es ist eine zusätzliche Detailebene, aber Sie haben viele Vorteile, wenn Sie diese zusätzliche Ebene darin haben.

Außerdem ist es hilfreich, wenn Sie Self-Service-BI betrachten. Wenn ich kein Sternschema habe, muss ich die Beziehung zwischen all diesen Tabellen kennen, was für einen Endbenutzer sehr schwierig sein kann. Normalerweise haben Sie eine Person im Unternehmen, die weiß, wie man alles mitmacht, und Sie verlassen sich auf diese Person.

Stattdessen erstellen Sie dieses Star-Schema und dann ist es selbstverdienendes BI. Ich könnte einfach zu einem Berichtstool gehen und einfach Felder auf das Formular ziehen und es aufbauen, ohne die Beziehungen aufgrund des Sternschemas verstehen zu müssen. Das gibt Ihnen also einen guten Grund für ein Sternschema, und ich würde sagen, dass wahrscheinlich 75 Prozent der Unternehmen, die ich sehe, ein Sternschema zusätzlich zu einer dritten Normalform verwenden werden.

Wenn wir ein wenig über die Perspektive der dimensionalen Modellierung der Datenmodellierung sprechen, welche Rolle spielen Ihrer Meinung nach Metadaten? Glauben Sie, dass ein metadatengesteuertes Framework beim Data Warehouse-Design von Vorteil sein kann? Und wenn ja, wie?   

Ich habe in letzter Zeit viel Aufwand gesehen, Datenkataloge für Kunden zu erstellen. Die Idee dahinter ist, dass sie so viele Daten sammeln und Sie eine Duplizierung von Daten vermeiden möchten.

Wir tun dies bei EY in großem Umfang, weil sie all diese Daten von Drittanbietern mitbringen. Es könnten buchstäblich Dutzende Millionen Dollar von Drittanbietern sein, und Sie möchten nicht, dass jemand eine Lizenz erhält, weil er nicht wusste, dass die Daten bereits vorhanden waren.

Erstellen wir also einen Metadatenkatalog und ein Data Discovery-Tool auf einem Marktplatz, auf den jeder Endbenutzer zugreifen kann: „Hey, ich muss etwas mit diesem speziellen Datentyp erstellen. Ich frage mich, ob wir es haben. Lass uns zum Katalog gehen und sehen, ob es da ist.“ Wir können [jetzt] sofort auf diese Daten zugreifen und Duplizierungen vermeiden.

Eine große Sache in letzter Zeit bei Kunden ist auch die Abstammung. „Ich habe diesen n-Wert von dieser Berechnung erhalten. Wie sind wir dorthin gekommen? Woher kam es da drin? Ich möchte sicherstellen, dass es richtig ist.“ Also gehen sie zurück und schauen. Die Herkunft der Metadaten ist wichtig, wenn Sie sicherstellen möchten, dass Sie ein Schema erstellen und dieses Schema auch aus Metadaten besteht.

Dies ist also eine weitere Sache, die Sie meiner Meinung nach sehen werden, wenn viele Leute nicht nur die Daten, sondern auch die Datensätze katalogisieren. Ich denke, Sie werden sehen, dass eine stärkere Integration in Datenkataloge „Hey, es ist nur [dass] es vielleicht cool genug ist, dass ich sehen kann, dass wir Kundendaten und Produktdaten haben, aber vielleicht hat jemand diesen Datensatz bereits erstellt. Vielleicht hat jemand schon einen Bericht und ein Dashboard dazu erstellt, und ich kann das schnell nutzen, anstatt das Rad neu zu erfinden.“

Metadaten sind also jetzt und ohne sie so wichtig, wenn wir diese Verbreitung von Daten haben und – in einigen Fällen – Daten in einem Data Lake haben, der keine eigenen Metadaten enthält, müssen wir [dann] erstellen dass [Metadaten]. Sie brauchen also ein solches Produkt, eine Lösung, die all dem gerecht wird und es den Leuten viel einfacher macht, die Daten zu entdecken.

Datenmodellzentrierter Ansatz

Wir leben offensichtlich im Zeitalter von Big Data. Wie hat sich Ihrer Meinung nach die Explosion der Volumenvielfalt und Geschwindigkeit auf den Datenbogen ausgewirkt?

Ja. Es ist schwieriger, weil Sie jetzt an die Größe der Daten denken müssen. Und [zum Beispiel] muss ich ein Modell erstellen, es funktioniert möglicherweise nicht, wenn ich es nicht richtig mache. Daher ist es umso wichtiger, sicherzustellen, dass das Design korrekt ist. Und auch Data Governance ist ein großer Teil davon.

[Angenommen] die Daten gelangen in ein Modell. Wie kann ich sicherstellen, dass es bereinigt ist und ich die Daten richtig zusammenfüge? Als Hauptgrund für das Scheitern von Big-Data-Warehouse-Projekten sehe ich zu wenig Zeit in der Data Governance.

Sie kommen mit einem Datensatz heraus, und Sie sagen einfach: „Großartig, ich werde diesen Datensatz verwenden“ und dann gehen Sie: „Warten Sie eine Minute! Diese Daten sind falsch.“ Wenn das Ihr erster Eindruck ist, haben Sie von vornherein das Vertrauen verloren. Sie werden nichts trauen, was Sie herausbringen, daher müssen Sie viel Zeit aufwenden, bevor Sie diese Daten validieren, um sicherzustellen, dass der Datensatz korrekt ist.

Binden Sie die Benutzer frühzeitig ein, sagen Sie ihnen, dass Sie dieses Zeug testen, und stellen Sie sicher, dass es gültig ist. Es ist eine Möglichkeit, es zu tun. Bei der Entwicklung dieser Lösungen ist es jedoch äußerst wichtig, ihr Vertrauen zu gewinnen. Stellen Sie also sicher, dass Sie genügend Zeit für die Datenverwaltung haben.

Was halten Sie von der Aussage, dass ein robustes verifiziertes Data Warehouse-Schemamodell einer insgesamt hochwertigen Data Warehouse-Architektur entspricht?

Dem würde ich zustimmen. Auch hier gilt: Wenn die Data Governance vorhanden ist, geht es um mehr als nur um Technologie, und ich habe viele Gespräche mit Kunden geführt, [wie] Sie die beste Technologie der Welt [können], aber Sie brauchen es wirklich die Leute und den Prozess an Ort und Stelle zu haben.

Wir brauchen diese Data Governance, vielleicht ein Kompetenzzentrum, Meetings, um zu entscheiden, wem die Daten gehören, und einen Überprüfungsprozess für die Datenbereinigung. Wenn wir die Daten und Data Warehouses bereinigen, bringen wir sie auch zurück ins Quellsystem – all diese Dinge müssen dort besprochen werden.

Es ist also so wichtig, die richtigen Leute und die richtigen Fähigkeiten zu haben, was sehr herausfordernd ist, besonders jetzt, da wir in letzter Zeit einen Mangel an Talenten festgestellt haben und es eine Herausforderung ist, Leute mit diesen Fähigkeiten zu finden, aber es gibt genug Beispiele dafür Dort können Sie sehen, wie die Leute ihr Unternehmen und ihre Gruppen und die Leute im Prozess für diese Art von Lösungen, die wir entwickeln, aufbauen und versuchen, diese Best Practices zu befolgen.

Sehen Sie angesichts der MPP-Technologie und der spaltenförmigen Speicherung einen Trend zur Verwendung des One-Big-Table-OBT-Modells für Berichte und Analysen zusätzlich zu einem dimensionalen Modell?

Nun, ein MPP, für diejenigen, die es vielleicht nicht wissen, das ist mehrfache parallele Verarbeitung. Die Idee ist also, dass ich Abfragen erstellen kann, deren Ausführung als SMP [Symmetric Multi-Processing] oder als typische Lösung Stunden dauern kann, und sie auf dem MPP-System ablegen, und es wird 20- bis 100-mal schneller ausgeführt dort. Dies könnte mit dritten Normalformtabellen geschehen. Mit einem Star-Schema kann es das noch besser, aber ich habe enorme Ergebnisse für viele Daten gesehen, sogar mit vielen verschiedenen Joins.

Das Gute an der MPP-Technologie ist also, dass Sie nicht bis zum Äußersten gehen müssen, um diese Daten zu denormalisieren. Meine Schlussfolgerung ist, dass Sie aus zahlreichen Gründen fast immer zum Star-Schema wechseln möchten, und die Idee, dass Sie diese große Tabelle benötigen, ist dies – mit der MPP-Technologie – in den meisten Fällen nicht der Fall.

Bei einigen Drittanbieterprodukten müssen Sie dies tun – oder im Rahmen der Abdeckung tun wir das – aufgrund von Leistungsproblemen. Aber weil die Technologie so weit fortgeschritten ist, kommt es selten vor, dass ein Kunde so lange damit beschäftigt ist, einen großen Tisch zu erstellen. Stattdessen verwenden sie das Sternschema.

Welche Rolle spielt die Automatisierung wirklich? Und welche Vorteile können Ihrer Meinung nach Unternehmen durch die Verwendung einer speziell entwickelten Lösung zur Förderung ihrer Datenmodellierungsverifizierung und anderer Prozesse sehen?

Bei mir dreht sich alles um Abkürzungen. Als ich mit Kunden sprach, war es also: „Nun, warte mal hier! Wovon Sie sprechen… Ich denke, Sie könnten hier wahrscheinlich einige Automatisierungstools und Produkte von Drittanbietern verwenden. Ja, es gibt einen zusätzlichen Aufwand, aber die Zeitersparnis und die Genauigkeit, die Sie daraus erzielen können, könnten sich lohnen, also ja, ich bin alles für diese Tools von Drittanbietern.

Natürlich gibt es Kompromisse. Sie müssen sich die Fähigkeiten aneignen, also wenn Sie sie nicht kennen, müssen Sie sie lernen. Und ist es ein Automatisierungstool, das dieses Automatisierungstool in Zukunft ständig benötigt, oder erstellt es nur den Code, den Sie aufnehmen und verwenden können? Denn wenn Sie dieses Tool immer verwenden müssen, kann es einige Herausforderungen geben.

Als Produkt baut es auf Updates seiner Funktionen auf, [die Data Warehouse-Automatisierungssoftware [muss] es auch aktualisieren, oder vielleicht können Sie nicht alle Funktionen nutzen. Da muss man sich das ziemlich genau anschauen. Aber es gibt jetzt so viele gute Tools, die den Prozess verkürzen, der die Automatisierung bereitstellt.

Vor allem in den meisten Fällen unterscheidet sich das, was Kunden bauen, nicht viel von dem, was Tausende anderer Kunden gebaut haben. Also ja, dafür gibt es ein Automatisierungstool. Es kommt sehr selten vor, dass Sie etwas so Einzigartiges oder in einem solchen Umfang erstellen, dass ein Drittanbieter-Tool nicht helfen würde.

Noch mehr, wenn Sie in einer beliebten Branche wie dem Gesundheitswesen, dem Finanzwesen, dem Bankwesen oder dem Einzelhandel tätig sind – all dies hat sehr wiederholbare Szenarien, für die Sie ein Automatisierungstool verwenden können.

Gibt es Abschiedsworte, die Sie uns hinterlassen möchten?

Ich sage immer, wenn Sie diesen Weg noch nie gegangen sind und eine echte Lösung entwickeln, holen Sie sich Experten, finden Sie einige Leute. Auch hier ist das Talent derzeit schwer zu finden, aber finden Sie zu Beginn des Prozesses ein Beratungsunternehmen oder ein Drittunternehmen, das diesen Weg schon einmal eingeschlagen hat.

Weil ich in meiner Rolle bei EY als Architekturleiter [I know] das tue, müssen Sie einige wirklich wichtige Entscheidungen früh treffen und wenn Sie später diese falschen Entscheidungen treffen, kann es Sie viel kosten Zeit und Geld.

Suchen Sie also frühzeitig nach Leuten, die Ihnen helfen können, die richtigen Entscheidungen zu treffen, denn alle Projekte, die ich gesehen habe, sind gescheitert – es könnte [wegen] einem Teil, Personen oder Prozessen sein – es ist selten, dass die Technologie schlecht war. Sie haben sich für die falsche Technologie entschieden. Sie wollten eine relationale Datenbank und versuchen, sie zum Laufen zu bringen, wo beispielsweise eine NoSQL-Lösung viel besser wäre.

Holen Sie sich also frühzeitig eine Menge Hilfe, wenn Sie diese wichtigen Entscheidungen treffen, und verstehen Sie, was auf dem Weg und in der Zukunft auf Sie zukommt, und verstehen Sie die Roadmaps vieler Produkte. Wenn Sie ein bestimmtes Produkt verwenden, stellen Sie sicher, dass Sie wissen, was in den nächsten drei bis sechs Monaten in Entwicklung ist.

Diese Projekte nehmen viel Zeit in Anspruch, und Sie möchten nicht in ein paar Monaten dabei sein, und auch andere Unternehmen sagen: „Wir haben dieses neue Produkt und eine neue Funktion“, und Sie sagen: „Oh, sollte? wissen wir davon?" und ich sage dies, weil dies eine große Rolle in meinem Job ist, sicherzustellen, dass die Leute über das informiert werden, was auf der Straße kommt.

Weil die Data Warehouse-Projekte lange Wege sind und Sie sie erst nach sechs Monaten oder einem Jahr erstellen. Es endet wirklich nie, aber viele dieser großen Entscheidungen werden früh getroffen, und Sie müssen diese Roadmap kennen, also wären dies meine Abschiedsworte.

Automatisieren des Data Warehouse-Designs mit Astera DW-Builder

Astera DW Builder ist eine automatisierte End-to-End-Data-Warehousing-Lösung, die es Unternehmen ermöglicht, blitzschnell von der Quelle zu Erkenntnissen zu gelangen. Die agile, metadatengesteuerte Plattform ermöglicht es Unternehmen, verteilte Daten in ein agiles BI-System zu integrieren und ein zentralisiertes Gateway zu schaffen, um Analysen auf Unternehmensebene durchzuführen.

Erstellen Sie ein Data Warehouse von Grund auf mit ADWB

Astera DW Builder bietet eine integrierte Zero-Code-Entwicklungsumgebung, um Ihr Data Warehouse auf einer logischen Ebene aufzubauen. Die Lösung bietet eine integrierte Entwicklungsumgebung, die alle Standardaufgaben der Datenmodellierung bis hin zur Bereitstellung Ihres Data Warehouse automatisiert. Für eine erste Testversion von Astera DW-Builder, klicken Sie hier..