Haben Sie es satt, in Ihrem Data Warehouse mit redundanten Daten umzugehen? Laden Sie Daten mithilfe von Change Data Capture inkrementell, um Ihr Data Warehouse schnell zu füllen, ohne sich Gedanken über redundante oder ungenaue Daten machen zu müssen.
Vorbei sind die Zeiten, in denen es sich Unternehmen leisten konnten, ihre Daten am Ende jeder Woche oder sogar jeden Monat zu analysieren. Die sich schnell entwickelnde Geschäftslandschaft von heute macht es für Unternehmen erforderlich, Data Warehouses zu verwenden, um ihre Daten nahezu in Echtzeit zu verarbeiten und abzufragen, um schnelle Erkenntnisse zu gewinnen und schnelle Geschäftsentscheidungen zu treffen.
Die Notwendigkeit einer kürzeren Zeit bis zur Einsicht bedeutet, dass Daten oft direkt von Transaktionssystemen erfasst werden müssen, sobald sie empfangen werden. Das Verschieben ganzer Datenbanken jedes Mal, wenn Sie eine Analyse Ihrer Daten durchführen müssen, kommt jedoch nicht in Frage. Dies liegt daran, dass das Kopieren aller Ihrer Daten für jede Abfrage ressourcenintensiv sein und unnötige Verzögerungen verursachen kann, insbesondere wenn Ihre Datenbank Millionen von Datensätzen umfasst.
Wenn Sie Daten schnell verarbeiten müssen, ist es wichtig, nur neue oder geänderte Daten in Ihr Data Warehouse zu kopieren oder zu migrieren. Die Change Data Capture (CDC)-Technologie kann Ihnen dabei helfen, indem sie Änderungen an Ihrem Quelldatensatz identifiziert, diese Änderungen in temporären Änderungstabellen erfasst und sie zur Berichterstellung und Analyse an das Data Warehouse übermittelt.
Warum können Daten im Quellsystem nicht analysiert und abgefragt werden?
Es ist aus mehreren Gründen wichtig, Daten zu replizieren, bevor Sie sie analysieren oder abfragen.
Daten werden häufig zunächst in Transaktionsdatenbanken gespeichert. Da diese Datenbanken operativer Natur sind und nicht speziell für analytische Zwecke erstellt wurden, kann es insbesondere bei großen Datenmengen sehr lange dauern, Daten direkt darauf abzufragen.
Darüber hinaus sind diese Betriebsdatenbanken auch regelmäßig im Einsatz, sodass Abfragen oder Analysen direkt in der Quelltabelle zu Problemen im Datenfluss führen können. Falls die Daten in diesen Datenbanken direkt an der Quelle transformiert oder manipuliert werden, gibt es wahrscheinlich keine Möglichkeit, auf die ursprüngliche Version der Daten zurückzugreifen. Das Durchführen einer Analyse in der Quelltransaktionsdatenbank, während neue Daten in diese Datenbanken eingegeben werden, kann ebenfalls zu Störungen führen und möglicherweise die Qualität der zu extrahierenden Erkenntnisse beeinträchtigen.
Durch die Replikation der Daten aus Transaktionsdatenbanken in analytische Datenbanken können Sie sowohl die Zeit bis zur Wertschöpfung verkürzen, indem Sie die Daten in einem System verarbeiten, das für komplexe Abfragen bestimmt ist, und die Originalität der Quelldaten erhalten. Change Data Capture erleichtert außerdem die schnelle und bequeme Datenverarbeitung, indem nur die Daten repliziert werden, die noch nicht in der Zieldatenbank vorhanden sind.
Wenn Sie CDC verwenden, müssen Sie auch nicht warten, bis eine erhebliche Menge neuer Daten in Ihrer Quelldatenbank vorhanden ist, da die Daten nicht stapelweise übertragen werden. Stattdessen können Sie Ihre Datenpipelines erstellen, planen und orchestrieren, um sicherzustellen, dass nur neue oder geänderte Daten von der Quelle zum Ziel migriert werden, sobald die Änderung erfolgt, wodurch der gesamte Migrationsprozess erheblich beschleunigt wird.
Wie Change Data Capture Ihre Analysen rationalisiert
Angenommen, Ihr multinationales Unternehmen hat mit Tausenden von Kunden an mehreren geografischen Standorten zu tun. Wenn Ihr Netzwerk so groß ist, müssen Sie auf jeden Fall eine Datenbank mit den Kontaktinformationen all dieser Kunden pflegen und ihre Informationen in einem zentralen Repository für einen einfachen Zugriff speichern. Die kleinste Änderung der Informationen auch nur eines einzelnen dieser Clients muss an Ihr Data Warehouse weitergegeben werden, um sicherzustellen, dass es weiterhin als Single Source of Truth dient.
Das Kopieren der Daten von Tausenden von Clients, nur um eine Änderung in einem Datensatz zu propagieren, ist äußerst ressourcenintensiv und kann zu unnötigen Verzögerungen bei der Analyse führen. Mit Change Data Capture können Sie sicherstellen, dass nur die neuen Informationen von der Quelldatenbank in das Data Warehouse verschoben werden, sodass Ihre Erkenntnisse auf genauen und aktualisierten Daten basieren.
Einer der größten Vorteile der Verwendung von CDC zum Identifizieren, Erfassen und Bereitstellen von Änderungen von Ihren Quellsystemen an Ihr Data Warehouse oder Ihre analytischen Datenbanken ist die Ressourceneffizienz des gesamten Prozesses. Es erspart Ihnen die regelmäßige Ausführung von Abfragen mit hoher Auslastung. Für Ihr Unternehmen bedeutet dies direkt kürzere Ladezeiten und schnellere Einblicke für eine bessere Entscheidungsfindung.
Mit Change Data Capture können Sie außerdem skalieren, ohne sich Gedanken über mangelnde Datenintegrität oder -vollständigkeit machen zu müssen, da CDC dafür sorgt, dass Ihr zentrales Repository ohne Verzögerungen immer mit den richtigen Daten gefüllt wird.
Die Verwendung von CDC stellt außerdem sicher, dass Ihre Ressourcen zu bestimmten Tages- oder Wochenzeiten nicht verstopft sind, denn anstatt Daten in großen Batches in Ihr Data Warehouse zu laden und große Datenmengen auf einmal abzufragen, können Sie dies jederzeit tun Ist angekommen. Da der Prozess nicht allzu viele Ressourcen erfordert, können Sie auch Kosten für bestimmte Hardware sparen, um den Datenladeprozess am Laufen zu halten.
Arten von CDC
Es gibt verschiedene Möglichkeiten, CDC in Ihrem Data Warehouse zu implementieren. Schauen wir uns jeden von ihnen genauer an:
Protokollbasierte Änderungsdatenerfassung
Die protokollbasierte Änderungsdatenerfassung ist eine zuverlässige Methode, um sicherzustellen, dass Änderungen innerhalb des Quellsystems an das Data Warehouse übertragen werden. Beim protokollbasierten CDC wird ein Transaktionsprotokoll erstellt, in dem jede Änderung einschließlich Einfügungen, Löschungen und Änderungen an den bereits im Quellsystem vorhandenen Daten aufgezeichnet wird. Die Daten an der Quelle werden dann mit den Daten im Transaktionsprotokoll verglichen, um festzustellen, ob Änderungen vorhanden sind, die an das Data Warehouse weitergegeben werden müssen.
Die in dieser Art von CDC erstellten Protokolle stellen außerdem sicher, dass normale Transaktionen innerhalb des Quellsystems nicht durch die kontinuierliche Verarbeitung der Daten direkt an der Quelle beeinträchtigt werden. Dieser Prozess reduziert die Latenz und kann Ihnen helfen, ein zentralisiertes Repository zu erstellen, ohne Ihre Systeme mit zusätzlicher Verarbeitung zu überlasten, um mit Transaktionsänderungen Schritt zu halten.
Triggerbasierte Änderungsdatenerfassung
Bei dieser Art der Änderungsdatenerfassung werden spezielle Funktionen erstellt, um Änderungen zu erfassen, wenn sie in der Quelldatenbank auftreten. Beispielsweise erfasst ein AFTER DELETE SQL-Trigger die Instanz Ihrer Datenbank nachdem ein Datensatz gelöscht wurde.
Bei der Verwendung von triggerbasiertem CDC erstellt Ihre Datenbank eine weitere Tabelle, um die Änderungen aufzuzeichnen, zusätzlich zum Verwalten eines Transaktionsprotokolls. Dies kann nicht nur die Latenz erhöhen, sondern auch das Risiko erhöhen, einige Änderungen zu verpassen, falls Trigger für bestimmte Szenarien nicht richtig definiert sind oder wenn Trigger versehentlich ausgeschaltet werden.
Die Pflege eines zusätzlichen Satzes von triggerbasierten Änderungen belastet die Architektur zusätzlich und kann viele Ressourcen verbrauchen, falls Sie mit sehr großen Datenmengen arbeiten oder Änderungen an mehreren Tabellen gleichzeitig aufzeichnen.
Da dies in der Regel bei großen Organisationen der Fall ist, müssen Sie möglicherweise triggerbasiertes CDC testen, indem Sie einige Änderungen an einer kleineren Datenbank vornehmen und prüfen, ob die Latenz und Last etwas sind, mit dem Sie langfristig arbeiten können. Allerdings ist triggerbasiertes CDC besonders nützlich in ereignisbasierten Architekturen, bei denen Sie das Data Warehouse unbedingt aktualisieren müssen, wenn bestimmte Änderungen an der Quelldatenbank vorgenommen werden.
Anbieterbasierte Änderungsdatenerfassung
Für die anbieterbasierte Änderungsdatenerfassung werden von Datenbankanbietern Skripte bereitgestellt, um ein oder mehrere Felder einer Datenbanktabelle zu überwachen. Diese Skripte können dann alle Änderungen an der Tabelle erkennen und aufzeichnen. Wie beim triggerbasierten CDC beinhaltet auch das anbieterbasierte Change Data Capture das Abrufen von Daten aus der Quelldatenbank, wenn Änderungen vorgenommen werden, wodurch das System zusätzlich belastet wird.
Optimieren Sie Ihre Analytics-Architektur mit Change Data Capture
Die Erfassung von Änderungen in Ihren Quellsystemen und deren Weitergabe an Ihr Data Warehouse ist unerlässlich, um sicherzustellen, dass Sie schnelle und genaue Erkenntnisse gewinnen können. Mit Astera Mit der integrierten CDC-Komponente von DW Builder können Sie ausgeklügelte Datenpipelines erstellen und alle neuen und geänderten Daten in Ihr Data Warehouse kopieren, ohne eine einzige Codezeile eingeben zu müssen.
Astera DW Builder wird mit Hunderten von integrierten Transformationen geliefert, um den Wert, den Sie aus Ihren Daten extrahieren können, zu maximieren. Automatisieren Sie Ihre Datenpipelines und nutzen Sie integrierte Funktionen wie Change Data Capture, um sicherzustellen, dass Ihr Data Warehouse ohne manuelle Eingriffe immer auf dem neuesten Stand ist.
Sind Sie bereit, ein selbstregulierendes Data Warehouse aufzubauen, das aktuelle Daten nahezu in Echtzeit an Ihre BI- und Berichtsarchitektur liefert? Kontaktieren Sie uns, um Ihren Anwendungsfall zu besprechen oder nehmen Astera DW Builder heute zur Probefahrt!
Autoren:
- Afnan Rehan