Die Datenherkunft ist ein wichtig Konzept in Data Governance. Es beschreibt den Weg, den Daten von ihrer Quelle zu ihrem Ziel nehmen. Das Verständnis der Datenherkunft trägt dazu bei, die Transparenz und Entscheidungsfindung für Organisationen zu verbessern, die auf Daten angewiesen sind.
In diesem umfassenden Leitfaden wird die Datenherkunft und ihre Bedeutung für Teams untersucht. Außerdem werden die Unterschiede zwischen der Datenherkunft und anderen wichtigen Begriffen der Datenverwaltung sowie allgemeine Datenherkunftstechniken behandelt.
Was ist Data Lineage?
Unter Datenherkunft versteht man den Weg der Daten vom Ursprung durch verschiedene Transformationen und Bewegungen über verschiedene Systeme, Prozesse und Umgebungen innerhalb einer Organisation. Sie bietet ein klares Verständnis davon, wie Daten erstellt, verwendet und geändert werden, und Einblicke in die Beziehungen zwischen verschiedenen Datenelementen.
Die Datenherkunft umfasst typischerweise Metadaten wie Datenquellen, Transformationen, Berechnungen und Abhängigkeiten, sodass Unternehmen die Datenfluss und stellen Sie deren Qualität, Genauigkeit und Einhaltung gesetzlicher Anforderungen sicher.
Datenherkunft vs. Datenprovenienz vs. Datenverwaltung
Datenherkunft, Datenherkunftund Daten Governance sind allesamt wichtige Konzepte im Datenmanagement, sie befassen sich jedoch mit unterschiedlichen Aspekten der Datenhandhabung.
Aspekt | Datenherkunft | Datenprovenienz | Datenverwaltung |
Definition | Data Lineage verfolgt den Datenfluss vom Ursprung zum Ziel und dokumentiert dessen Bewegung und Transformationen. | Die Datenherkunft erfasst Metadaten, die den Ursprung und die Historie der Daten beschreiben, einschließlich der Eingaben, Entitäten, Systeme und beteiligten Prozesse. | Data Governance legt Rahmenbedingungen, Richtlinien und Prozesse für die Verwaltung von Datenbeständen innerhalb einer Organisation fest. |
Setzen Sie mit Achtsamkeit | Datenfluss | Herkunft und Historie der Daten | Verwaltung und Kontrolle von Datenbeständen |
Sinn | Gewährleisten Datenqualität, Rückverfolgbarkeit und Konformität. | Verbessern Sie die Vertrauenswürdigkeit, Transparenz und Reproduzierbarkeit der Daten. | Verwalten Sie Daten konsistent, sicher und in Übereinstimmung mit Vorschriften und Organisationszielen. |
Schlüsselfrage | Woher kommen die Daten? Wie werden sie transformiert? Wo werden sie verwendet? | Wie sind die Daten entstanden? Welche Entitäten und Prozesse waren daran beteiligt? | Wer hat Zugriff auf die Daten? Wie sollten die Daten klassifiziert und geschützt werden? Welche Verfahren gibt es zur Überwachung und Behebung der Datenqualität? |
Beispiel | Verfolgung des Datenflusses von Datenbanken zu Berichten in einem Unternehmen. | Aufzeichnung der verwendeten Instrumente, der festgelegten Parameter und der während der wissenschaftlichen Forschung vorgenommenen Änderungen. | Implementieren von Richtlinien, die den Datenzugriff, die Klassifizierung, den Schutz und die Qualitätsüberwachung in einer Organisation festlegen. |
Warum ist die Datenherkunft wichtig?
Die Datenherkunft ist aus mehreren Gründen von entscheidender Bedeutung:
- Vertrauen und Zuversicht: Die Datenherkunft gewährleistet Transparenz hinsichtlich der Herkunft und Transformation der Daten und schafft Vertrauen in die Genauigkeit und Zuverlässigkeit der Daten während des gesamten Lebenszyklus.
- Einhaltung von Vorschriften: Es unterstützt Organisationen bei der Einhaltung von Vorschriften, indem es die Handhabung, Speicherung und Nutzung von Daten verfolgt, Audits erleichtert und die Einhaltung gesetzlicher Anforderungen nachweist.
- Datenqualitätsmanagement: Identifiziert und behebt Datenqualitätsprobleme durch die Rückverfolgung von Daten zu ihrer Quelle und ermöglicht Organisationen die Aufrechterhaltung einer hohen Datenintegrität und Zuverlässigkeitsstandards.
- Ursachenanalyse: Lokalisiert die Fehlerursachen, ermöglicht die Umsetzung von Präventivmaßnahmen und stellt sicher, dass datenbezogene Probleme werden wirksam angegangen an ihrer Quelle.
- Datenverwaltung: Bildet die Grundlage für die Gründung Datenmanagement Richtlinien und Verfahren. Governance stellt sicher, dass Daten verantwortungsbewusst, sicher und gemäß den Zielen und Standards der Organisation gehandhabt werden.
- Geschäftsanalytik: Stellt sicher, dass die Erkenntnisse aus BI-Tools auf genauen und relevanten Daten basieren, und stellt Entscheidungsträgern zuverlässige Informationen für die strategische Planung und Leistungsbewertung zur Verfügung.
Datenherkunft und Datenklassifizierung
Bei der Datenklassifizierung werden Daten in Kategorien basierend auf Herkunft, Vertraulichkeit, Zugriffsberechtigungen, Inhalt usw. eingeteilt. Bei der Datenherkunft geht es dagegen darum, zu verstehen, wie diese Daten verschoben, migriert und transformiert werden.
Automatisierte Datenherkunft und -klassifizierung unterstützen Unternehmen beim Risikomanagement, beim Schutz vertraulicher Daten und beim schnellen Auffinden bestimmter Informationen.
Sowohl die Datenherkunft als auch die Klassifizierung erleichtern:
- Datenortung/-suche: Durch die Klassifizierung wird die Suche nach relevanten Daten vereinfacht.
- Lebenszyklusuntersuchung: Bietet Einblicke in den gesamten Datenlebenszyklus und ermöglicht so bessere Verwaltungsentscheidungen und eine bessere Ressourcenzuweisung.
- Risikominderung: Identifiziert und mindert proaktiv die Risiken von Datenschutzverletzungen oder unbefugtem Zugriff.
So funktioniert die Datenherkunft
So funktioniert die Datenherkunft normalerweise:
- Datenerfassung: Der Prozess beginnt mit der Erfassung der Rohdaten von der Quelle. Dabei kann es sich um Daten handeln, die intern von Systemen wie Datenbanken, Anwendungen und Sensoren oder extern von Quellen wie APIs, Drittanbieter oder manuelle Eingaben.
- Metadatensammlung: Neben den Daten werden auch Metadaten wird auch gesammelt. Metadaten bestehen aus Informationen über die Daten. Diese Informationen umfassen ihre Quelle, ihr Format, ihre Struktur und alle angewendeten Transformationen. Diese Metadaten sind für das Verständnis des Kontexts und der Herkunft der Daten von entscheidender Bedeutung.
- Transformation und Verarbeitung: Sobald die Daten erfasst sind, durchlaufen sie häufig verschiedene Transformations- und Verarbeitungsschritte. Dieser Prozess kann Folgendes umfassen: Datenreinigung, Filtern, Aggregieren, Verbinden mit anderen Datensätzen oder Anwenden von Geschäftslogik, um aussagekräftige Erkenntnisse zu gewinnen. Jede Transformation verändert die Daten auf die eine oder andere Weise und die Metadaten werden aktualisiert, um diese Änderungen widerzuspiegeln.
- Abstammungsverfolgung: Während Daten durch verschiedene Systeme und Prozesse wandern, wird ihre Herkunft in jeder Phase verfolgt und aufgezeichnet. Dieser Schritt umfasst das Erfassen von Informationen darüber, woher die Daten stammen, welche Transformationen angewendet wurden und wo sie gesendet werden Weiter. Herkunftsinformationen umfassen normalerweise Zeitstempel, Dateneigentümer, Abhängigkeiten und Beziehungen zwischen verschiedenen Datensätzen.
- Visualisierung und Analyse: Informationen zur Datenherkunft wird oft visualisiert durch Diagramme oder Herkunftsdiagramme, die eine klare, grafische Darstellung des Datenflusses durch die Infrastruktur der Organisation bieten. Diese Visualisierungen helfen den Beteiligten, den End-to-End-Datenverlauf zu verstehen und Abhängigkeiten, Engpässe und potenzielle Fehlerquellen zu identifizieren.
- Daten-Governance und Compliance: Die Datenherkunft gewährleistet die Datenverwaltung und die Einhaltung gesetzlicher Vorschriften. Organisationen können gegenüber Aufsichtsbehörden und internen Stakeholdern Rechenschaftspflicht, Rückverfolgbarkeit und Datenqualitätssicherung nachweisen, indem sie einen vollständigen Prüfpfad bereitstellen für Datenbewegung und Transformationen.
- Auswirkungsanalyse und Risikomanagement: Die Datenherkunft ermöglicht es Unternehmen außerdem, Auswirkungsanalysen durchzuführen und die potenziellen Risiken zu bewerten, die mit Änderungen an Datenquellen, Prozessen oder Systemen verbunden sind. Unternehmen können fundierte Entscheidungen treffen und Risiken reduzieren proaktiv, indem Sie verstehen, wie sich Änderungen in einem Teil des Datenökosystems auf nachgelagerte Systeme oder Analysen auswirken können.
Data Lineage-Techniken
Es gibt verschiedene Ansätze zur Durchführung der Datenherkunft. Hier ist ein Überblick über diese Techniken:
Abstammung durch Datenkennzeichnung
Diese Technik versieht Datenelemente mit Metadaten, die ihre Eigenschaften, Quellen, Transformationen und Ziele beschreiben. Diese Tags vermitteln ein klares Verständnis von Wie Daten verwendet wird und transformiert, während es sich durch verschiedene Verarbeitungsphasen bewegt.
Beispiel: Ein Einzelhandelsunternehmen versieht jede Verkaufstransaktion mit Metadaten, die den Standort des Geschäfts, den Zeitstempel und Produktinformationen enthalten. Während die Daten verschiedene Analysephasen durchlaufen, z. B. die Aggregation nach Region oder Produktkategorie, wird jeder Transformationsschritt ist aufgenommen mit den entsprechenden Herkunftsmetadaten. Dadurch ist die Rückverfolgbarkeit von den Rohtransaktionsdaten bis zu den endgültigen Analyseberichten gewährleistet.
Eigenständige Linie
Bei dieser Technik werden Herkunftsinformationen direkt in die Daten selbst eingebettet. Diese Einbettung kann aus Kopf- und Fußzeilen oder eingebetteten Metadaten in der Datendatei bestehen. Die in sich geschlossene Herkunft stellt sicher, dass die Herkunftsinformationen mit den Daten übertragen werden, sodass ihre Geschichte leichter nachverfolgt und verstanden werden kann.
Beispiel: Eine Marketingabteilung pflegt eine Tabelle mit Leistungskennzahlen für Kampagnen. Die Tabelle enthält eine eigene Registerkarte „Linie“, in der jede Spalte ist kommentiert mit Angaben zur Quelle (z. B. CRM-System, Werbeplattform), Datentransformationen (z. B. Berechnungen, Filterung) und Ziel (z. B. Dashboard, Bericht). Diese in sich geschlossenen Herkunftsinformationen ermöglichen es Analysten, den Verlauf der Daten ohne externe Dokumentation zu verstehen.
Abstammung durch Parsing
Die Abstammung durch Parsing umfasst die Analyse Datenverarbeitung Pipelines oder Skripte, um die Datenherkunft abzuleiten. Diese Technik analysiert den Code oder die Konfigurationsdateien von Datentransformationen, um Datenquellen, angewendete Transformationen und endgültige Ausgaben zu identifizieren. Durch das Verständnis der Verarbeitungslogik, Abstammung kann rekonstruiert werden.
Beispiel: Ein Finanzdienstleistungsunternehmen analysiert Python-Skripte, die für Datentransformationen in seinem Risikomanagementsystem verwendet werden. Die Organisation leitet Herkunftsinformationen wie Quelltabellen, Verknüpfungsbedingungen und Zieltabellen ab, indem sie die Logik und SQL-Abfragen der Skripte analysiert. Diese analysierten Herkunftsdaten wird dann verwendet um eine grafische Darstellung des Datenflusses von Rohmarktdaten zu Risikomodellen zu generieren.
Musterbasierte Abstammung
Die Datenherkunft wird bei der musterbasierten Herkunft anhand vordefinierter Muster oder Regeln abgeleitet. Diese Muster können reguläre Ausdrücke, Datenschemata oder andere Strukturindikatoren sein, die definieren, wie Daten transformiert und weitergegeben werden. Die musterbasierte Herkunft kann die Herkunftsverfolgung automatisieren, indem sie gängige Muster bei Datentransformationen identifiziert.
Beispiel: Ein Softwareunternehmen verwendet musterbasierte Herkunftstechniken, um den Datenfluss in seinem CRM-System zu verfolgen. Durch die Identifizierung gängiger Muster in Datenimport-/-exportprozessen und Datenbankabfragen, wie „Kundendaten laden“ oder „Verkaufsberichte exportieren“, leitet das Unternehmen automatisch Herkunftsbeziehungen ab. Dieser Ansatz vereinfacht die Herkunftsverfolgung in groß angelegten CRM-Bereitstellungen mit zahlreichen Datenintegration Punkte.
Anwendungsfälle der Datenherkunft
Moderne Unternehmen suchen zunehmend nach Echtzeit-Einblicken, doch deren Gewinn hängt von einem gründlichen Verständnis der Daten und ihrer Reise durch die DatenpipelineTeams können Arbeitsabläufe mithilfe von End-to-End-Datenherkunftstools auf verschiedene Weise verbessern:
Datenmodellierung: Unternehmen müssen zugrunde liegende Datenstrukturen definieren, um verschiedene Datenelemente und ihre entsprechenden Verknüpfungen zu visualisieren. Die Datenherkunft hilft bei der Modellierung dieser Beziehungen und veranschaulicht Abhängigkeiten im gesamten Datenökosystem. Da sich Daten weiterentwickeln und neue Quellen und Integrationen entstehen, müssen Unternehmen ihre Datenmodelle entsprechend. Die Datenherkunft spiegelt diese Änderungen anhand von Datenmodelldiagrammen genau wider und hebt neue oder veraltete Verbindungen hervor. Dieser Prozess hilft Analysten und Datenwissenschaftlern, wertvolle und zeitnahe Analysen durchzuführen, indem sie Datensätze besser verstehen.
Datenmigration: Beim Übergang zu neuem Speicher oder neuer Software verwenden Unternehmen Datenmigration um Daten von einem Ort zum anderen zu verschieben. Die Datenherkunft bietet Einblicke in die Bewegung und den Fortschritt von Daten durch die Organisation, von einem Standort zum anderen und hilft bei der Planung von Systemmigrationen oder Upgrades. Außerdem können Teams Datensysteme optimieren, indem sie veraltete Daten archivieren oder löschen und so die Gesamtleistung durch Reduzierung des Datenvolumens verbessern.
Kundenbindung: Die Nichteinhaltung von Datenvorschriften kann zeitaufwändig und kostspielig sein. Die Datenherkunft ist ein Compliance-Mechanismus für Audits, Risikomanagement und die Sicherstellung der Einhaltung von Richtlinien und Vorschriften zur Datenverwaltung. Beispielsweise schützt die 2016 in Kraft getretene DSGVO-Gesetzgebung personenbezogene Daten in der EU und im EWR und gewährt Einzelpersonen mehr Datenkontrolle. Ebenso verpflichtet der California Consumer Privacy Act (CCPA) Unternehmen, Verbraucher über die Datenerfassung zu informieren. Datenherkunftstools sind für die Gewährleistung der Compliance von entscheidender Bedeutung, da sie Einblick in den Datenfluss bieten.
Einflussanalyse: Datenherkunftstools bieten Einblick in die Auswirkungen von Geschäftsänderungen, insbesondere auf nachgelagerte Berichte. Beispielsweise können Änderungen an Datenelementnamen Auswirkungen auf Dashboards und Benutzerzugriff haben. Datenherkunft bewertet auch die Auswirkungen von Datenfehlern und deren Gefährdung im gesamten Unternehmen. Durch die Rückverfolgung von Fehlern zu ihrer Quelle erleichtert Datenherkunft die Kommunikation mit relevanten Teams und stellt das Vertrauen in Business Intelligence-Berichte und Datenquellen sicher.
Datenherkunftstools
Mithilfe von Data-Lineage-Tools können Unternehmen Datenflüsse innerhalb einer Organisation verstehen und verwalten. Hier sind einige wichtige Funktionen, die häufig in Data-Lineage-Tools zu finden sind:
- Automatisierte Herkunftserkennung: Das Tool sollte die Datenherkunft über verschiedene Quellen, Systeme und Transformationen hinweg automatisch erkennen und zuordnen, um den manuellen Aufwand zu reduzieren.
- End-to-End-Herkunftsvisualisierung: Bereitstellung einer klaren, visuellen Darstellung der Datenherkunft von der Quelle bis zum Ziel, einschließlich Datenbanken, Anwendungen und Prozessen.
- Versionierung und Änderungsverfolgung: Durch die Verfolgung von Änderungen an der Datenherkunft im Laufe der Zeit können Benutzer nachvollziehen, wie sich Datenflüsse entwickelt haben und wer die Änderungen vorgenommen hat.
- Metadatenverwaltung: Erfassen und Verwalten von Metadaten verbunden mit Datenquellen, Transformationen und Herkunftsbeziehungen, um Datenverwaltung und -konformität sicherzustellen.
- Überwachung der Datenqualität: Überwachung der Datenqualität über die gesamte Datenlinie hinweg, Identifizierung von Problemen wie die Datenerfassung Inkonsistenzen, Anomalien oder Qualitätseinbußen.
- Abhängigkeitszuordnung: Identifizieren von Abhängigkeiten zwischen verschiedenen Datenelementen, Systemen und Prozessen, um Benutzern zu helfen, die Beziehungen zwischen Datenentitäten zu verstehen.
- Integration des Business-Glossars: Integration mit einem Geschäftsglossar oder ein Datenwörterbuch, um Datenelementen und Herkunftsinformationen Kontext und Bedeutung zu verleihen.
- Suche und Entdeckung: Erweiterte Suchfunktionen zum schnellen Auffinden bestimmter Datenelemente, Quellen oder Herkunftspfade in großen Datensätzen.
- Sicherheit und Zugriffskontrolle: Rollenbasierte Zugriffskontrolle (RBAC) und Verschlüsselungsmechanismen sorgen dafür einzige Autorisierte Benutzer können Datenherkunftsinformationen anzeigen und ändern.
Fazit
Die Datenherkunft ist ein wesentlicher Bestandteil einer effektiven Datenverwaltung. Von der Verbesserung der Datenqualität und Sicherstellung der Compliance bis hin zur Erleichterung strategischer Entscheidungen bietet das Verständnis der Datenherkunft Unternehmen wertvolle Einblicke in ihre Daten. Mit diesem Wissen können Datenteams Prozesse optimieren, Risiken mindern und das Potenzial ihrer Daten maximieren.
Astera ist ein End-to-End-Datenmanagementtool mit umfassenden Data-Governance-Funktionen. Es ermöglicht Geschäftsanwendern die Verwaltung und Kontrolle von Daten mit einer einfachen, codefreien Benutzeroberfläche und umfassendem Kundensupport.
Versuchen Astera jetzt mit einem kostenlosen Testversion verfügbar or nehmen Sie mit uns Kontakt auf um einen bestimmten Anwendungsfall zu besprechen.
Autoren:
- Abeeha Jaffery