Blogs

Home / Blogs / Synonymgesteuertes Lesen und Zuordnen von Dateien in Astera Centerprise

Inhaltsverzeichnis
Die automatisierte, Kein Code Datenstapel

Erfahren Sie, wie Astera Data Stack kann die Datenverwaltung Ihres Unternehmens vereinfachen und rationalisieren.

Synonymgesteuertes Lesen und Mappen von Dateien Astera Centerprise

22. Februar 2024

Daten sind das Lebenselixier der modernen Wirtschaft, und jedes Unternehmen, das einen greifbaren Nutzen aus seinen Informationsressourcen ziehen möchte, muss lernen, wie die verschiedenen Eingaben in seinen Funktionen verwaltet und maximiert werden. Diese Aufgabe ist jedoch im heutigen globalisierten Markt, in dem die meisten Unternehmen in verteilten Netzwerken tätig sind, die aus Geschäftspartnern, Wiederverkäufern, Lieferanten, Schwesterunternehmen und vielem mehr bestehen, zunehmend schwieriger geworden. Diese Netzwerke sind häufig unterschiedlichen regulatorischen, geopolitischen und wirtschaftlichen Faktoren ausgesetzt, die sich auf die Art und Weise auswirken, wie jede Partei ihre Daten aufbereitet und präsentiert.

In diesem Umfeld müssen große Unternehmen sicherstellen, dass effektive Prozesse vorhanden sind, um Daten aus verschiedenen Quellen von Drittanbietern zeitnah und kostengünstig zu erfassen und zu integrieren. Andernfalls werden potenzielle Risiken und Chancen, die möglicherweise aufgedeckt wurden, möglicherweise verpasst.

Mit der Astera CenterpriseMit der neuen Smart Match-Funktion können Kunden automatisieren, wie Dateninkonsistenzen und Formatierungsunregelmäßigkeiten in ihren ETL- und ELT-Pipelines behandelt werden.

In diesem Dokument geben wir einen schnellen Überblick über einige Gründe, die die Anwendungsintegration von Drittanbietern komplex machen, sowie einen detaillierten Anwendungsfall, wie die synonymgesteuerte Funktion zum Lesen und Zuordnen von Dateien verwendet werden kann Astera Centerprise sich der Herausforderung zu stellen.

Externe Daten verwalten: Vorteile und Herausforderungen

Aus der Washington Post Verwendet Daten über die Klicks und das Engagement der Leser Zur Verbesserung der Arbeitsabläufe in der Redaktion von The Climate Corporation, die geopolitische, Wetter- und IoT-Daten verwendet, um Landwirten bei der Vorhersage und Optimierung von Ernteerträgen zu helfen, stehen mehrere Beispiele zur Verfügung, die zeigen, wie die Optimierung der internen und externen Datenintegration Wettbewerbsvorteile schafft. Leider kann dies aufgrund der enormen Menge und Vielfalt der extern generierten Daten zu einem äußerst ressourcenintensiven Prozess werden.

Die Herausforderungen im Umgang mit externen Daten können anhand der Phase des Datenlebenszyklus, in der sie auftreten, dh Extrahieren, Transformieren und Laden / Integrieren, kategorisiert werden. Figure 1 enthält einen nicht erschöpfenden Überblick über diese Herausforderungen.

Abbildung 1: Herausforderungen bei der Verwendung externer Daten

Phase 1: Extraktion oder Erfassung externer Daten Unfähigkeit, externe Datenquellen zu integrieren
Mehrere Benutzer haben Zugriff auf denselben Datensatz (Datenvervielfältigung)
Verschiedene Versionen eines einzelnen Datensatzes
Phase 2: Externe Daten transformieren Inkonsistenzen zwischen externen und internen Daten
Umgang mit Ungenauigkeiten in externen Daten
Phase 3: Laden von Daten in ein zentrales Datenrepository Entwerfen eines Data Warehouse für strukturierte und unstrukturierte Datenströme

Bereitstellung benutzerdefinierter Datensätze für Geschäftsbenutzer über APIs

Wir werden uns auf die Herausforderung konzentrieren, mit Abweichungen bei Daten aus Drittanbieteranwendungen umzugehen und die Konsistenz zwischen internen und externen Daten mithilfe der synonymgesteuerten Funktion zum Lesen und Zuordnen von Dateien in zu gewährleisten Astera Centerprise.

Datenkonsistenz durch synonymgesteuertes Lesen und Zuordnen von Dateien

Inkonsistenzen zwischen Layoutsystemen und Berichtsstrukturen treten sowohl in einzelnen Repositorys wie Datenbanken als auch in konsolidierten Architekturen wie Data Warehouses und Verbunddatenbanksystemen auf. Im letzteren Fall, in dem mehrere Datenquellen für Berichte und Analysen zusammengeführt und kombiniert werden, gibt es wahrscheinlich weitaus mehr Unterschiede bei der Benennung und Formatierung eingehender Datenlayouts.

Eine der Möglichkeiten, um Layoutkonsistenz zu erzielen, besteht darin, einzelne Quellen zu analysieren, alle Kopfzeileninkonsistenzen manuell zu identifizieren und zu beheben und dann die zugehörigen Datenflüsse basierend auf korrigierten Eingaben neu zu erstellen. Darüber hinaus kann Datenkonsistenz nicht durch einen Prozess erreicht werden, der isoliert arbeitet und auf umfassenden Standards basieren muss, die auf alle in der Organisation eingehenden Datasets angewendet werden. Diese Probleme werden sich mit zunehmender Anzahl externer Quellen weiter verschärfen.

Das synonymgesteuerte Lesen und Mapping von Dateien bietet eine intuitive und skalierbare Methode zum Auflösen von Namenskonflikten und Inkonsistenzen, die bei der Datenintegration mit hohem Volumen durch datengesteuerte Synonyme auftreten. Mit dieser synonymgesteuerten Funktion können Benutzer eine benutzerdefinierte Bibliothek erstellen, die Werte für aktuelle und alternative Werte enthält, die im Kopfzeilenfeld einer Eingabetabelle angezeigt werden können. Centerprise Anschließend werden unregelmäßige Überschriften zur Laufzeit automatisch mit der richtigen Spalte abgeglichen und die Daten wie gewohnt daraus extrahiert.

Variantenquellobjekte können auch einfach in vorhandene Datenflüsse integriert werden, indem eine neue automatische Zuordnungsfunktion verwendet wird, mit der anomale Felder in nachfolgenden Transformationen und Zielentitäten mit entsprechenden Werten abgeglichen werden können.

Die SmartMatch-Funktion: Ein Anwendungsfall für mehrere Clients

Zum besseren Verständnis der Funktionsweise der Funktion Astera CenterpriseBetrachten wir das Beispiel einer Kfz-Versicherungsgesellschaft mit dem Namen XYZ, die die Bearbeitung von Versicherungsansprüchen für ihre Kundenunternehmen sowie für einzelne Kunden bereitstellt. Das Unternehmen erhält Forderungsdaten, die extrahiert, gefiltert, bereinigt und an die betroffenen Abteilungen geliefert werden müssen.

Der Rest des Prozesses umfasst dann das Analysieren der Daten, das Drucken der entsprechenden Formulare und das Versenden an den Antragsteller. Ein kritischer Engpass, der sich auf die Effizienz eines solchen Unternehmens auswirkt, ist die Integration von Schadensdaten, die von verschiedenen Kundenunternehmen und Kunden zur weiteren Verarbeitung eingehen.

Viele der größeren Kunden verlassen sich immer noch auf die manuelle Dateneingabe, um Schadensdaten in Tabellen zu erfassen, bevor sie per E-Mail an die Versicherungsgesellschaft gesendet werden. Infolgedessen folgt ein Großteil der erhaltenen Richtlinieninformationen einem nicht standardmäßigen Format, wobei die Namenskonventionen je nach Antragsteller erheblich variieren. Derzeit sind die IT-Administratoren von XYZ gezwungen, diese Diskrepanzen zu beheben, indem für jede einzelne Quelle neue Datenfluss-Pipelines erstellt werden.

Datenfluss für die Schadenbearbeitung für Großkunden - XYZ-Versicherer

Wenn die SmartMatch-Funktionalität aktiviert ist, kann ein einziger Datenfluss verwendet werden, um trotz unterschiedlicher Namenskonventionen mehrere Antragstellerdateien zu verarbeiten. Zu diesem Zweck wird lediglich ein Synonym für die Versicherungsbranche in Bezug auf das Dateiwörterbuch erstellt, das im gesamten Schadenbearbeitungsprojekt implementiert werden kann.

Synonym File Dictionary für XYZ-Versicherer

Als Nächstes erstellen sie einen geschleiften Workflow, der Excel-Dateien, die von verschiedenen Antragstellern übermittelt wurden, aufnimmt und kontinuierlich durch den ursprünglichen Datenfluss führt.

XYZ-Versicherer-Workflow

Wenn der Workflow gestartet wird, sucht das Datenfluss-Quellobjekt zunächst in den eingehenden Excel-Dateispalten nach einer genauen Überschriftenübereinstimmung, wie im ursprünglichen Layout angegeben. Wenn dies nicht gefunden wird, dann Centerprise sucht nach Überschriften, die genau mit den alternativen Definitionen im Synonymwörterbuch oben übereinstimmen, z.Jahreseinkommen = Gehalt “. Zusätzliche Definitionen werden mit dem Befehl '' | '' erstellt.Kundennummer = KundenID | Kunde ”

SmartMatch ermöglicht auch den Token-Abgleich. Dies bedeutet, dass alternative Definitionen für Teilwerte eingerichtet werden können, die in einem Eingabequellenobjekt über mehrere Header hinweg wiederholt werden können. Beispielsweise "Nr. = Nummer | # ” Wenn XYZ dieses Token in seinem Synonymwörterbuch verwendet hat, dann alle Eingabequellen, die die angegebenen alternativen Namenskonventionen für den Wert verwendet haben Nein. könnte ohne manuelle Anpassung in den bestehenden Datenfluss integriert werden.

Wenn die SmartMatch-Funktion immer noch keine Headerinkonsistenzen in neuen Eingabedateien beheben kann, dann Centerprise wird kompakte String-Matching verwenden. Dies bedeutet, dass alle Satzzeichen und Leerzeichen aus den Namen der Eingabespalten entfernt und dann mit den Definitionen im ursprünglichen Layout und Wörterbuch abgeglichen werden. Zum Beispiel kann ein Antragsteller seine definieren Richtlinie gültig seit Feld unter der Überschrift Richtlinie: Startdatum - Wie Sie sehen, entspricht dieser Wert keiner der oben beschriebenen Definitionen. Infolgedessen wird durch die Kompaktzeichenfolgenübereinstimmung der Doppelpunkt entfernt und versucht, die Unregelmäßigkeiten auszugleichen.

Smart Matching-Prozess

SmartMatch und Auto-Mapping

Mit SmartMatch können auch Unregelmäßigkeiten zwischen zwei Objekten in einem Datenfluss ausgeglichen werden. Wenn beispielsweise eine der empfangenden Abteilungen von XYZ bestimmte Felder anders als das Quellobjekt definiert, kann die automatische Zuordnungsoption dazu beitragen, diese Abweichungen einzugrenzen. Sobald diese identifiziert sind, können Benutzer die fehlende Definition zu ihrem Synonymwörterbuch hinzufügen und eine unterbrechungsfreie Ausführung des Datenflusses sicherstellen.

Auto-Mapping zeigt Diskrepanzen

Wie Sie sehen können, die Bildungsniveau Feld ist definiert als Bildung_erreicht im Layout der Abteilung B. Dieser Unterschied in den Namenskonventionen kann in der Wörterbuchdatei entweder durch eine genaue oder eine Token-Match-Definition aussortiert werden. Die automatische Zuordnung wird dann einfach erneut durchgeführt und das nicht zugeordnete Feld wird in den Datenfluss integriert.

Mit den in diesem Blog beschriebenen SmartMatch-Funktionen können Unternehmen in jeder Branche anpassungsfähigere, skalierbarere Datenpipelines erstellen, die besser für eine Vielzahl externer und interner Quellen ausgelegt sind. Entdecken Sie diese Funktion aus erster Hand, indem Sie die Testversion von herunterladen Astera Centerprise 8.0.

 

Sie können auch mögen
Was ist ein Datenkatalog? Funktionen, Best Practices und Vorteile
Sternschema Vs. Snowflake-Schema: 4 Hauptunterschiede
So laden Sie Daten von AWS S3 in Snowflake
In Anbetracht Astera Für Ihre Datenverwaltungsanforderungen?

Stellen Sie eine codefreie Konnektivität mit Ihren Unternehmensanwendungen, Datenbanken und Cloud-Anwendungen her, um alle Ihre Daten zu integrieren.

Lassen Sie uns jetzt eine Verbindung herstellen!
Lass uns verbinden