Lecture et mappage de fichiers pilotés par des synonymes Astera Centerprise

By |2021-07-13T07:54:39+00:0014 janvier 2020|

Les données sont la pierre angulaire de l'économie moderne et toute entreprise cherchant à tirer une valeur tangible de ses actifs informationnels doit apprendre à gérer et à optimiser les divers intrants provenant de ses fonctions. Cependant, cette tâche est devenue de plus en plus difficile sur le marché mondialisé actuel où la plupart des entreprises opèrent au sein de réseaux dispersés comprenant des partenaires commerciaux, des revendeurs, des fournisseurs, des sociétés sœurs, etc. Ces réseaux sont souvent soumis à divers facteurs réglementaires, géopolitiques et économiques qui influent sur la manière dont chaque partie prépare et présente ses données.

Dans cet environnement, les grandes organisations doivent s'assurer de disposer de processus efficaces pour collecter et intégrer les données provenant de sources tierces disparates de manière rapide et rentable. Sinon, les risques potentiels et les opportunités qui auraient pu être découverts pourraient être complètement ratés.

Avec Astera CenterpriseGrâce à sa nouvelle fonctionnalité de correspondance intelligente, les clients peuvent automatiser le traitement des incohérences dans les données et des irrégularités de formatage dans leurs pipelines ETL et ELT.

Dans ce document, nous fournissons un aperçu rapide de quelques raisons qui rendent l’intégration d’applications tierces complexe, ainsi qu’un cas d’utilisation détaillé sur la manière dont la fonction de lecture et de mappage de fichiers gérée par un synonyme peut être utilisée dans Astera Centerprise pour relever le défi.

Gestion des données externes: avantages et défis

Du Washington Post que utilise des données sur les clics et l'engagement des lecteurs pour améliorer les flux de travail des salles de rédaction de The Climate Corporation, qui utilise des données géopolitiques, météorologiques et IoT pour aider les agriculteurs prédire et optimiser les rendements des cultures, Plusieurs exemples disponibles montrent que l'optimisation de l'intégration des données internes et externes crée des avantages concurrentiels. Malheureusement, la quantité et la variété de données générées en externe peuvent rendre ce processus extrêmement consommateur de ressources.

Les défis rencontrés dans le traitement des données externes peuvent être classés en fonction de la phase du cycle de vie des données dans laquelle ils se produisent, à savoir l'extraction, la transformation et le chargement / intégration. Figure 1 contient un aperçu non exhaustif de ces défis.

Figure 1: Défis de l'utilisation de données externes

Phase 1: Extraction ou acquisition de données externes Incapacité à intégrer des sources de données externes
Plusieurs utilisateurs ont accès au même ensemble de données (duplication de données)
Différentes versions d'un même jeu de données
Phase 2: Transformation de données externes Incohérences entre les données externes et internes
Traitement des imprécisions dans les données externes
Phase 3: Chargement de données dans un référentiel de données centralisé Conception d'un entrepôt de données pour gérer les flux de données structurés et non structurés

Servir des ensembles de données personnalisés aux utilisateurs professionnels via des API

Nous nous concentrerons sur le défi de gérer les variations dans les données collectées à partir d'applications tierces et d'assurer la cohérence entre les données internes et externes à l'aide de la fonction de lecture et de mappage de fichiers gérée par synonyme. Astera Centerprise.

Assurer la cohérence des données avec la lecture et la cartographie de fichiers basée sur des synonymes

Des incohérences de synonyme de mise en page se produisent entre les systèmes sources et les structures de rapport dans les deux référentiels uniques, tels que les bases de données, ainsi que les architectures consolidées telles que les entrepôts de données et les systèmes de bases de données fédérées. Dans ce dernier cas, où plusieurs sources de données sont rassemblées et combinées à des fins de reporting et d'analyse, il y aura probablement beaucoup plus de variations dans la dénomination et le formatage des présentations de données entrantes.

L'un des moyens de parvenir à la cohérence de la présentation consiste à analyser des sources individuelles, à identifier et à résoudre manuellement toutes les incohérences d'en-tête, puis à reconstruire les flux de données associés en fonction des entrées corrigées. En outre, la cohérence des données ne peut pas être obtenue par un processus qui fonctionne de manière isolée et doit être basé sur des normes complètes appliquées à tous les jeux de données entrant dans l'organisation. Ces problèmes ne deviendront que plus prononcés à mesure que le nombre de sources externes augmentera.

La lecture et le mappage de fichiers basés sur les synonymes offrent une méthode intuitive et évolutive de résolution des conflits de noms et des incohérences qui surviennent lors des intégrations de données à grand volume via un synonyme basé sur les données. Avec cette fonctionnalité basée sur les synonymes, les utilisateurs peuvent créer une bibliothèque personnalisée qui contient des valeurs pour les valeurs actuelles et alternatives qui peuvent apparaître dans le champ d'en-tête d'une table d'entrée. Centerprise associera ensuite automatiquement les en-têtes irréguliers à la colonne correcte au moment de l'exécution et en extraira les données comme d'habitude.

Les objets source de variantes peuvent également être facilement intégrés aux flux de données existants via une nouvelle fonctionnalité de mappage automatique qui permet de faire correspondre les champs anormaux aux valeurs correspondantes dans les transformations ultérieures et les entités cibles.

La fonctionnalité SmartMatch: un cas d'utilisation multi-client

Pour mieux comprendre le fonctionnement de la fonctionnalité dans Astera Centerprise, prenons l’exemple d’une société d’assurance automobile du nom de XYZ qui assure le traitement des réclamations d’assurance à ses sociétés clientes ainsi qu’aux clients individuels. La société reçoit les données de réclamation qui doivent être extraites, filtrées, nettoyées et livrées aux services concernés.

Le reste du processus consiste ensuite à analyser les données, à imprimer les formulaires appropriés et à les poster au demandeur. L’intégration des données de réclamation reçues de diverses sociétés clientes et clients en vue d’un traitement ultérieur est un goulot d’étranglement critique qui affecte l’efficacité de cette organisation.

Un grand nombre des clients les plus importants comptent toujours sur la saisie manuelle des données pour rassembler les données de réclamation dans des feuilles de calcul avant de les envoyer par courrier électronique à la compagnie d'assurance. En conséquence, une grande partie des informations sur les politiques reçues suivent un format non standard, les conventions de dénomination variant considérablement en fonction du demandeur. Actuellement, les administrateurs informatiques de XYZ sont contraints de résoudre ces divergences en créant de nouveaux pipelines de flux de données pour chaque source individuelle.

Flux de données de traitement des réclamations pour les grands clients - XYZ Assurers

Lorsque la fonctionnalité SmartMatch est activée, un flux de données unique peut être utilisé pour traiter plusieurs fichiers de demandeur malgré différentes conventions de dénomination. Pour ce faire, il crée simplement un synonyme de l'industrie de l'assurance en termes de dictionnaire de fichiers qui peut être implémenté dans son projet de traitement des réclamations.

Dictionnaire de fichiers de synonymes pour les assureurs XYZ

Ensuite, ils créent un flux de travail en boucle configuré pour récupérer les fichiers Excel transmis par différents demandeurs et les exécuter de manière continue dans le flux de données d'origine.

Flux de travail de l'assureur XYZ

Lorsque le flux de travail est lancé, l'objet source de flux de données recherchera d'abord une correspondance exacte en-tête dans les colonnes du fichier Excel entrant, comme spécifié dans la présentation d'origine. Si ce n'est pas trouvé, alors Centerprise recherchera les en-têtes qui correspondent exactement aux définitions alternatives fournies dans le dictionnaire de fichiers de synonymes ci-dessus, c’est-à-dire «Revenu annuel = salaire ». Des définitions supplémentaires sont créées à l’aide de la commande '' | '' - c’est-à-dire “N ° client = ID client | Client ”

SmartMatch permet également la correspondance des jetons, ce qui signifie que d'autres définitions peuvent être définies pour les valeurs partielles pouvant être répétées dans plusieurs en-têtes d'un objet source en entrée. Par exemple "N ° = Nombre | # ” Si XYZ a utilisé ce jeton dans son dictionnaire de synonymes, toutes les sources d'entrée utilisant les conventions de dénomination alternatives fournies pour la valeur Non. pourrait être intégré au flux de données existant sans aucun ajustement manuel.

Si la fonctionnalité SmartMatch ne parvient toujours pas à résoudre les incohérences d'en-tête dans les nouveaux fichiers d'entrée, Centerprise emploiera une correspondance de chaîne compacte. Cela signifie que tous les signes de ponctuation et tous les espaces seront supprimés des noms de colonne en entrée, puis comparés aux définitions de la mise en page et du dictionnaire d'origine. Par exemple, un demandeur peut définir son Politique valide depuis champ sous l'en-tête Politique: Date de début - comme vous pouvez le constater, cette valeur ne correspond à aucune des définitions décrites ci-dessus. En conséquence, la correspondance de chaîne compacte supprimera les deux points et tentera de réconcilier les irrégularités.

Processus de correspondance intelligente

SmartMatch et mappage automatique

SmartMatch est également efficace pour réconcilier les irrégularités qui se produisent entre deux objets dans un flux de données. Par exemple, si l'un des départements destinataires de XYZ définit certains champs différemment de l'objet source, l'option de mappage automatique peut aider à isoler ces divergences. Une fois ceux-ci identifiés, les utilisateurs peuvent ajouter la définition manquante à leur dictionnaire de synonymes et assurer une exécution ininterrompue du flux de données.

Le mappage automatique montre des écarts

Comme vous pouvez le voir, la Niveau d'éducation le champ est défini comme Education_développé dans la disposition du département B. Cette différence dans les conventions de dénomination peut être résolue dans le fichier de dictionnaire à l'aide d'une définition de correspondance exacte ou de correspondance de jeton. Le mappage automatique est alors simplement effectué à nouveau et le champ non mappé sera intégré au flux de données.

La gamme de fonctionnalités SmartMatch décrites dans ce blog peut aider les organisations de tous les secteurs à créer des pipelines de données plus adaptables et évolutifs, mieux conçus pour gérer une grande variété de sources externes et internes. Découvrez cette fonctionnalité de première main en téléchargeant la version d'essai de Astera Centerprise 8.0.