Блог

Главная / Блог / Чтение и сопоставление файлов на основе синонимов в Astera Centerprise

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Чтение и отображение файлов на основе синонимов в Astera Centerprise

22-е февраля, 2024

Данные - это жизненная сила современной экономики, и любое предприятие, которое стремится получить ощутимую пользу от своих информационных активов, должно научиться управлять и максимизировать различные входные данные, поступающие в рамках их функций. Однако эта задача становится все более сложной на сегодняшнем глобализированном рынке, где большинство компаний работают в рамках разрозненных сетей, состоящих из деловых партнеров, торговых посредников, поставщиков, дочерних компаний и многих других. Эти сети часто подвергаются различным регуляторным, геополитическим и экономическим факторам, которые влияют на то, как каждая сторона готовит и представляет свои данные.

В этой среде крупные организации должны обеспечить наличие эффективных процессов для своевременного и экономичного сбора и интеграции данных из разрозненных сторонних источников. В противном случае потенциальные риски и возможности, которые могли быть раскрыты, могут быть полностью упущены.

Доступно Astera CenterpriseБлагодаря новой функции интеллектуального сопоставления клиенты могут автоматизировать обработку несоответствий данных и нарушений форматирования в своих конвейерах ETL и ELT.

В этом документе мы представим краткий обзор нескольких причин, которые затрудняют интеграцию сторонних приложений, а также подробный пример использования того, как можно использовать функцию чтения и сопоставления файлов на основе синонимов в Astera Centerprise для решения проблемы.

Управление внешними данными: преимущества и проблемы

Из The Washington Post, что использует данные о кликах и вовлеченности читателей Для улучшения рабочих процессов отдела новостей The Climate Corporation, которая использует геополитические, погодные данные и данные Интернета вещей, чтобы помочь фермерам прогнозировать и оптимизировать урожайность сельскохозяйственных культур, существует несколько примеров, демонстрирующих, как оптимизация интеграции внутренних и внешних данных создает конкурентные преимущества. К сожалению, огромный объем и разнообразие данных, генерируемых извне, могут сделать этот процесс чрезвычайно ресурсоемким.

Проблемы, с которыми приходится сталкиваться при работе с внешними данными, можно разделить на категории в зависимости от фазы жизненного цикла данных, в которой они возникают, то есть извлечения, преобразования и загрузки / интеграции. Рисунок 1 содержит неполный обзор этих проблем.

Рисунок 1: Проблемы использования внешних данных

Этап 1: извлечение или сбор внешних данных Невозможность интеграции внешних источников данных
Несколько пользователей имеют доступ к одному набору данных (дублирование данных)
Различные версии одного набора данных
Этап 2: преобразование внешних данных Несоответствие между внешними и внутренними данными
Обработка неточностей во внешних данных
Этап 3. Загрузка данных в централизованное хранилище данных. Проектирование хранилища данных для обработки структурированных и неструктурированных потоков данных

Предоставление пользовательских наборов данных бизнес-пользователям через API

Мы сосредоточимся на проблеме обработки вариаций данных, собранных из сторонних приложений, и обеспечении согласованности между внутренними и внешними данными с помощью функции чтения и сопоставления файлов на основе синонимов в Astera Centerprise.

Обеспечение согласованности данных с помощью чтения и сопоставления файлов на основе синонимов

Несогласованность синонимов макета возникает между исходными системами и структурами отчетов как в отдельных репозиториях, таких как базы данных, так и в консолидированных архитектурах, таких как хранилища данных и системы интегрированных баз данных. В последнем случае, когда несколько источников данных объединяются и объединяются для отчетности и аналитики, вероятно, будет гораздо больше вариаций в именовании и форматировании макетов входящих данных.

Одним из способов достижения согласованности макета является анализ отдельных источников, выявление и устранение всех несоответствий заголовков вручную, а затем восстановление связанных потоков данных на основе исправленных входных данных. Кроме того, согласованность данных не может быть достигнута с помощью процесса, который работает изолированно и должен основываться на всеобъемлющих стандартах, которые применяются ко всем наборам данных, поступающим в организацию. Эти проблемы будут только усиливаться по мере увеличения количества внешних источников.

Чтение и сопоставление файлов на основе синонимов обеспечивают интуитивно понятный и масштабируемый метод разрешения конфликтов имен и несоответствий, возникающих при интеграции больших объемов данных с помощью синонимов, управляемых данными. С помощью этой функции, основанной на синонимах, пользователи могут создавать настраиваемую библиотеку, которая содержит значения для текущих и альтернативных значений, которые могут отображаться в поле заголовка входной таблицы. Centerprise затем автоматически сопоставляет неправильные заголовки с правильным столбцом во время выполнения и извлекает из них данные как обычно.

Варианты исходных объектов также можно легко интегрировать в существующие потоки данных с помощью новой функции автоматического сопоставления, которая позволяет сопоставить аномальные поля с соответствующими значениями в последующих преобразованиях и целевых объектах.

Функция SmartMatch: пример использования с несколькими клиентами

Чтобы лучше понять, как эта функция работает в Astera Centerprise, давайте рассмотрим пример компании по страхованию автомобилей под названием XYZ, которая обеспечивает обработку страховых претензий для своих компаний-клиентов, а также для индивидуальных клиентов. Компания получает данные о претензиях, которые необходимо извлечь, отфильтровать, очистить и доставить в соответствующие отделы.

Остальная часть процесса состоит из анализа данных, печати соответствующих форм и отправки их заявителю. Критическим узким местом, влияющим на эффективность такой организации, является интеграция данных о претензиях, полученных от различных компаний-клиентов и клиентов, для дальнейшей обработки.

Многие из крупных клиентов по-прежнему полагаются на ручной ввод данных для сбора данных о претензиях в электронные таблицы, прежде чем отправлять их по электронной почте в страховую компанию. В результате большая часть полученной информации о политике имеет нестандартный формат, при этом соглашения об именах существенно различаются в зависимости от заявителя. В настоящее время ИТ-администраторы XYZ вынуждены устранять эти несоответствия, создавая новые конвейеры потока данных для каждого отдельного источника.

Поток данных обработки претензий для крупных клиентов - страховщики XYZ

При включенной функции SmartMatch один поток данных может использоваться для обработки нескольких файлов заявителя, несмотря на разные соглашения об именах. Для этого он просто создает синоним страховой отрасли в виде словаря файлов, который может быть реализован в рамках его проекта обработки претензий.

Словарь файлов синонимов для страховщиков XYZ

Затем они создают зацикленный рабочий процесс, который настроен на получение файлов Excel, переданных от различных заявителей, и их непрерывное выполнение через исходный поток данных.

Рабочий процесс страховщика XYZ

Когда рабочий процесс запускается, исходный объект потока данных сначала ищет точное совпадение заголовка в столбцах входящего файла Excel, как указано в исходном макете. Если его нет, то Centerprise будет искать заголовки, которые точно соответствуют альтернативным определениям, приведенным в словаре файлов синонимов выше, т.е.Годовой доход = зарплата ». Дополнительные определения создаются с помощью команды '' | '', т.е. «№ клиента = CustomerID | Customer »

SmartMatch также допускает сопоставление токенов, что означает, что могут быть установлены альтернативные определения для частичных значений, которые могут повторяться в нескольких заголовках в объекте источника ввода. Например "№ = Число | # ” Если XYZ использовал этот токен в своем словаре синонимов, то любые источники ввода, которые использовали предоставленные альтернативные соглашения об именах для значения Нет. может быть интегрирован в существующий поток данных без какой-либо ручной настройки.

Если функция SmartMatch по-прежнему не может устранить несоответствия заголовков в новых входных файлах, тогда Centerprise будет использовать компактное сопоставление строк. Это означает, что все знаки препинания и пробелы будут удалены из имен входных столбцов и затем сопоставлены с определениями в исходном макете и словаре. Например, истец может определить свои Политика действует с поле под заголовком Политика: Дата начала - как видите, это значение не соответствует ни одному из описанных выше определений. В результате компактное совпадение строк удалит двоеточие и попытается устранить нарушения.

Умный процесс подбора

SmartMatch и автоматическое сопоставление

SmartMatch также эффективен при согласовании любых нарушений, которые возникают между двумя объектами в потоке данных. Например, если один из принимающих отделов XYZ определяет определенные поля иначе, чем исходный объект, то опция автоматического сопоставления может помочь изолировать эти несоответствия. Как только они будут идентифицированы, пользователи могут добавить недостающее определение в свой словарь синонимов и обеспечить бесперебойное выполнение потока данных.

Автоматическое сопоставление показывает расхождения

Как вы можете видеть, Уровень образования поле определяется как Образование_Достигнуто в плане отдела B. Это различие в соглашениях об именах может быть отсортировано в файле словаря либо с помощью точного определения, либо определения совпадения по токену. Затем автоматическое сопоставление просто выполняется снова, и неотображенное поле будет интегрировано в поток данных.

Массив функций SmartMatch, описанный в этом блоге, может помочь организациям в любой отрасли создавать более гибкие, масштабируемые конвейеры данных, которые лучше подходят для работы с широким спектром внешних и внутренних источников. Изучите эту функцию из первых рук, загрузив пробную версию Astera Centerprise 8.0.

 

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся