Блог

Главная / Блог / Создание сложного потока данных в Centerprise - часть 1

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Создание сложного потока данных в Centerprise - часть 1

25-сентября, 2023

 

Часть 1 – Объединение преобразований и функций

Наш последний пост (Создание потока интеграции в Centerprise) описал, как создать простой поток данных в Centerprise. В этом блоге, состоящем из двух частей, мы покажем вам, как построить более сложный поток данных, включая карты, преобразования, правила качества данных и профилирование данных.

На рисунке ниже показан более сложный поток данных.

37

В этом примере мы работаем с двумя исходными файлами: один содержит информацию об ипотечных кредитах, а другой — информацию о налоге на имущество для соответствующих ипотечных кредитов. Нам нужно объединить эти две части данных и выполнить некоторые преобразования, выполнив некоторые вычисления с атрибутами. В конце концов мы хотим направить данные в две разные таблицы назначения, в зависимости от происхождения ипотечного кредита: если он из Калифорнии, они передаются в таблицу «Калифорнийские ссуды», в противном случае — в таблицу «Ссуды за пределами штата». Наряду с этим нам необходимо проверить качество данных по кредитам и еще раз по налоговым данным. Нам также необходимо профилировать налоговые данные, чтобы их можно было отправить в файл Excel и вывести в виде отчета.

Чтобы спроектировать поток данных, показанный выше, мы начинаем с нажатия кнопки «Новый поток данных», чтобы создать новый поток данных. Сначала мы смотрим на данные — как данные о кредитах, так и налоговые данные. В предыдущем блоге «Создание простых потоков данных» мы узнали, как создать источник, просто перетащив его из панели инструментов в конструктор и указав свойства. Однако существует также ярлык для непосредственного создания источников. Просто перетащите файлы Excel «Ссуды и налоги» прямо из окна проводника в дизайнер.

2

Centerprise делает все остальное. Он создал источник, знает, откуда взялся файл, и выполнил макет. При нажатии на шеврон вы можете увидеть все столбцы данных из исходного файла.

3

Нажмите на предварительный просмотр, и вы увидите все свои данные в окне предварительного просмотра.

12

Теперь сделайте то же самое с налоговым файлом. При предварительном просмотре налоговых данных вы можете увидеть информацию о налоге на имущество для каждого из кредитов.

5

Далее мы хотим объединить два источника. Для этого мы используем преобразование Join. Перетащите преобразование «Соединение» в конструктор.

6

Щелкнув по шеврону, вы увидите, что трансформация не содержит никаких элементов.

7

Мы хотим взять все элементы из источников «Ссуды» и «Налоги» и объединить их в преобразовании «Объединить». Перетащите верхний узел «Ссуды» в окно «Присоединиться». Ты это видишь Centerprise автоматически создал и сопоставил все поля.

8

Чтобы добавить два поля «Налог» в объединение, перетащите каждое поле в окно «Объединение» и Centerprise автоматически добавляет поля и сопоставляет их.

9

Обратите внимание: поскольку теперь есть два поля LoanId, Centerprise добавил значение из источника налога в LoanID_1.

Теперь у нас есть все поля, необходимые для объединения. Если мы щелкнем правой кнопкой мыши по окну «Присоединиться» и выберем «Свойства», мы увидим все поля как «Ссуды», так и «Налоги».

10

Нажмите синюю стрелку в левом верхнем углу окна, чтобы перейти на следующую страницу, где мы укажем, какой тип соединения мы хотим. Выберите простое внутреннее объединение, затем во входных полях «Сортировать по левому краю» и «Сортировать по правому» укажите ключ, который будет использоваться для объединения. Для займов это LoanID, а для налогов — LoanID_1.

11

Нажмите «ОК», и наше соединение готово. Когда мы просматриваем данные, мы видим, что для каждого из кредитов объединены информация о налоге на имущество и кредите.

12

Итак, несколькими щелчками мыши мы объединили два наших источника.

Следующий шаг — использовать наше соединение в качестве источника для преобразования и карт. Перетащите карту выражений из панели инструментов в дизайнер.

13

Это используется для вычислений и любого вида объединения данных. В этом примере мы видим, что информация о кредитах содержит имя заемщика, штат и почтовый индекс. Мы хотим объединить эти три поля в одно и назвать его «Адрес» в пункте назначения. Поскольку мы собираемся маршрутизировать данные к двум разным пунктам назначения, нашим естественным следующим шагом будет добавление маршрутизатора.

Перетащите маршрутизатор из панели инструментов в конструктор. Маршрутизатор становится следующим пунктом назначения.

14

Затем перетащите три поля, которые мы хотим объединить (имя заемщика, штат и почтовый индекс), из окна присоединения в окно выражения.

15

Затем откройте окно свойств выражения, нажмите синюю стрелку «Далее», и перед нами появится средство записи правил, которое позволяет нам писать правила любого типа. Вы можете видеть, что раскрывающееся меню функций содержит большой выбор функций, которые можно использовать для написания правил, таких как логические, преобразования, дата/время, анализ имени и адреса, математические вычисления и т. д.

17

В этом примере у нас очень простая конкатенация, поэтому мы напишем правило, начиная с имени, затем запятой, затем штата, затем пробела, затем почтового индекса, который является целым числом. Поскольку мы выполняем объединение строк, мы будем использовать функцию преобразования для преобразования почтового индекса из целого числа в строку.

18

Нажмите «ОК», и наше значение готово к выводу. Мы берем это значение и перетаскиваем его в пункт назначения. Вы можете видеть, что значение теперь находится в пункте назначения.

19

На этом этапе мы можем выполнить предварительный просмотр и посмотреть, как на самом деле будут работать наши данные. Вы можете видеть, что имя, штат и почтовый индекс были объединены так, как мы хотели: имя, запятая, штат, пробел, почтовый индекс. Вот как вы можете написать простые правила и простые вычисления для преобразования данных.

20

Далее мы хотим создать функцию. Мы начинаем с перетаскивания функции из панели инструментов в дизайнер.

21

В нашем объединении есть поле «Имя», но в нашем пункте назначения используются поля «Имя» и «Фамилия», поэтому нам нужно взять поле «Имя» и разделить его на «Имя» и «Фамилия». Для этого мы будем использовать функцию анализа имен. Нажмите на свойства функции и выберите «Разбор имени и адреса» в раскрывающемся меню. Затем выберите функцию «Разобрать имя» и нажмите «ОК».

имя_разбора

 

Когда вы развернете функцию, вы увидите, что доступен список возможных вариантов полей, связанных с именем.

23

Перетащите поле имени из окна «Объединение» в левую часть функции, чтобы создать входные данные, после чего у нас появятся параметры с правой стороны для выходных данных. Перетащите поля «Имя» и «Фамилия» из окна функции в место назначения.

24

При предварительном просмотре вы можете это увидеть Centerprise взял имена из преобразования и разделил их на имя и фамилию.

25

Вот как вы можете использовать функции и выражения. Во второй части этого блога, которая выйдет на следующей неделе, будет объяснено, как направить преобразованные нами данные в несколько пунктов назначения.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся