Блог

Главная / Блог / Компоненты архитектуры хранилища данных на основе метаданных

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Составные части архитектуры хранилища данных на основе метаданных

25-сентября, 2023

Давайте посмотрим правде в глаза: построение архитектуры хранилища данных, отвечающей всем вашим потребностям, требует тщательного планирования и опыта. Современная архитектура хранилища данных должна точно интегрировать данные операционной системы с правильным форматированием и соглашениями об именах, она должна быть достаточно гибкой, чтобы адаптироваться к изменениям в структуре этих базовых источников, и должна обеспечивать оптимизированную производительность для поддержки своевременной отчетности.

In Astera Построитель хранилища данных (ADWB), инструмент хранилища данных, мы предоставляем решение без кода, которое обеспечивает масштабируемость, скорость и гибкость разработки хранилища данных. Из конструктора единой модели данных вы можете получить доступ к ряду расширенных функций, которые значительно экономят время и средства, необходимые для проектирования, настройки и развертывания вашей архитектуры BI. Давайте посмотрим, как объединяются эти компоненты архитектуры корпоративного хранилища данных:

Контролируйте комплексную разработку хранилища данных

Разработка хранилищ данных в Astera Д.В. Строитель

Разработка хранилищ данных

 

Благодаря конструктору модели данных хранилища данных ADWB предоставляет унифицированный интерфейс, в котором данные исходной системы можно импортировать, согласовать со схемой назначения, денормализовать и в дальнейшем подготовить к миграции в габаритная модель который оптимизирован для отчетности и аналитики. ADWB облегчает этот процесс интеграции посредством функций обратного и прямого проектирования.

Создайте расширенные модели данных хранилища данных для ваших исходных систем

Наша функция реверс-инжиниринга берет схему исходной базы данных и реплицирует ее в форме модели сущностей-связей. Эта модель показывает логическую структуру базовой базы данных и дает возможность дополнить эту схему несколькими способами, чтобы облегчить загрузку в хранилище данных.

ADWB предлагает интеграцию с рядом ведущих баз данных, включая SQL Server и Oracle Database, а также с поставщиками облачных услуг, такими как Amazon и Microsoft Azure. Вы также можете импортировать модели данных непосредственно из программного обеспечения для моделирования, такого как Erwin Data Modeler, используя тот же метод.

После импорта объектов базы данных пользователи могут начать нормализовать таблицы на основе отношений общего ключа или установить отношения внутри модели, если они не идентифицируются автоматически в процессе обратного проектирования.

Они также могут редактировать отдельные таблицы, чтобы обеспечить отражение соответствующих полей и соглашений об именах в хранилище данных.

Разработайте и настройте схему хранилища данных, соответствующую вашим требованиям к отчетности

С помощью ADWB вы можете создать многомерную модель, используя предпочитаемую вами технику: от схем «звезда» и «снежинка» до хранилищ данных и хранилищ операционных данных — наша платформа позволяет все это. Опять же, наш конструктор моделей данных позволяет пользователям управлять всеми этими задачами на логическом уровне, не углубляясь в какой-либо код самостоятельно.

Если у предприятия есть существующая база данных, используемая для хранения данных, они могут выполнить ее реконструирование и начать моделирование или построить схему с нуля, используя таблицы перетаскивания в конструкторе модели данных.

При любом подходе основной процесс остается тем же. После того как вы настроили все объекты в своей схеме и убедились, что отношения между ними установлены правильно, вы определяете их как факты или измерения. Мы также включили специальную сущность измерения даты, чтобы вы могли группировать бизнес-показатели по наиболее подходящему периоду времени. От финансовых кварталов до курортных сезонов — мы предоставим вам все необходимое.

Затем суррогатные ключи (уникально идентифицирующие каждую версию записей) и бизнес-ключи (идентифицирующее значение, присвоенное в транзакционных системах на основе внутренней бизнес-логики) будут назначены соответствующим полям в построителе макетов для каждой сущности.

Вы также можете настроить форматирование данных, указать, являются ли определенные поля обязательными или нет, и решить, какие значения по умолчанию будут отображаться, если значение для определенного атрибута не отображается. Бизнес-показатель появился в вашей таблице фактов без связанного с ним измерения? Нет проблем — просто установите размер-заполнитель в соответствующей сущности, чтобы всегда поддерживать ссылочную целостность.

Опять же, все эти изменения на уровне метаданных повлияют на настройку архитектуры хранилища данных после развертывания.

Автоматически отслеживать изменения в исходных системных данных

Одним из основных аспектов обслуживания хранилища данных является постоянная обработка обновлений, удалений и дополнений в таблицах исходной системы. В конце концов, современные EDW созданы для предоставления как текущего, так и исторического представления данных организации. В DWB мы автоматизируем эти процессы посредством медленного изменения типов измерений. Он поддерживает несколько Методы обращения с SCD, включая SCD типа 1, типа 2, типа 3 и типа 6.

Медленное изменение типов размеров

Медленное изменение типов размеров

В конструкторе макетов пользователи могут выбрать наиболее эффективный тип медленно меняющегося измерения (SCD) для каждого поля измерения.

Легко распространяйте изменения из модели данных в ваше хранилище данных.

Теперь, когда схема хранилища данных настроена на уровне метаданных, вам просто нужно убедиться, что ваша база данных готова к заполнению. Это делается с помощью функции прямого проектирования, которая применяет все структурные изменения, внесенные в многомерную модель, к вашей физической базе данных.

В дальнейшем вы можете использовать эту опцию для быстрого распространения изменений из вашей модели данных в целевую базу данных.

Проверьте и разверните свою модель данных за несколько кликов

После настройки модели данных вы готовы к развертыванию. Но сначала вам нужно проверить целостность вашей модели данных с помощью нашего удобного инструмента проверки данных и избежать многочасового устранения неполадок вручную.

Наш инструмент выполняет тщательную проверку данных, чтобы сократить количество повторяющихся задач, выделяя любые ошибки в вашей модели данных перед переходом к следующему этапу производства. Используя эту функцию, вы можете выявить и исправить потенциальные проблемы с первого прохода — от незаполненных полей до ссылочных ошибок.

Радикальное ускорение загрузки хранилища данных

В ADWB все ETL в хранилище данных обрабатываются специальными объектами загрузки фактов и измерений. Теперь вместо создания сложных потоков данных вы можете выбрать один исходный объект или несколько таблиц из исходной модели данных (несколько таблиц можно выбрать с помощью объекта «Запрос модели данных» в потоке данных) и сопоставить их с загрузчиком. Затем просто направьте загрузчик на соответствующую таблицу фактов или измерений в развернутой многомерной модели, и ваше сопоставление будет завершено.

Если вам нужно применить дополнительные агрегаты, фильтры или правила проверки к фактам или данным измерения, вам просто нужно перетащить желаемое преобразование из набора инструментов и настроить его в этом потоке данных.

После завершения сопоставления источника с хранилищем данных ADWB выполнит потоки. Данные берутся из источника и обрабатываются посредством необходимых преобразований перед загрузкой в ​​соответствующие таблицы хранилища. Здесь будут назначены соответствующие суррогатные и бизнес-ключи, а поиск будет выполняться, как определено на этапе моделирования. В ADWB мы добавили специальное преобразование поиска измерений, которое автоматически сопоставляет каждый бизнес-ключ с соответствующей таблицей SCD и сопоставляет его с соответствующим суррогатным ключом.

При использовании решения для хранения метаданных вам нужно только создать исходный поток данных. Весь код, используемый для заполнения хранилища данных, автоматически генерируется нашей платформой в режиме выделенной передачи (ELT), чтобы обеспечить минимальную нагрузку на ваш сервер во время этих ресурсоемких операций. Другими словами, вы можете заполнить свое хранилище данных за считанные минуты.

ADWB не зависит от платформы!

ADWB предлагает готовые соединители для различных мест назначения баз данных, поэтому вы можете настроить архитектуру хранилища данных на выбранной вами платформе, не беспокоясь о проблемах совместимости. В настоящее время мы поддерживаем следующие ведущие в отрасли облачные и локальные базы данных:

  • Снежинка
  • Амазонка Redshift
  • Синапс Azure Аналитика
  • Автономное хранилище данных Oracle
  • Teradata
  • SAP Хранилище данных
  • SQL Server
  • MariaDB
  • Vertica
  • IBM DB2

Запрашивайте и визуализируйте данные вашего предприятия из любого авторизованного приложения

Все развернутые модели данных также доступны в виде Службы OData. Наш механизм хранилища метаданных использует эти сервисы и, наконец, SQL, чтобы таблицы можно было просматривать или запрашивать вне приложений и браузеров.

Все, что вам нужно, — это веб-адрес вашего развертывания и токен носителя для аутентификации соединения, и данные вашего хранилища будут доступны конечным пользователям через любое подключенное приложение.

Вы также можете напрямую использовать свое хранилище данных с помощью ведущих инструментов отчетности и визуализации, таких как Tableau, Power BI, Domo и других.

Легко организуйте все ваши операции ETL

После развертывания хранилища данных наши функциональные возможности рабочих процессов помогут вам точно управлять заполнением различных таблиц. После того как вы решили, как организовать эти операции, каждый поток данных будет извлекать данные из исходной системы через промежуточную область и переносить их в многомерную модель данных.

Автоматизируйте обновления и поддерживайте актуальность корпоративных данных

Пользователи могут установить частоту загрузки данных для каждого измерения в зависимости от частоты обновления связанных таблиц исходной системы. С помощью функции планировщика заданий вы можете организовать непрерывное выполнение этих операций через определенные промежутки времени или постепенное выполнение при внесении изменений в исходную систему.

Благодаря хранилищу данных на основе метаданных вам не нужно беспокоиться о качестве кода и о том, как он выдержит большие объемы данных. Наше решение генерирует все необходимые сценарии ETL на серверной стороне с помощью механизма метаданных и поддерживается промышленным механизмом ETL, созданным с учетом ваших требований. Добавьте функции мониторинга и регистрации заданий в режиме реального времени, и основные ошибки проектирования останутся в прошлом.

Гибкий, масштабируемый и доступный в любом месте. Создайте свое хранилище данных за считанные дни с помощью Astera Создатель хранилища данных.

Хотите опробовать наше решение? Мы предлагаем вам возможность принять участие в нашей эксклюзивной кампании по запуску прямо сейчас. Нажмите здесь, чтобы Связатьсяи узнайте, как попасть на борт.

Часто задаваемые вопросы

A архитектура, управляемая метаданными фокусируется на управлении метаданными и играет решающую роль в обеспечении эффективности систем поддержки принятия решений. Хранилища данных на мета-управлении — это также ETL нового поколения и унифицированная платформа, которая позволяет пользователям проектировать хранилище данных на логическом уровне. Он включает в себя проектирование схемы ETL и хранилища данных.

В хранилище данных метаданные подпадают под одну из трех категорий:

  1. Операционные метаданные. Данные исходной системы обычно фильтруются, преобразуются, объединяются и дополнительно улучшаются перед интеграцией в хранилище данных. В результате может быть сложно определить, откуда взялись эти записи. Операционные метаданные предоставляют всю историю набора данных, информацию о том, кто им владеет, конкретные преобразования, через которые он прошел, а также его текущий статус, т. е. являются ли они текущими или историческими по своей природе.
  2. Метаданные ETL. Эти метаданные используются для управления процессом преобразования и загрузки вашего хранилища данных. Он включает в себя физическую схему перенесенных объектов, включая имена таблиц и столбцов, содержащиеся в них типы данных и значения, а также предписанный макет для целевых таблиц. Метаданные ETL также включают применимые правила преобразования, определения фактов/размеров, частоты загрузки и методы извлечения.
  3. Метаданные конечного пользователя. Этот тип метаданных особенно полезен для потребителей, которые ежедневно запрашивают и выполняют поиск в хранилище данных. По сути, он функционирует как карта хранилища данных, предоставляя подробную информацию о данных, содержащихся в архитектуре, о том, как наборы данных связаны друг с другом (первичные/внешние ключи), необходимые вычисления для сопоставления от источника к месту назначения, конкретные наборы данных, о которых необходимо сообщать. и как.

Ключевые преимущества метаданных в EDW:

  • Обеспечивает соединительную ткань для разрозненных данных в сложной архитектуре больших объемов данных.
  • Упрощает сопоставление исходных систем с хранилищем данных.
  • Оптимизирует запросы путем категоризации и обобщения наборов данных.
  • Эффективно используется на нескольких этапах жизненного цикла хранилища данных, включая генерацию схемы, извлечение, загрузку в хранилище данных, преобразование на промежуточном уровне и в процессе составления отчетов.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся