Блог

Главная / Блог / Jumpstart Разработка хранилища данных с автоматизированным моделированием корпоративных данных

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Начните разработку хранилища данных с помощью автоматизированного моделирования корпоративных данных

Июль 25th, 2022

Что, если бы вы могли объединить проектирование и разработку хранилища данных в единый автоматизированный процесс, который всего за несколько недель перенесет вас от базовой отчетности к расширенной аналитике высокого уровня? Что ж, если правильно организовать процесс моделирования данных, вы сможете построить быструю, масштабируемую и гибкую архитектуру бизнес-аналитики. Читайте дальше, чтобы узнать изнутри, как заставить разработку корпоративных моделей данных работать на ваш бизнес.

По своей сути хранилища данных созданы для ответа на бизнес-вопросы. Они могут варьироваться от простых описательных запросов, ориентированных на создание периодических отчетов, до гораздо более амбициозных анализов, направленных на изучение факторов, лежащих в основе сценария эффективного управления данными. Чтобы получить такого рода целевую информацию от вашей системы BI, вы должны убедиться, что требования пользователей тесно переплетены с бизнес-концепциями на этапе разработки хранилища данных.

Лучший способ связать цели конечного пользователя с вашей архитектурой данных — поставить моделирование корпоративных данных во главу угла вашего хранилища данных. Эти схемы представляют собой визуализированные диаграммы отношений сущностей и представляют собой исходные системы, располагающие их в оптимизированной структуре, подходящей для быстрого выполнения запросов и удобства использования. Что еще более важно, они показывают основную бизнес-логику, лежащую в основе различных операционных процессов, в формате, сразу понятном как нетехническим пользователям, так и разработчикам.

При правильном проектировании преимущества корпоративной модели данных могут быть реализованы для всей вашей компании. информационное хранилище. Они помогут вам определить, откуда необходимо получить критически важные данные, платформы, которые могут лучше всего поддерживать вашу физическую модель данных и базу данных, а также то, как конвейеры данных будут передаваться от источника к месту назначения.

Давайте рассмотрим некоторые фундаментальные методы моделирования данных, которые необходимы для этого процесса.

Начните с источника

Модели данных в ADWBТочно реплицируйте свои исходные системы, и вы можете получить схему, которая выглядит примерно так

Первое, что вам нужно убедиться во время моделирования схемы, — это то, что вы можете точно реплицировать исходные системы на логическом уровне.

Для этого вы должны определить, где находятся ваши критически важные данные – находятся ли они в локальная база данных, облачное озеро данных или платформа CRM, например Salesforce.? Конечно, только определенные таблицы в этих приложениях будут иметь значение для целей BI. Если вы уже создавали отчеты в своих транзакционных системах, то у вас будет хорошее представление о том, какие наборы данных необходимо интегрировать в ваше хранилище данных. В конечном счете, вы хотите быть уверены, что сможете выполнять все те же запросы, что и раньше, без перерыва.

Создайте стандартизированную структуру метаданных

Архитектура модели данных

Когда вы создаете корпоративные логические модели данных, охватывающие все ваши источники, метаданных должны применяться последовательно в каждом из них.

На этапе проектирования вы хотите:

  • Устанавливайте отношения между объектами, используя соответствующие первичные ключи и внешние ключи.
  • Убедитесь, что вы правильно соединяете таблицы и что типы отношений сущностей определены правильно: «многие ко многим», «один ко многим», «родитель-потомок» и т. д.
  • Используйте правильное псевдонимы, чтобы гарантировать возврат типа/поля объекта при выполнении запроса в хранилище данных. Например, если вы установили связь «Клиенты» и «Заказы» между родительскими и дочерними элементами, фильтровать «Клиентов» по ​​«Заказам» легко, но если вы попытаетесь сделать наоборот, вам необходимо будет убедиться, что заказы связаны с один клиент, иначе запрос завершится неудачно. Эта проблема решается с помощью псевдонимов.
  • Соглашения об именах атрибутов также должны быть стандартизированы для всей модели данных предприятия, чтобы обеспечить простоту понимания.

Помните, что вам необходимо убедиться в отсутствии расхождений между метаданными в таблицах исходной системы и сущностях хранилища данных; в противном случае при заполнении хранилища данных возникнут несовместимости. Эти несоответствия значительно усложнят создание отображение данных для перемещения данных из источника в пункт назначения.

Помещение структура метаданных значительно сокращает технический долг, возникающий из-за различий в модели данных и последующих конвейерах данных. Эти несоответствия требуют дополнительных действий по обслуживанию и значительно усложняют последовательное обновление различных типов схем. Вместо этого вы протестировали и доказали, а главное, адаптируемые шаблоны без написания кода.

Затем на основе этих моделей данных, обогащенных метаданными, и элементов данных, распространяемых непосредственно в физическую базу данных, можно создавать сценарии.

Сделайте модель данных вашего предприятия гибкой

Как сделать вашу модель данных гибкой

Благодаря гибкой технологии вы сможете гораздо проще управлять данными и интегрировать изменения в свою модель данных.

Важно понимать, что моделирование данных — это не статическая деятельность. На современном предприятии точная и своевременная аналитика необходима практически каждому отделу. Это означает, что к хранилищу данных будет обращаться больше пользователей. Теперь, по мере развития этих требований, потребителю данных необходимо будет обновить существующую архитектуру для быстрой интеграции новых источников. Эта возможность должна быть интегрирована в ваш подход к проектированию.

Моделирование схемы должно быть сосредоточено на предоставлении результатов на основе текущих бизнес-требований, а не на создании утвержденной модели данных предприятия до начала разработки. Создание модели данных, отражающей все ваши бизнес-операции, потребует значительного количества времени и предварительных усилий по проектированию. Настолько, что к моменту фактического начала разработки схема вполне может устареть.

При гибком подходе модели данных будут строиться в соответствии с текущими требованиями BI в несколько итераций. Предположим, ваш менеджер по продажам хочет сравнить эффективность работы нескольких региональных подразделений после организационной реструктуризации. Ваша команда построит модель данных, специально отражающую эти бизнес-правила (также известную как витрина данных), которая позволит получить необходимую информацию в течение пары недель. В результате хранилище данных растет постепенно и гораздо более последовательно. На каждом этапе создается новый результат, точность и актуальность которого конечный пользователь может немедленно проверить.

На практике необходимо наличие нескольких аспектов, чтобы позволить такому подходу процветать.

Во-первых, бизнес-пользователи должны иметь возможность тесно сотрудничать с разработчиком моделей данных на протяжении всего процесса проектирования, чтобы обеспечить высокое качество данных. Это означает, что схема должна быть спроектирована таким образом, чтобы она была понятна обеим командам, чтобы свести к минимуму любые недопонимания.

Во-вторых, если процесс проектирования позволит пользователям получать доступ к исходным системам, выбирать соответствующие таблицы и реплицировать их в модели данных, то время развертывания будет значительно сокращено. Теперь потребители данных будут иметь функциональные возможности, позволяющие гарантировать, что наборы данных, по которым необходимо составлять отчеты, доступны в готовой модели данных. Когда эти требования изменятся, к исходной модели можно будет добавить новые таблицы, используя те же методы.

Гибкий подход к моделированию корпоративных данных также должен позволять внедрить некоторую систему управления версиями, чтобы можно было отслеживать и контролировать обновления исходной схемы. Имея несколько версий, вы можете при необходимости отменить любые изменения.

Предоставляйте данные по принципу служебной необходимости

Безопасность данных часто является проблемой при разработке моделей корпоративных данных.Данные для меня, но не для тебя

Итеративный подход позволяет вам получить гораздо более детальный взгляд на данные, предоставляемые для целей BI.

Вместо того, чтобы отображать все ваши хранилища данных в корпоративной модели данных, которая затем открыта для доступа всем членам организации, вы разрабатываете индивидуальные схемы для удовлетворения требований каждой группы пользователей. Затем эти команды могут ограничить свои запросы соответствующими наборами данных и, таким образом, повысить эффективность отчетности и аналитики. В то же время с точки зрения безопасности данных организация гарантирует, что конфиденциальная информация будет доступна только авторизованным пользователям.

Примите схему для модели данных вашего предприятия — агностический подход

Схема-агностический подход к моделированию данных

Какой дизайн схемы вы выберете? Поэтому, когда мы говорим о лучших практиках моделирования данных, на ум приходит следующая схема: Многомерная модель Кимбалла. В этой схеме таблицы организованы в грубую звездообразную структуру с центральной таблицей фактов, предоставляющей бизнес-показатели, и связанными таблицами измерений, обеспечивающими контекст для этих чисел.

Эта структура доминирует в отрасли уже более трех десятилетий, и на это есть веская причина. Многомерная модель в первую очередь предназначена для быстрого выполнения запросов и обеспечивает большую гибкость при добавлении новых источников для целей отчетности. Это также подход к проектированию хранилища данных, ориентированный на бизнес-процессы. Другими словами, он организует и представляет данные таким образом, чтобы их было легко понять конечным пользователям.

Однако есть причины, по которым конечные пользователи могут рассмотреть альтернативную архитектуру. Например, традиционная схема «звезда» включает в себя множество соединений, что в некоторых случаях может снизить производительность запросов. Вместо этого они могут предпочесть использовать несколько широких таблиц (много столбцов), поскольку такой дизайн лучше подходит для некоторых инструментов визуализации. Кроме того, этот подход позволит конечным пользователям упростить запросы к одной таблице вместо применения нескольких объединений, что увеличивает риск ошибок.

Альтернативной концептуальной моделью, получившей значительную популярность в последние годы, является архитектура хранилища данных. Эта схема приводит к гибкой архитектуре, которая сочетает в себе бизнес-ориентированный подход многомерной модели с масштабируемостью формата 3NF, поддерживаемого Биллом Инмоном. DV состоит из узлов, представляющих идентифицирующие аспекты бизнеса, и каждый из них содержит естественные ключи для этих процессов. Существуют также ссылки, которые служат в качестве пересекающихся таблиц, определяющих отношения «многие ко многим» между различными узлами архитектуры. Наконец, сателлиты содержат описательные атрибуты как для концентраторов, так и для каналов.

В зависимости от ваших требований к BI, любая из этих архитектур может быть предпочтительнее, но используемые вами методы моделирования данных должны позволять вам легко проектировать и распространять различные типы схем, будь то многомерная модель, 3NF или хранилище данных.

Astera DW Builder — инструмент моделирования корпоративных данных для разработки DW

Автоматизированное моделирование данных лежит в основе ADWB

Автоматизированное моделирование данных лежит в основе ADWB

Astera DW Builder — это инструмент автоматизации хранилища данных на основе метаданных, который радикально ускоряет ваш путь к разработке хранилища данных.

Этот продукт ставит моделирование данных в основу своих возможностей. Позволяет с одинаковой легкостью разрабатывать лучшие корпоративные модели данных с нуля или реконструировать их из существующих исходных систем с помощью простых команд перетаскивания.

Отсюда вы можете обогатить свои схемы дополнительными спецификациями для таких вещей, как атрибуты таблиц, типы данных, первичные ключи и внешние ключи. На уровне многомерной модели вы можете определить типы SCD для динамических полей, дат вступления в силу/истечения и суррогатных ключей, чтобы облегчить эффективную загрузку и выполнение запросов. ADWB также поддерживает другие ведущие подходы к проектированию, включая хранилища данных и модели данных 3NF. Эти описания затем передаются в механизм, который автоматически создает всю эту схему в физической базе данных.

Логическая работа в одном унифицированном процессе ускоряет разработку хранилища данных, сокращая время развертывания с месяцев или даже лет до нескольких дней.

Этот новый подход также поощряет сотрудничество. Заинтересованные стороны, не обладающие техническими знаниями, могут легко понять логические определения и визуальные элементы, используемые в модели данных, обогащенной метаданными. Эти знания позволяют им участвовать во внедрении от начала до завершения, гарантируя, что результаты будут гораздо более точно соответствовать их потребностям.

Модель данных теперь по сути служит уровнем абстракции, позволяя конечным пользователям просматривать данные исходной системы без прямого доступа к ним. Такое разделение означает, что вы можете предоставлять соответствующие данные конкретным пользователям, не беспокоясь о проблемах управления данными.

Когда приходит время анализировать доставленные данные, метаданные можно распространить на любую платформу BI, где они используются для идентификации наборов данных, которые будут импортированы через модель данных.

Еще одним важным преимуществом здесь является независимость от платформы, поскольку модель корпоративных данных не жестко закодирована в какой-либо конкретной базе данных, а служит схемой, которую можно прочитать и легко реплицировать в любой базе данных в облаке или локально.

Наконец, если вы посмотрите на быстро меняющийся характер корпоративных данных, возможность обновлять и изменять элементы метаданных в модели данных имеет важное значение, позволяя выполнять быстрые итерации и, следовательно, корректировать конвейеры отчетности в соответствии с текущими потребностями бизнес-пользователей.

Собрав все эти элементы вместе, вы говорите о быстром, гибком и по-настоящему ресурсоэффективном процессе разработки хранилища данных.

Хотите своими глазами увидеть, как эти функции могут ускорить разработку хранилища данных? ЗАРЕГИСТРИРОВАТЬСЯ для нашего предстоящего вебинара, на котором эксперты по продуктам и инсайдеры отрасли продемонстрируют потенциал этого передового подхода. Вы также можете свяжитесь с нами напрямую организовать консультацию с учетом ваших текущих потребностей.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся