Блог

Главная / Блог / Data Vault 101: Комплексное руководство по масштабируемому хранению данных

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Data Vault 101: Комплексное руководство по масштабируемому хранению данных

27-е февраля, 2024

Поскольку предприятия имеют дело с большими и разнообразными объемами данных, управлять этими данными становится все сложнее. Только 5% предприятий чувствуют, что управление данными у них под контролем, в то время как 77% лидеров отрасли считают растущий объем данных одной из самых больших проблем. 

Хранилище данных — это новая технология, которая обеспечивает прозрачную, гибкую и гибкую архитектуру данных, благодаря чему организации, управляемые данными, всегда готовы к меняющимся потребностям бизнеса.  

Что такое хранилище данных?  

Хранилище данных — это метод моделирования данных, который позволяет создавать хранилища данных для аналитики масштаба предприятия. Это позволяет вам адаптироваться к быстро меняющимся бизнес-требованиям с помощью гибкого и поэтапного подхода, избегая необходимости масштабного реинжиниринга. Он также обеспечивает историческое отслеживание и аудит данных, поскольку сохраняет все данные из исходных систем без каких-либо обновлений или удалений.

 

Архитектура хранилища данных

Хранилище данных имеет трехуровневую архитектуру, содержащую хранилище необработанных, деловых и информационных данных. Такая конструкция позволяет создавать гибкие и масштабируемые хранилища данных, устойчивые к изменениям в исходных системах и бизнес-требованиям.  

Необработанное хранилище 

Необработанный свод является наиболее гранулированным. уровень, и он хранит данные как можно ближе к исходному формату. Он также отслеживает всю информацию аудита из источника. 

Поскольку необработанное хранилище предназначено только для вставки, никакие данные не удаляются и не обновляются. Это гарантирует, что в хранилище необработанных данных сохраняется полная история и отслеживаемость данных. Необработанное хранилище, состоящее из хабов, каналов связи и сателлитов. В этих таблицах собраны бизнес-ключи, связи и атрибуты ваших данных. 

  • Хабы представляют основные бизнес-концепции, такие как клиенты, продукты или транспортные средства. Они хранят бизнес-ключи, которые однозначно идентифицируют эти понятия, а также некоторую информацию метаданных, такую ​​как дата загрузки и идентификатор последовательности. Пользователи могут использовать бизнес-ключи для запроса информации о концентраторе. Например, Клиент хаб имеет Пользовательский ИД в качестве бизнес-ключа и Продукт концентратор будет иметь Идантификационный номер продукта в качестве бизнес-ключа. 
  • Ссылки представляют отношения между концентраторами. Ссылки хранят комбинации бизнес-ключей, демонстрируя, как соединены эти концентраторы. Например, связь между Клиент и Продукт концентраторы могут быть Транзакции покупки таблица ссылок. Он будет содержать данные, относящиеся к обоим этим хабам, например:  Дата покупки, Количество, Итоговая цена.
    Чтобы обеспечить уникальную идентификацию каждой транзакции, хранилище данных объединяет Пользовательский ИД и Идантификационный номер продукта, затем сгенерируйте хеш-ключ на основе объединенной строки.
  • спутники магазин домен описательный информация о хабах и ссылках. Они содержат атрибуты, которые описывают характеристики или состояния концентраторов и каналов с течением времени. Например, спутник для Клиент хаб может хранить данные клиента Имя, Фамилия, Адрес, Номер телефона, и т.д.
    Аналогично, спутник для Транзакции покупки таблица ссылок может хранить такую ​​информацию, как Способ оплаты, О состоянии доставки, Лоаддате, Источник записи. В этой таблице Способ оплаты и О состоянии доставки предоставить дополнительную информацию о каждой транзакции. Лоаддате и Источник записи являются полями метаданных.
      

Бизнес-хранилище 

Бизнес-хранилище — это еще один уровень, производный от необработанного хранилища. Он применяет к данным выбранные бизнес-правила, расчеты, функции очистки и качества данных. Бизнес-хранилище также может содержать концентраторы, каналы связи и сателлиты, но они обычно создаются на основе потребностей бизнеса и обычно не являются прямой копией тех, что находятся в необработанном хранилище. Бизнес-хранилище полезно для предоставления помощи при запросах и облегчения доступа пользователей к данным. 

Вот некоторые преобразования данных и правила качества данных, которые можно применить в Business Vault в нашем примере:

  • Преобразование данных – расчет пожизненной ценности клиента: У вас может быть правило преобразования, которое рассчитывает пожизненную ценность каждого клиента на основе его истории покупок. Это можно реализовать в виде новой таблицы-спутника в Business Vault, которая связывает каждый Пользовательский ИД с рассчитанным атрибутом LifetimeValue. Пожизненное значение можно рассчитать как сумму Итоговая цена для всех транзакций, связанных с каждым Пользовательский ИД.
  • Преобразование данных – продажи по категориям продуктов: Возможно, вы захотите отслеживать общий объем продаж для каждой категории продуктов. Это может быть реализовано как новый концентратор и сателлит в Business Vault, который связывает каждый Категории с расчетным Тотальная распродажа атрибутов.
  • Правила качества данных: У вас могут быть бизнес-правила, обеспечивающие соблюдение стандартов качества данных. Например, у вас может быть правило, помечающее любые транзакции, в которых Итоговая цена меньше нуля или где Пользовательский ИД or Идантификационный номер продукта не существует в соответствующих таблицах Hub. Эти правила можно реализовать как проверки в процессе загрузки данных или как ограничения в схеме базы данных. 

Информационное хранилище 

Информационное хранилище (также известное как информационные витрины) — это уровень представления, созданный на основе хранилища необработанных данных и бизнес-хранилища для поддержки отчетности и аналитики. Он состоит из удобных для пользователя структур, таких как звездообразные схемы. которые представляютor витрины данных. 

Информационное хранилище может применять к данным дальнейшие преобразования и агрегации, чтобы подготовить их к использованию конечными пользователями или инструментами бизнес-аналитики. 

Хранилище данных

Архитектура хранилища данных

Узнайте, как использовать информационные витрины для предоставления конечным пользователям персонализированных и актуальных данных.

Сочетание хранилища необработанных данных, бизнес-хранилища и информационных витрин обеспечивает лучшую целостность данных, загрузку практически в реальном времени и лучшее удовлетворение новых потребностей бизнеса, не затрагивая существующие структуры.  

Преимущества хранилища данных  

Гибкость и адаптивность 

Хранилище данных может работать с несколькими исходными системами и часто меняющимися взаимосвязями, сводя к минимуму рабочую нагрузку по обслуживанию. Это означает, что изменение в одной исходной системе, создающее новые атрибуты, можно легко реализовать, добавив в модель хранилища данных еще один спутник. 

Аналогично, новые и изменяющиеся отношения можно обрабатывать, закрыв одну ссылку и создав другую. Эти примеры демонстрируют высокий уровень гибкости и адаптируемости, обеспечиваемый хранилищем данных. 

Масштабируемость 

По мере роста объема данных или добавления новых исходных систем хранилище данных легко масштабируется. Вы можете ввести новые концентраторы, каналы связи и сателлиты для включения дополнительных источников данных или объектов, не нарушая существующую структуру. Хранилище данных позволяет разместить больше данных и больше пользователей без ущерба для производительности и качества. 

Сохранение исторических данных 

Использование вспомогательных таблиц в хранилище данных обеспечивает сохранение исторических данных. Это крайне важно для отслеживания изменений с течением времени, анализа тенденций и соблюдения нормативных требований. Например, в хранилище клинических данных важно хранить исторические данные, позволяющие понять, как с течением времени менялись диагнозы пациентов или специализация поставщиков.

Происхождение данных и возможность аудита 

Хранилище данных включает происхождение данных и возможность аудита в модель хранилища данных. Другими словами, хранилище данных сохраняет дату загрузки и источник данных для каждой новой записи, сообщая нам когда и откуда пришли данные. Кроме того, вы можете анализировать хэш-ключи и различия хэш-функций, чтобы быстро сравнивать значения строк и выявлять изменения. Эти функции помогают обеспечить качество данных, отслеживаемость и подотчетность. 

Согласованность 

Хранилище данных обеспечивает согласованность данных за счет единообразного сбора данных, даже если исходные данные или их доставка противоречивы. Это означает, что хранилище данных может предоставить надежную и точную информацию для принятия бизнес-решений. Более того, хранилище данных обеспечивает параллельную загрузку данных с использованием хэш-значений, что повышает скорость доступа к данным и удовлетворенность пользователей. 

проворство 

Data Vault поддерживает гибкую разработку и развитие требований к хранилищу данных, следуя методологии, включающей несколько принципов гибких рабочих процессов. Это означает, что проекты хранилищ данных имеют короткие циклы выпуска с контролируемым объемом, что позволяет команде разработчиков тесно работать с потребностями бизнеса и создавать лучшее решение. 

Data Vault против традиционных методов хранения данных 

Хранилище данных — это метод моделирования для создания хранилищ данных, но он отличается от традиционных методов, таких как многомерная модель и 3NF. Он имеет некоторые ключевые различия с точки зрения загрузки данных, моделирования данных и гибкости данных. 

Загрузка данных  

Хранилище данных загружает данные иначе, чем традиционные методы хранения данных. Обычно хранилища данных следуют Извлечение-преобразование-загрузка (ETL) рабочий процесс, в котором данные преобразуются и проверяются перед загрузкой в ​​хранилище. В этой технике, вы должны обновить или удалить существующие записи в хранилище на основании изменений в исходных системах. 

Напротив, хранилище данных использует рабочий процесс «Извлечение-Загрузка-Преобразование» (ELT), при котором данные сохраняются непосредственно в необработанном хранилище из исходной системы. Бизнес-правила, преобразования или проверки применяются позже в процессе, обычно внутри бизнес-хранилища.  

Этот подход позволяет добавлять новые записи в хранилище без обновления или удаления существующих записей. Вы можете применять бизнес-правила, преобразования и проверки только тогда, когда вам нужно использовать данные для отчетности или анализа. 

Моделирование данных 

Традиционное хранилище данных обычно использует многомерное моделирование или нормализованное моделирование (3NF) для организации данных в факты и измерения или сущности и отношения., С уважением 

В хранилище данных используется метод гибридного моделирования, сочетающий в себе лучшие практики размерного и нормализованного моделирования. Он использует звездообразную схему для представления данных в историческом и гибком виде. Является ли хранилище данных идеальное моделирование данных для вас зависит от ваших требований. 

Гибкость данных 

Хранилище данных обычно имеет жесткую и стабильную структуру, предназначенную для удовлетворения текущих и ожидаемых бизнес-требований. Структура хранилища может со временем меняться из-за изменений бизнес-требований, исходных систем или стандартов качества данных. Однако такие изменения могут потребовать значительных усилий и ресурсов для изменения существующих процессов ETL, схем хранилища и отчетов. 

Хранилище данных адаптируется к быстро меняющимся требованиям бизнеса, разделяя стабильную и временную части модели данных. Это означает, что основные бизнес-концепции и их взаимосвязи хранятся в хабах и ссылках, которые редко меняются. Напротив, описательные атрибуты и их изменения с течением времени хранятся в сателлитах, которые можно легко добавлять или изменять. 

Таким образом, хранилище данных позволяет избежать необходимости масштабной реорганизации хранилища данных при добавлении новых источников или атрибутов или изменении существующих. 

Способность обрабатывать большие объемы данных 

Хранилище данных поддерживает параллельную загрузку данных из разных источников, что повышает скорость и эффективность интеграции данных. Хранилище данных основано на гибких методологиях и методах, что позволяет вам непрерывно и эффективно приносить пользу. итеративнои активно сотрудничать с бизнес-пользователями.

Рекомендации по использованию хранилища данных  

Хранилище данных может работать со сложными и динамическими средами данных. Однако для обеспечения успешного внедрения хранилища данных важно следовать передовым практикам и избегать распространенных ошибок. Вот несколько советов и рекомендаций от экспертов в этой области: 

  • План и четко определите бизнес-модель и требования перед проектированием хранилища данных. Это помогает определить ключ бизнес-концепции, отношения и атрибуты, которые лягут в основу хабов, каналов связи и сателлитов.
  • Используйте инструменты автоматизации, чтобы ускорить и упростить разработку и обслуживание хранилища данных. Инструменты автоматизации могут помочь генерировать код, модели данных, документацию и тесты на основе заранее определенных шаблонов и метаданных. 
  • Следуйте хранилище данных 2.0 стандарты и лучшие практики для обеспечения согласованности, качества и масштабируемости хранилища данных. Data vault 2.0 — это обновленная версия исходной методологии, включающая новые функции, такие как хэш-ключи, параллельная загрузка, столбцы аудита и бизнес-хранилище.  
  • Не перегружайте хранилище данных ненужными или избыточными данными. Data vault предназначен для хранения необработанных данных из исходных систем без применения каких-либо преобразований или бизнес-правил. Однако это не означает, что следует загружать все в хранилище данных без фильтрации и проверки данных. Пользователи должны загружать только актуальные, точные и полезные данные для нужд своего бизнеса. 
  • Регулярно отслеживайте и тестируйте хранилища данных, чтобы гарантировать их производительность, надежность и точность. Хранилище данных — это динамичная и развивающаяся структура данных, которая может учитывать изменения в источниках данных и бизнес-требованиях. Однако это также означает, что пользователи должны отслеживать изменения и их влияние.s в хранилище данных.  

Создайте хранилище данных с помощью Astera  

Хранилище данных предлагает множество преимуществ, таких как масштабируемость, возможность аудита, параллелизм и адаптируемость, что делает его отличным выбором для современных потребностей в хранении данных. Astera DW Builder — это автоматизированное решение для проектирования хранилищ данных без кода и ETL./ELT инструмент, который позволяет пользователям создавать хранилища данных за считанные минуты.

Чтобы узнать больше о Astera DW Builder и его функции хранилища данных, посетите веб-сайт or запроса демо-версии прямо сейчас 

Вам также может понравиться
Что такое онлайн-обработка транзакций (OLTP)?
Лучшие инструменты интеллектуального анализа данных в 2024 году
Тестирование хранилища данных: процесс, важность и проблемы 
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся