Блог

Главная / Блог / Концепции хранилища данных: подходы Кимбалла и Инмона

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Концепции хранилищ данных: подход Кимбалла против Инмона

Март 21st, 2024

Когда дело доходит до информационное хранилище (DWH) два наиболее широко обсуждаемых и объясненных подхода к хранилищу данных — это методология Инмона и Кимбалла. В течение многих лет люди спорили о том, какой подход к хранилищу данных лучше и эффективнее для бизнеса. Однако однозначного ответа до сих пор нет, поскольку оба метода имеют свои преимущества и недостатки.

В этом блоге мы обсудим основы хранилища данных, его характеристики и сравним два популярных подхода к созданию хранилищ данных — Кимбалл и Инмон.

Концепция ключевого хранилища данных позволяет пользователям получать доступ к единой версии достоверных данных для своевременного принятия бизнес-решений, составления отчетов и прогнозирования. СХД функционирует как информационная система, в которой все прошлые и коммутативные данные хранятся из одного или нескольких источников.

Модели хранилищ данных

Модели хранилищ данных обратитесь к архитектурные проекты и структуры, используемые для организации данных и управления ими в среде хранилищ данных.. Эти модели определяют, как данные хранятся, получают к ним доступ и используются в аналитических целях. Основные разделы включают в себя:

  • Виртуальный склад: Состоит из отдельных баз данных, к которым можно выполнять коллективные запросы, что позволяет пользователям получать доступ к данным, как если бы они хранились в одном хранилище.
  • Витрина данных: Ориентирован на конкретные бизнес-функции или отделы и содержит подмножества данных, предназначенных для анализа.
  • Хранилище корпоративных данных: Комплексное хранилище, объединяющее данные из различных источников в организации, поддерживающее аналитику и отчетность в масштабах всего предприятия.

Характеристики хранилища данных

Ниже приведены четыре характеристики хранилища данных:

  • Предметно-ориентированный: Хранилище данных использует тему и предоставляет информацию о конкретном предмете, а не о текущих операциях компании. Другими словами, процесс хранения данных более приспособлен для обработки конкретной темы. Примеры тем или предметов включают продажи, распространение, маркетинг и т. д.
  • Интегрированный: Интеграция определяется как установление связи между большими объемами данных из нескольких баз данных или источников. Однако также важно, чтобы данные хранились в хранилище данных унифицированным образом. Процесс хранения данных объединяет данные из нескольких источников, таких как мэйнфрейм, реляционные базы данных, плоские файлы и т. д. Кроме того, он помогает поддерживать согласованность кодов, показателей атрибутов, соглашений об именах и форматов.
  • Временной вариант: Временной вариант в DW более обширен по сравнению с другими операционными системами. Данные, хранящиеся в хранилище данных, вызываются через определенный период времени и предоставляют информацию с исторической точки зрения.
  • Энергонезависимая: В энергонезависимом хранилище данных данные являются постоянными, т.е. при вставке новых данных предыдущие данные не заменяются, не пропускаются и не удаляются. В этом хранилище данных данные доступны только для чтения и обновляются только через определенные промежутки времени. В хранилище данных выполняются две операции с данными: доступ к данным и загрузка данных.
Подходы к хранилищу данных

Характеристики и функции хранилища данных (Источник: GeeksforGeeks)

Функции хранилища данных

Хранилище данных функционирует как репозиторий. Это помогает организациям избежать затрат на системы хранения и резервное копирование данных на уровне предприятия. Основными функциями хранилища данных являются:

Подход к нормализации и денормализации

Нормализация определяется как способ реорганизации данных. Это помогает удовлетворить два основных требования в корпоративное хранилище данных т.е. устранение избыточности данных и защита зависимости данных. С другой стороны, денормализация повышает функциональность инфраструктуры системы баз данных.

Хранилище данных против базы данных

Основные различия между хранилищем данных и базой данных приведены в таблице ниже:

База данных Хранилище данных
База данных представляет собой объединение связанных данных. Хранилище данных представляет собой информационную систему, содержащую исторические и коммутативные данные из одного или нескольких источников.
Для записи данных используется база данных. Хранилище данных используется для анализа данных.
База данных — это ориентированный на приложение набор данных. Хранилище данных — это предметно-ориентированный сбор данных.
База данных использует онлайн-обработку транзакций (OLTP). В хранилище данных используется онлайн-аналитическая обработка (OLAP).
Таблицы и соединения базы данных нормализованы, поэтому более сложны.  Таблицы и соединения хранилища данных денормализованы, а значит, проще.
Для проектирования используются методы ER-моделирования. Для проектирования используются методы моделирования данных.

Две концепции хранилища данных: Кимбалл против Инмона

Обе методологии проектирования хранилищ данных имеют свои плюсы и минусы. Давайте разберем их подробно, чтобы понять, какой из них лучше.

Методология Кимбалла

Модель данных Кимбалла, инициированная Ральфом Кимбаллом, основана на восходящем подходе к проектирование архитектуры хранилища данных в котором витрины данных сначала формируются на основе бизнес-требований.

Затем оцениваются первичные источники данных, и Инструмент «Извлечение, преобразование и загрузка» (ETL) используется для получения данных из нескольких источников и загрузки их в промежуточную область сервера реляционной базы данных. После загрузки данных в промежуточную область хранилища данных следующий этап включает загрузку данных в многомерную модель хранилища данных, которая по своей природе денормализована. Эта модель разделяет данные на таблицу фактов, которая представляет собой числовые данные транзакций, или таблицу измерений, которая является справочной информацией, подтверждающей факты.

Схема «звезда» — это фундаментальный элемент модели многомерного хранилища данных. Сочетание таблицы фактов с несколькими таблицами измерений часто называют звездообразной схемой. Многомерное моделирование Кимбалла позволяет пользователям создавать несколько звездообразных схем для удовлетворения различных потребностей в отчетности. Преимущество звездообразной схемы заключается в том, что запросы к небольшим таблицам измерений выполняются мгновенно.

Для интеграции данных подход Кимбалла к жизненному циклу хранилища данных предполагает идею согласованных измерений данных. Она существует в виде базовой таблицы измерений, совместно используемой различными таблицами фактов (например, «клиенты» и «продукт») в хранилище данных, или в виде одних и тех же таблиц измерений в различных витринах данных Kimball. Это гарантирует, что один и тот же элемент данных используется одинаково во всех фактах.

Важным инструментом проектирования в методологии хранилища данных Ральфа Кимбалла является матрица корпоративной шины или архитектура шины Кимбалла, которая вертикально записывает факты и горизонтально записывает соответствующие измерения. Матрица Кимбалла, являющаяся частью шинной архитектуры, показывает, как строятся звездообразные схемы. Он используется командами управления бизнесом в качестве входных данных для определения приоритетности того, какая строка матрицы Кимбалла должна быть реализована в первую очередь.

Подход Кимбалла к жизненному циклу хранилища данных также основан на согласованных фактах, то есть витринах данных, которые реализуются отдельно вместе с надежной архитектурой.

Архитектура хранилища данных метода Кимбалла

Рисунок 2. Объяснение базовой архитектуры хранилища данных Kimball (Источник: Zentut)

Преимущества методологии Кимбалла

Некоторые из основных преимуществ концепции хранилища данных Кимбалла включают в себя:

  • Многомерное моделирование Кимбалла строится быстро, поскольку нормализация не требуется, что означает быстрое выполнение начальной фазы хранилище данных процесс проектирования.
  • Преимущество звездообразной схемы заключается в том, что большинство операторов данных могут легко ее понять благодаря ее денормализованной структуре, которая упрощает запросы и анализ.
  • Влияние системы хранилища данных тривиально, поскольку оно сосредоточено на отдельных бизнес-областях и процессах, а не на всем предприятии в целом. Таким образом, он занимает меньше места в базе данных, что упрощает управление системой.
  • Это позволяет быстро извлекать данные из хранилища данных, поскольку данные разделены на таблицы фактов и измерения. Например, таблица фактов и измерений для страховой отрасли будет включать транзакции по полисам и транзакции по претензиям.
  • Для управления хранилищем данных достаточно небольшой команды проектировщиков и планировщиков, поскольку системы источников данных стабильны, а хранилище данных ориентировано на процессы. Кроме того, оптимизация запросов является простой, предсказуемой и контролируемой.
  • Соответствующая размерная структура для Качество данных рамки. Подход Кимбалла к жизненному циклу хранилища данных также называют подходом к бизнес-образу жизни, поскольку он позволяет инструментам бизнес-аналитики глубже проникать в несколько звездообразных схем и генерировать достоверную информацию.
Методология жизненного цикла Kimball DW/BI - Kimball Group

Подход Кимбалла к жизненному циклу хранилища данных (Источник: Kimball Group)

Недостатки методологии Кимбалла

Некоторые недостатки Кимбалла Хранилище данных Концепция дизайна включает в себя:

  • Данные не полностью интегрируются перед отчетом; идея «единого источника истины утеряна».
  • Неисправности могут возникнуть при обновлении данных в архитектуре Kimball DW. Это связано с тем, что при использовании метода денормализации в таблицы базы данных добавляются избыточные данные.
  • В архитектуре Kimball DW могут возникнуть проблемы с производительностью из-за добавления столбцов в таблицу фактов, поскольку эти таблицы достаточно подробные. Добавление новых столбцов может расширить размеры таблицы фактов, что повлияет на ее производительность. Кроме того, модель многомерного хранилища данных становится трудно изменить при любых изменениях потребностей бизнеса.
  • Поскольку модель Кимбалла ориентирована на бизнес-процессы, а не на предприятие в целом, она не может удовлетворить все требования к отчетности BI.
  • Процесс включения больших объемов устаревших данных в хранилище данных сложен.

Метод Инмона

Билл Инмон, отец хранилищ данных, придумал концепцию разработки хранилища данных, которое идентифицирует основные предметные области и объекты, с которыми работает предприятие, такие как клиенты, продукт, поставщик и т. д. Согласно определению Билла Инмона хранилища данных, это «предметно-ориентированный, энергонезависимый, интегрированный, изменяющийся во времени набор данных для поддержки управленческих решений».

Затем модель создает тщательную логическую модель для каждого основного объекта. Например, для продуктов создается логическая модель со всеми атрибутами, связанными с этим объектом. Эта логическая модель может включать десять различных сущностей продукта, включая все детали, такие как бизнес-факторы, аспекты, отношения, зависимости и связи.

Ассоциация Подход Билла Инмона к дизайну использует нормализованную форму для построения структуры объекта, максимально избегая избыточности данных. Это приводит к четкому определению бизнес-требований и предотвращению любых нарушений при обновлении данных. Более того, преимущество этого нисходящего подхода в проектирование базы данных заключается в том, что он устойчив к изменениям в бизнесе и содержит многомерную перспективу данных в витрине данных.

Далее строится физическая модель, которая соответствует нормализованной структуре. Эта модель Билла Инмона создает единый источник достоверной информации для всего бизнеса. Загрузка данных становится менее сложной благодаря нормализованной структуре модели. Однако использовать эту схему для запросов сложно, поскольку она включает в себя множество таблиц и ссылок.

Эта методология хранилища данных Inmon предлагает строить витрины данных отдельно для каждого подразделения, например, финансов, маркетинга, продаж и т. д. Все данные, поступающие в хранилище данных, интегрируются. Хранилище данных действует как единый источник данных для различных витрин данных, обеспечивая целостность и согласованность в масштабах всего предприятия.

Концепции хранилища данных: подход Кимбалла и Инмона 2

Рисунок 3. Объяснение базовой архитектуры хранилища данных Билла Инмона (Источник: Стэнфордский университет)

Преимущества метода Инмона

Подход Билла Инмона к проектированию предлагает следующие преимущества:

  • Хранилище данных выступает в качестве единого источника достоверной информации для всего бизнеса, где все данные интегрированы.
  • Этот подход имеет очень низкую избыточность данных. Таким образом, снижается вероятность нарушений при обновлении данных, что делает процесс хранилища данных на основе концепции ETL более простым и менее подверженным сбоям.
  • Это упрощает бизнес-процессы, поскольку логическая модель представляет подробные бизнес-объекты.
  • Этот подход обеспечивает большую гибкость, поскольку легче обновлять хранилище данных в случае каких-либо изменений в бизнес-требованиях или исходных данных.
  • Он может удовлетворить разнообразные требования к отчетности в масштабе предприятия.

Недостатки метода Инмона

Возможные недостатки такого подхода заключаются в следующем:

  • Сложность возрастает по мере того, как со временем к модели данных добавляется несколько таблиц.
  • Требуются ресурсы, обладающие навыками моделирования данных хранилища данных, найти которые может быть дорого и сложно.
  • Предварительная настройка и доставка занимают много времени.
  • Требуется дополнительная операция процесса ETL, поскольку витрины данных создаются после создания хранилища данных.
  • Этот подход требует от экспертов эффективного управления хранилищем данных.

Какой подход к хранилищу данных выбрать?

Теперь, когда мы оценили подход Кимбалла и Инмона и увидели преимущества и недостатки обоих этих методов, возникает вопрос: Какая из этих концепций хранилища данных лучше всего подойдет вашему бизнесу?

Оба эти подхода рассматривают информационное хранилище в качестве центрального хранилища, поддерживающего деловую отчетность. Кроме того, оба типа подходов используют концепции ETL для загрузки данных. Однако основное отличие заключается в моделировании данных и загрузке их в хранилище данных.

Подход, используемый для построения хранилища данных, влияет на предварительные сроки реализации проекта складирования и способность мириться с возможными изменениями в конструкции ETL.

Все еще не уверены в разрешении дилеммы Кимбалл против Инмона? Мы можем помочь вам решить, какой из этих подходов к хранилищу данных поможет улучшить вашу управление качеством данных рамки в лучшем виде?

Мы сузили несколько аспектов, которые могут помочь вам сделать выбор между двумя подходами.

  • Отчетность о потребностях: Если вам нужна общеорганизационная и интегрированная отчетность, то подход Билла Инмона подойдет больше. Но если вам требуется отчетность, ориентированная на бизнес-процесс или команду, выберите метод Кимбалла.
  • Срок проекта: Разработка нормализованной модели данных сравнительно сложнее, чем разработка денормализованной модели. Это делает подход Inmon трудоемким процессом. Поэтому, если у вас меньше времени на роды, тогда остановите свой выбор на методе Кимбалла.
  • Перспективный план набора персонала: Более высокая сложность создания модели данных в подходе к хранилищу данных Inmon требует более крупной команды профессионалов для управления хранилищем данных. Поэтому выбирайте соответственно.
  • Частые изменения: Если ваши потребности в отчетности могут измениться быстрее и вы имеете дело с нестабильными исходными системами, выберите метод Inmon, поскольку он предлагает большую гибкость. Однако, если потребности в отчетности и исходные системы сравнительно стабильны, лучше использовать метод Кимбалла.
  • Организационные принципы: Если заинтересованные стороны и корпоративные директора вашей организации признают необходимость хранения данных и готовы нести расходы, то метод хранилища данных Билла Инмона будет более безопасным выбором. С другой стороны, если лица, принимающие решения, не озабочены подробностями подхода, а ищут только решение для улучшения отчетности, то достаточно выбрать метод хранилища данных Кимбалла.

Нижняя линия

Обе концепции хранилищ данных Кимбалла и Инмона можно использовать для успешного проектирования моделей хранилищ данных. Фактически, некоторые предприятия используют сочетание обоих этих подходов (так называемая гибридная модель данных).

В гибридной модели данных метод Inmon создает многомерную модель хранилища данных. Напротив, метод Кимбалла используется для разработки витрин данных с использованием звездообразной схемы.

Невозможно утверждать, какой подход лучше, поскольку оба метода имеют свои преимущества и недостатки и хорошо работают в разных ситуациях. Проектировщик хранилища данных должен выбрать метод в зависимости от различных факторов, обсуждаемых в этой статье.

Наконец, чтобы любой метод был эффективным, он должен быть хорошо продуман, глубоко изучен и разработан так, чтобы удовлетворить потребности вашей компании. бизнес-аналитика требования к отчетности.

Astera Data Warehouse Builder — автоматизированное решение для хранения данных

Astera Строитель хранилищ данных предлагает интегрированную платформу для проектирования, развертывания и тестирования больших объемов хранилища данных и автоматизируйте процессы для быстрого получения значимой информации без необходимости писать ETL-коды.

Организации движутся к автоматизация хранилища данных чтобы сократить расходы, максимизировать производительность и быстрее получить полезную информацию. Автоматизация хранилищ данных позволяет быстро создавать высококачественные витрины данных, создавать саморегулируемые конвейеры данных и предоставлять актуальную информацию лицам, принимающим решения, с помощью инструментов бизнес-аналитики и аналитики.

Автоматизация хранилищ данных исключает самую трудоемкую часть заполнения хранилища данных: написание кода ETL/ELT. Поскольку ручное кодирование SQL не требуется, разработчики могут сосредоточить свои усилия на работе на логическом уровне (уровне проектирования) для создания более эффективных потоков интеграции.

Кроме того, автоматизация помогает вам разработать гибкая инфраструктура хранилища данных. Результатом является более адаптируемое и оперативное хранилище данных, к которому можно эффективно запрашивать данные, которое за считанные секунды дает ценную информацию и позволяет извлекать ценную информацию.

Короче говоря, отказ от ручного вмешательства на этапах планирования, моделирования и развертывания позволяет создать хранилище данных лучшего качества при успехе — и то в течение нескольких недель или даже дней.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся