Блог

Главная / Блог / Создание хранилища данных: пошаговое руководство

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Создание хранилища данных: пошаговое руководство

24-е января, 2024

Создание хранилища данных долгое время рассматривалось как сложная процедура, требующая значительных знаний в различных, но взаимосвязанных областях внутри компании. управление данными. От Управление базой данных от построения моделей данных до реализации ETL процессов, создание хранилища данных легко могло бы занять месяцы. Однако развитие технологий привело к появлению все большего количества инструментов и платформ, которые предоставляют доступные и оптимизированные решения для пользователей всех типов.

В этой статье мы узнаем все о создании хранилища данных. В частности, предпосылки для создания хранилища данных, включая пошаговое руководство и лучшие практики.

 

Предварительные условия для создания хранилища данных

Предварительные условия создания хранилища данных могут сильно различаться в зависимости от требований вашего бизнеса. Однако, как правило, вам необходимо учитывать следующие критерии, прежде чем приступить к созданию хранилища данных:

Планирование проекта хранилища данных

Это основополагающий этап, на котором вы закладываете основу для своего информационное хранилище. План определяет направление проекта и имеет решающее значение для обеспечения того, чтобы конечный продукт точно соответствовал потребностям и целям вашего бизнеса. Кроме того, ваш стратегический план должен также определять объем и структуру вашего хранилища данных.

Сократите время разработки хранилища данных до 80 %

Разработка традиционного хранилища данных требует значительных инвестиций с точки зрения времени и ресурсов. Однако с Astera DW Builder позволяет сократить весь жизненный цикл проектирования и разработки хранилища данных до 80 %. Узнайте больше в этом техническом документе.

Скачать Whitepaper

Начните с разработки четких бизнес-целей. Крайне важно на раннем этапе привлечь руководителей бизнеса, конечных пользователей, ИТ-персонала и других заинтересованных сторон, поскольку именно здесь вам нужно ответить на такие вопросы, как: зачем вам нужно создавать хранилище данных? Будет ли он охватывать всю организацию или сосредоточится на конкретных отделах или бизнес-функциях? Какие бизнес-процессы он будет поддерживать? Как это повысит ценность? Обеспечение поддержки заинтересованных сторон и определение этих целей повлияют на все последующие решения — их поддержка обеспечит проекту необходимое внимание и ресурсы.

A стратегия хранения данных описывает, как ваша организация собирает, хранит, управляет и использует данные. Таким образом, в рамках этого этапа вам также необходимо установить политику управления данными, специфичную для вашего бизнеса. Эти политики определяют, кто несет ответственность за различные решения и процессы, связанные с данными, как Качество данных обеспечивается и как решать проблемы безопасности и конфиденциальности данных.

Сбор квалифицированной команды

Создание хранилища данных — сложная задача, требующая разноплановой команды профессионалов. Этот шаг гарантирует, что ваш проект хорошо оснащен необходимыми специалистами для создания, развертывания и обслуживания хранилища данных, отвечающего вашим аналитическим потребностям.

Хотя успех команды во многом зависит от ее членов, в совокупности они должны обладать комплексом технических навыков. Обычно вам потребуются люди с опытом работы с SQL, процессами ETL и моделирование данных, а также человека, обладающего навыками управления проектами и глубоким пониманием бизнес-сферы. Короче говоря, ваша команда в идеале должна состоять из:

  • архитекторы данных для проектирования системы
  • инженеры по обработке данных для его создания и обслуживания
  • бизнес-аналитики, чтобы убедиться, что он отвечает потребностям пользователей
  • администраторы баз данных для управления хранилищем данных
  • менеджеры проектов, чтобы все было в порядке

Обеспечение безопасности важнейших ресурсов

Помимо команды профессионалов, вам также потребуется выделить бюджет на первоначальную настройку и внедрение, а также на текущую эксплуатацию и обслуживание вашего хранилища данных. Сюда входит инфраструктура для размещения вашего хранилища данных, подходящие инструменты для управления и обрабатывать ваши данныеи меры безопасности для его защиты.

Первоначальная настройка и внедрение обычно являются наиболее ресурсоемкими этапами, требующими инвестиций в:

  • оборудование или облачные сервисы
  • лицензии на программное обеспечение
  • и профессиональные услуги по проектированию и разработке

Также важно учитывать затраты, связанные с Интеграция данных и потенциальная необходимость индивидуальной разработки, чтобы гарантировать возможность учета всех источников данных. В качестве альтернативы вы можете выбрать инструмент интеграции данных без кода который поставляется со встроенными разъемами для различных источников и мест назначения.

Создание технической базы

На очереди комплексный план оценки, обеспечивающий техническую готовность и готовность данных. Цель состоит в том, чтобы оценить производительность и масштабируемость существующих систем и выделить их сильные и слабые стороны, а также определить возможности для усовершенствований. Проведите углубленный анализ текущей инфраструктуры данных, оценив существующее оборудование, конфигурации сети и любые облачные сервисы.

Упражнение включает в себя каталогизацию всех источников данных, доступных вашей организации, например, внутренних систем, таких как CRM и ERP, внешних данных от партнеров и источников потоковых данных, таких как устройства IoT. Идентификация источников данных позволяет вам составить карту ландшафта данных и понять природу и бизнес-релевантность каждого источника данных.

Приобретение необходимых технических компонентов также является ключевым шагом на этом предварительном этапе создания хранилища данных. Он включает в себя выбор инструментов и платформ, которые помогут реализовать стратегию обработки данных вашей организации. Для Инструменты ETL, учитывайте такие факторы, как источники данных, преобразование данных потребности, интеграция с другими системами и т. д.

Аналогичным образом определите наиболее подходящие варианты хранения данных, учитывая требуемую емкость и скорость доступа. Определите, есть ли необходимость в сочетании локальных, облачных или гибридных решений хранения данных. Оснастите свою команду данных сложными инструментами моделирования данных, которые позволят построить надежную архитектура хранилища данных.

Создайте собственное хранилище данных за несколько дней, а не месяцев

Создание хранилища данных больше не требует программирования. С Astera Data Warehouse Builder позволяет спроектировать хранилище данных и развернуть его в облаке, не написав ни единой строки кода.

Подробнее

Создание хранилища данных: автоматизация этапа выполнения

Если у вас есть необходимые предпосылки, следующим шагом будет реализация плана и создание хранилища данных.

Автоматизированный инструменты для создания хранилищ данных, Такие, как Astera Строитель хранилищ данных, сократить многочисленные стандартные и повторяющиеся задачи, связанные с жизненный цикл хранилища данных всего за несколько простых шагов.

Astera Data Warehouse Builder — это комплексная платформа, которая упрощает и ускоряет процесс создания хранилища данных. Его интерфейс перетаскивания позволяет проектировать модели данных и процессы ETL без написания единой строки кода. Встроенные разъемы обеспечивают легкую интеграцию с различными источниками и системами назначения, как локальными, так и в облаке. AsteraВстроенные функции качества данных гарантируют, что в ваше хранилище данных попадут только достоверные данные для точной бизнес-аналитики, анализа и отчетности.

Давайте возьмем пример использования, чтобы проиллюстрировать процесс создания хранилища данных с использованием Asteraпостроитель хранилищ данных без кода.

Пример использования:

Shop-Stop — это вымышленный розничный интернет-магазин, который хранит данные о продажах в базы данных SQL. Недавно компания решила внедрить хранилище данных, чтобы получить надежную архитектуру отчетности и улучшить BI и аналитику. Однако их ИТ-команда и технические эксперты утверждают, что капитал и ресурсы, необходимые для выполнения и обслуживания всего процесса, можно значительно сократить, используя инструмент автоматического хранения данных.

Shop-Stop решает использовать Astera Data Warehouse Builder для проектирования, создания, развертывания и обслуживания своего хранилища данных. Давайте посмотрим, как происходит процесс построения хранилища данных с использованием Astera выглядит как.

Создание хранилища данных. Шаг 1. Создание модели исходных данных.

Первым шагом в создании хранилища данных является идентификация и моделирование исходных данных. Добавив в проект новую модель данных, вы можете провести реверс-инжиниринг вашей базы данных (в данном случае базы данных продаж Shop-Stop), чтобы создать модель исходных данных с использованием Обратный инженер на панели инструментов модели данных одним щелчком мыши. При этом модель данных создается автоматически. Каждая сущность в этой модели данных представляет собой таблицу, содержащую исходные данные Shop-Stop. Вот как это выглядит:

Создание хранилища данных: создание исходной модели

 

Получив модель данных, вы можете проверить ее, чтобы убедиться в отсутствии ошибок и предупреждений. Для этого просто нажмите на кнопку Проверка развертывания для чтения и записи опция на главной панели инструментов. Вот скриншот:

 

После проверки модели вы можете развернуть ее на сервере и сделать доступной для использования в Трубопроводы ETL (так же как ELT) или для анализа данных. Вот как это сделать. Теперь, когда вы создали, проверили и развернули модель исходных данных, давайте перейдем к следующему шагу.

Создание хранилища данных. Шаг 2. Создание и развертывание многомерной модели.

Следующим шагом в этом процессе является разработка габаритная модель которая будет служить целевой схемой для хранилища данных Stop-Stop. Вы можете использовать Сущность объект, доступный на панели инструментов модели данных, и интерфейс разработчика моделей данных с возможностью перетаскивания для разработки модели с нуля.

Поскольку Shop-Stop уже имеет схему хранилища данных в базе данных SQL, вам придется перепроектировать базу данных. Опять же, каждый объект в полученной модели хранилища данных представляет собой таблицу в окончательном хранилище данных Shop-Stop.

габаритная модель

 

Далее вам необходимо преобразовать эту модель в многомерную модель, назначив факты и измерения. Тип для каждой сущности устанавливается как Общие по умолчанию, когда база данных подвергается обратному проектированию. Вы можете удобно изменить тип на Факт or Размеры щелкнув правой кнопкой мыши по объекту и наведя курсор на Тип объекта в контекстном меню и выбрав подходящий тип из предложенных вариантов.

факты и размеры в ADWB

 

Сущность «Продажа» в центре — это сущность факта, а остальные — сущности измерения.

После того как у вас есть факты и измерения, вам необходимо настроить их для расширенного хранения и извлечения данных, назначив определенные роли полям, присутствующим в макете каждой сущности.

Для объектов измерения Роль измерения столбца в Макет Builder предоставляет полный список опций. К ним относятся:

  • Суррогатный ключ
  • Бизнес-ключ
  • Медленно меняющиеся типы измерений (SCD1, SCD2, SCD3 и SCD6)
  • Идентификаторы записей для отслеживания исторических данных (даты вступления в силу и окончания срока действия, текущий идентификатор записи и номер версии)
  • Измерение-заполнитель для отслеживания опоздавших и ранних фактов и измерений.

конструктор макетов в ADWB

 

Аналогично, сущность факта Макет Builder содержит Роль факта столбец, который позволяет вам назначить Ключ даты транзакции роль одному из полей. Вот как выглядит макет Распродажа сущность будет выглядеть так, как только вы назначили Ключ даты транзакции роль в поле:

конструктор макетов в ADWB 2

Когда ваша многомерная модель готова, вы можете проверить ее и развернуть для дальнейшего использования.

Создание хранилища данных. Шаг 3. Заполнение хранилища данных

Пришло время заполнить хранилище данных Shop-Stop, загрузив соответствующие исходные данные в таблицы с помощью конвейеров ETL. Astera позволяет вам строить ЭТЛ и ЭЛТ конвейеры с помощью конструктора потоков данных.

Для этого вам придется добавить новый поток данных в проект хранилища данных. Используйте обширный набор объектов, доступных в наборе инструментов потока данных, для разработки процесса ETL. Использовать Загрузчик фактов и Размерный погрузчик объекты для загрузки данных в таблицы фактов и измерений соответственно.

Вот какой поток данных для загрузки данных в Клиент таблица выглядит так:

заполнение хранилища данных в ADWB

Слева находится Источник таблицы базы данных объект, который извлекает данные из таблицы в исходной таблице. Справа Размерный погрузчик объект загружает данные в соответствующую таблицу в целевой многомерной модели.

Чтобы подключить каждый из этих объектов к соответствующим моделям, вам необходимо настроить исходный объект с помощью развертывания исходной модели данных:

установление соединения с базой данных в ADWB

 

Аналогично настройте объект Dimensional Loader с развертыванием целевой размерной модели, как показано на рисунке ниже:

Установление соединения с базой данных в ADWB 2

Обратите внимание, что вам нужно будет спроектировать поток данных для загрузки данных в таблицу фактов по-другому. Это связано с тем, что он содержит поля из нескольких исходных таблиц, но Источник таблицы базы данных объект может только извлечь данные из одной исходной таблицы за раз.

Вместо этого вы можете использовать Источник запроса модели данных объект, который позволяет извлечь несколько таблиц из исходной модели, выбрав корневую сущность. Это показано на скриншоте ниже:

 

Теперь, когда вы спроектировали все свои потоки данных, вы можете выполнить каждый из них, чтобы заполнить хранилище данных Shop-Stop данными о продажах. Чтобы избежать выполнения всех потоков данных по отдельности, разработайте рабочий процесс для оркестрации всего процесса.

выполнять потоки данных в ADWB

 

Наконец, автоматизируйте процесс обновления этих данных с помощью встроенного планировщика заданий. Чтобы получить доступ к планировщику заданий, перейдите в Сервер > Расписания заданий в главном меню.

Планировщик заданий в ADWB

 

В Планировщик Вкладка позволяет создать новое расписание для автоматизации процесса выполнения с заданной частотой.

Планировщик заданий в ADWB 2

 

Создание хранилища данных. Шаг 4. Визуализация и анализ.

После того как вы спроектировали и развернули свое хранилище данных, вы можете интегрировать его с ведущими в отрасли инструментами визуализации и анализа, такими как Power BI, Tableau, Domo и т. д., через встроенный сервис OData.

Визуализация данных через ADWB

 

Лучшие практики по созданию хранилища данных

Создание хранилища данных — это одно, а сделать его эффективным и результативным — это совершенно другая задача, требующая использования лучших практик.

Лучшие практики создания хранилища данных

Начните со стратегии хранилища данных

Всегда начинайте с четкой стратегии, в которой описываются бизнес-цели, объем ваших данных, архитектурный подход и то, как ваше хранилище данных будет развиваться с течением времени. Ваша стратегия хранилища данных должна соответствовать общей бизнес-стратегии и удовлетворять конкретные потребности в аналитике и отчетности.

Автоматизируйте все, что можете

Хотя мало что можно сделать для ускорения первоначального этапа планирования, вы можете значительно сократить время и требования к ресурсам, когда дело доходит до реализации. Используйте такие инструменты, как инструменты хранилищ данных, инструменты интеграции данныхи т. д. для автоматизации и ускорения повторяющихся и трудоемких задач.

Обратите внимание на качество данных

Качество вашей аналитики и отчетности будет зависеть от качества данных, которыми вы заполняете свое хранилище данных. Гарантировать управление качеством данных путем внедрения надежных процессов очистки, дедупликации и проверки данных.

Примите масштабируемую архитектуру

По мере роста объемов данных и изменения потребностей бизнеса ваше хранилище данных должно иметь возможность адаптироваться, не требуя масштабных изменений. Использование модульной архитектуры, обеспечивающей масштабируемость и гибкость, гарантирует, что ваше хранилище данных сможет интегрироваться с новыми технологиями без значительных инвестиций.

Внедрить надежный процесс ETL

Создавайте конвейеры ETL, достаточно надежные для обработки больших объемов данных практически в реальном времени. Максимально автоматизируйте процесс ETL, чтобы свести к минимуму ручное вмешательство и обеспечить целостность данных.

Создайте свое хранилище данных без особых усилий с помощью платформы, полностью не требующей программирования

Создайте полнофункциональное хранилище данных за считанные дни. Развертывание локально или в облаке. Используйте мощные конвейеры ETL/ELT. Обеспечьте качество данных во всем. И все это без написания единой строчки кода.

Скачать пробную версию

Создайте свое хранилище данных с помощью Astera

Создание хранилища данных может легко стать ресурсоемким и трудоемким процессом, учитывая сложность интеграции и организации больших объемов данных из различных источников, количество которых продолжает увеличиваться по мере роста вашего бизнеса. Вот почему современные организации используют автоматизированные решения для управления данными ускорить развитие своих хранилищ данных.

У вас сжатые сроки, требующие создания хранилища данных в течение нескольких дней, а не месяцев? Свяжитесь с одним из наших экспертов по решениям по адресу +1 888-77-ASTERA. Альтернативно, вы можете скачать 14-дневная бесплатная пробная версия or посмотреть демо.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся