Блог

Главная / Блог / Сессия вопросов и ответов с Полом Келлеттом об автоматизированных конвейерах данных

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Сессия вопросов и ответов с Полом Келлеттом об автоматизированных конвейерах данных

Аммар Али

Content Manager

Август 4th, 2022

Автоматизированные конвейеры данных служат основой экосистемы, полностью управляемой данными. Они позволяют предприятиям извлекать данные из разрозненных источников, применять преобразования и выполнять процесс интеграции эффективно, надежно и быстро. Все больше компаний выбирают автоматизацию хранилищ данных, чтобы улучшить анализ данных и повысить стратегическую конкуренцию.

Мы недавно запустили Astera DW Builder — комплексная платформа автоматизации хранилища данных, которая обеспечивает итеративную среду без кода для проектирования, разработки и развертывания конвейеров данных с беспрецедентной скоростью.

Чтобы обучить современный бизнес навыкам саморегулируемого конвейера данных, мы провели живой вебинар под названием: Обеспечьте безопасность вашего хранилища данных в будущем с помощью саморегулируемых конвейеров данных ноябрь 2nd, где у нас была прекрасная возможность поговорить с Полом Келлеттом. Он имеет более чем 25-летний опыт работы над проектами бизнес-аналитики корпоративного уровня для организаций.

В ходе нашей сессии вопросов и ответов мы получили ценную информацию о создании высококачественных автоматизированных конвейеров данных, современных процессах хранилищ данных, облачных хранилищах данных и многом другом.

Афнан: Современные хранилища данных обрабатывают огромные объемы данных. Можете ли вы порекомендовать какие-либо передовые методы, которые людям следует использовать для создания конвейеров данных, которые могут эффективно доставлять такие большие объемы данных в свои хранилища данных?

Пол: Да, но я бы еще добавил, что дело не только в объемах данных. Это разнообразие источников, разнообразие форматов источников и тот факт, что если вы находитесь в какой-либо корпоративной среде, вы часто получаете доступ к десяткам систем — они находятся в состоянии постоянных изменений. Таким образом, тип данных, которые вы получаете, обычно меняется.

Эти системы не стоят на месте — предприятия внедряют инновации и меняются, поэтому здесь вы рассматриваете несколько проблем. Вам нужно надежно вставить его; вам необходимо [обрабатывать данные] надежным образом [с] как можно меньшим количеством вмешательств. Исторически люди могли создавать целую серию извлечений из своих исходных систем, они использовали решения типа «точка-точка», в которых можно было использовать несколько различных механизмов для получения данных. Я бы сказал: попробуйте создать постоянный стандартный механизм, и у вас будет один тип практики.

Затем вам необходимо внедрить инструменты, подходящие для этих целей. Поэтому избегайте, насколько это возможно, ручных или точечных решений. Что мы видим во многих хранилищах исторических данных, так это то, что существует ряд индивидуальных решений, созданных вручную, для получения данных из системы «А» и другого решения из «Системы Б». В конечном итоге они сталкиваются с проблемами качества и надежности, а также с проблемами обслуживания и имеют тенденцию довольно медленно адаптироваться к изменениям.

Итак, это тройной удар с точки зрения этого. Вы хотите использовать вещи, которые делают за вас тяжелую работу. Вы не хотите повторять стандартные вещи, такие как обработка ошибок. Вам нужно, чтобы он был простым, легким, надежным, последовательным и стандартным. Моим последним замечанием по этому вопросу было бы попытаться, если возможно, получить данные из исходных систем, а не предоставлять их вам в виде извлечения.

Афнан: Конвейеры данных и ETL — это, по сути, концепция, которая была синонимом хранилищ данных с момента появления этой технологии. Итак, как, по вашему мнению, развивались ELT и конвейерная обработка данных в эпоху больших данных? Как вы думаете, какие инновации могут снизить стоимость и сложность традиционного ETL?

Пол: Исторически большая часть затрат приходилась, вероятно, на две основные области: первая заключалась в большом количестве решений ручной работы, которые довольно дороги и весьма ограничены. Кроме того — и я не говорю здесь об инструментах ELT, но — они были большими [и] дорогими. Им требуются специализированные ресурсы и собственная выделенная инфраструктура, оборудование, серверы, платформы, и им [требуются] ресурсы, [которые] трудно достать.

Итак, то, что мы видим сейчас, — это попытка упростить подобные процессы. Таким образом, вместо того, чтобы решать, что вы собираетесь получить, они автоматически составляют для вас карту. Это гораздо больше щелчков и точек, чем это было исторически. Итак, мы видим, что это, по сути, снижает потребность и [позволяет] гораздо больше кодировать и продвигать это.

Афнан: Одно из основных требований, которое мы часто наблюдаем, заключается в том, что все больше организаций хотят сейчас создавать конвейеры ELT вместо традиционных конвейеров ETL. Итак, что вы думаете об этом подходе? Как вы думаете, это может сработать для каждой организации? или есть определенные вещи, которые организациям следует учитывать, прежде чем переходить на ELT вместо ETL?

Пол: Итак, во-первых, никогда не бывает одного решения, которое подходило бы для всего. Есть случаи, когда ETL вполне подходит; на самом деле, предпочтительнее. Но мы видим, что предпочтительной отправной точкой в ​​настоящее время, вероятно, будет ELT. Программное обеспечение и архитектура баз данных существенно улучшились. Одной из потребностей исторического ELT была неспособность базы данных обрабатывать большие объемы преобразований, необходимых во временных масштабах. Они могут выполнять очень большое количество вариантов использования.

Я лично двигался в сторону ELT. Я не могу вспомнить, когда в последний раз занимался ELT — это было как минимум десять лет назад. Их основной движущей силой будет оздоровительный компонент. Вы упростили свое решение. У вас на одну платформу меньше, чтобы ошибиться, и вам придется установить [а также] на один набор тестовых платформ меньше. Итак, вы отбросили свою сложность.

У вас также есть затраты, поскольку у вас нет платформ для этого, поэтому факторы, которые вызывали необходимость в этом, по сути, уменьшились. Если бы я смотрел сегодня на среду Greenfields, я бы предположил, что моей отправной точкой будет ELT, а затем отойду от нее, если почувствую, что мне это нужно из-за каких-то особых обстоятельств.

Афнан: Как вы можете гарантировать, что в вашем хранилище данных есть правильные данные? и что они объединяются, консолидируются и [и] преобразуются таким образом, чтобы это соответствовало вашим требованиям к отчетности и аналитике?

Пол: Итак, во-первых, вы не можете получить гарантированно правильные данные. Причина этого в том, что вы полагаетесь на данные, которые вам предоставляют исходные системы, и, как подтвердит любой, кто работал в этой области, они часто предоставляют вам неверные или противоречивые данные или данные имеют проблемы, если они представлены в другом виде — [ оно] обеспечивает неправильную позицию.

Но что вы можете сделать, так это попытаться дать наилучшую картину данных наилучшим возможным способом. Вам не следует настраивать себя, говоря, что мы собираемся предоставить точные данные, потому что этого не происходит. К счастью, [это] не так важно, потому что обычно речь идет об аналитике, а речь идет о понимании объема данных, поэтому это не обязательно является проблемой, если вы правильно ею управляете.

Если вы хотите получить наилучшие данные, я бы посоветовал несколько тактик, одна из них — чрезмерный сбор. Если мы возьмем пример, скажем, транзакций продаж, вас попросят предоставить отчет о продажах или анализ продаж, и кто-то определит, что вам нужны поля A, B и C этих двух таблиц, а затем [поля] от этого и этого. и это, и вы получите данные, необходимые для решения проблемы.

Мой общий совет: если вам нужна информация о продажах, соберите всю транзакцию продаж [и] все связанные с ней данные. Кроме того, воспринимайте это как можно более неизмененным. Не рискуйте, по сути, при преобразовании или каком-либо выводе данных, внося свои собственные ошибки перевода. Перенесите это в свое хранилище данных и сделайте это там.

Я также хотел бы создать несколько циклов обратной связи, чтобы у меня была возможность проводить проверки на высоком уровне. Скажем, у меня есть данные, которые я ожидаю получить, и обычно я использую надежные отчеты или данные из исходных систем, а затем сопоставляю их с чем-то аналогичным в том, что вы получаете по мере прохождения.

Важно понять, что достаточно хорошо для бизнеса. Например, исторически сложилось так, что бухгалтерские операции должны быть безупречными и в пределах центов, но если ваши продажи немного вырастут, это не конец света. Итак, я бы тоже использовал подобные вещи. Существуют стандартные приемы и приемы, такие как стандартное форматирование данных и удаление конечного пробела, например запятой. Решите, что вы собираетесь это сделать, и делайте это [стандартным] способом.

Афнан: Когда вы говорите о сборе всех этих данных из разных источников. Вы будете иметь дело с несколькими конвейерами данных, и все эти конвейеры, очевидно, будут иметь разные задержки данных и взаимозависимости. Итак, каковы, по вашему мнению, основные элементы для организации этих конвейеров?

Пол: Существуют довольно стандартные проверенные методы моделирования размеров. Кимбалл [это] очень хорошее место, чтобы начать изучать советы и методы проектирования, которые они дали. Они очень хорошо подходят для создания хранилища данных таким образом, чтобы ваши данные были согласованными и представляли общий формат по мере продвижения.

Они будут обрабатывать такие вещи, как недостающая информация, поэтому, если у вас нет XYZ, поступающего из определенного источника, если вы не знаете определения продукта, тогда вы знаете, что у вас есть стандартные методы, например, я пойду и создам доменный продукт, поэтому в по крайней мере, в моем отчете о продажах указан продукт. Возможно, я не знаю информации о продукте, но я буду знать, что у меня есть информация о продукте под названием «фрахт». Я больше ничего не знаю об этом продукте, но это все, что я знаю.

Во-вторых, вам нужно определять способ обработки информации о содержании данных [метаданных], а не то, как данные обрабатываются или получают к ним доступ. Итак, если в понедельник вы получаете транзакции воскресенья, не думайте, что вы получаете транзакции воскресенья. Отбросьте все это от дат в данных. Итак, всегда старайтесь извлечь из данных как можно больше дат, чтобы вы знали, что происходит, и затем таким образом вы могли снова сопоставить данные друг с другом.

Итак, тогда вы столкнетесь с некоторыми несоответствиями между системами, особенно [когда у вас] есть десятки систем, доставляющих данные в ваше хранилище данных, и одна из них обязательно выйдет из строя, в какой-то момент одна из них будет доступна. [и] это будет происходить часто. С этой целью представьте то, чего не хватает, как часть вашего решения, а не просто представьте это, а дайте ясно и очевидно, что у нас нет данных о запасах на понедельник для [скажем] распределительного центра 27.

Разберитесь с этим как с частью вашей обработки; это будут мои основные комментарии. Поэтому используйте данные для его управления; Кимбалл — король, и убедитесь, что бизнес знает, когда вы получаете то, чего еще не было.

Афнан: Облачные хранилища данных набирают обороты, особенно в этом году мы слышали о них повсюду. Итак, какие, по вашему мнению, соображения следует учитывать командам корпоративных данных при построении конвейеров данных специально для облачного хранилища данных?

Пол: Хорошо, я предполагаю, что когда мы говорим о приобретенном облачном сервисе с точки зрения хостинга и управления инфраструктурой вашего хранилища данных. Итак, с технической точки зрения, переход в облако не так уж и велик.

[Основные] технические различия заключаются в том, что вы, очевидно, находитесь в Интернете и можете перемещать большие объемы данных, поэтому вам нужно хорошо подумать о том, как вы собираетесь перемещать эти большие объемы данных. объемы вокруг. Являются ли ваши исходные системы и облачная инфраструктура (с точки зрения сети) достаточно близко друг к другу, чтобы вы могли перемещать эти вещи? Кроме того, достаточно ли они надежны между вашими различными системами, чтобы вы снова имели надежность данных.

Другой элемент, на который стоит обратить внимание, часто связан с решениями для хранения данных. Существуют элементы типа приборной панели, а элементы типа приборной панели довольно часто быстро приспосабливаются к реактивной форме. Им необходимо довольно быстро реагировать на пользователей, если вы нажмете здесь и получите следующий набор.

Задержка имеет значение. Если время пинга между вашими пользователями и вашей облачной инфраструктурой низкое, это может ухудшить внешний вид ваших информационных панелей, даже если это не так. Большинство соображений будет касаться коммерческой, нормативной или инфраструктурной деятельности. Когда вы переходите в облако, вы обычно выбираете поставщика. Итак, вы теперь не зависите от технологий. Вы зависите от поставщика, чтобы его системы были в рабочем состоянии.

В большей степени речь идет об измерении поставщика и его способностей, а не технологии. Некоторые из потенциальных проблем с регулированием заключаются в том, что — если я посмотрю здесь, где я нахожусь — вам по сути не разрешается вывозить данные о здоровье (например, из страны) без специального разрешения, потому что это персональные данные, и существуют правила относительно того, что вы можете сделать. делать с личными данными.

Точно так же у вас есть определенная безопасность данных, на которую вам необходимо обратить внимание, поскольку теперь на вас возложена ответственность за сохранность ваших данных перед третьей стороной. На самом деле, они, вероятно, будут лучше справляться с безопасностью данных, чем вы, потому что это часть их жизни, но вам все равно нужно убедиться, что вы это проверяете. И на самом деле, я бы сказал, что это, вероятно, одна из областей, где можно отдохнуть немного легче.

Одна из особенностей перехода в облако заключается в том, что вы получаете гораздо больше возможностей [с точки зрения] вашей способности адаптироваться. [Есть] ряд случаев, когда я работал с клиентами, и, по сути, их хранилище данных было настроено. на 10-летней архитектуре, которая медленно скрипела, [с] ежедневными грузами, прибывающими все позже и позже утром. [Итак], вы не получите отчеты до полудня, но задача переезда была невероятно трудной.

У них были всевозможные проблемы, связанные с попытками нанять и владеть ресурсами, способными выполнять такую ​​​​работу, чтобы вы могли передать большую часть этой проблемы кому-то другому. Однако не делайте этого из соображений экономии, потому что, как правило, это будет стоить одинаково; даже если модель расчета затрат может отличаться, вы покупаете больше и становитесь лучше. Вот некоторые соображения по поводу перехода в облако.

Афнан: Как вы думаете, какое место во всем этом занимает автоматизация? [Используя] автоматизацию и оркестрацию, как, по вашему мнению, можно сделать весь процесс построения и обслуживания конвейеров данных более эффективным?

Пол: Во-первых, насколько это возможно, избегайте одноточечных решений и используйте что-то, что делает за вас тяжелую работу. Итак, вы хотите что-то, что оно будет отслеживать за вас. Зачастую эти нагрузки происходят посреди ночи. Вам нужны стандартные возможности автоматического типа, такие как возможность перезапуска с определенного момента времени, пропуск точек и все такое, что касается контроля заданий и управления заданиями.

Вам нужно что-то, что по сути легко построить. Чем проще соединить их [систему] вместе, тем больше данных вы получите. Чем быстрее вы их получите и чем [меньше] ошибок у вас будет при вводе этих данных, тем больше вероятность, что вы сделаете это так, как того хочет от вас бизнес.

Я имею в виду, кстати, я часто говорю, что мы сами себе злейшие враги. Если мы добьемся успеха в решении бизнес-аналитики, мы обычно знаем об этом, поскольку полностью перегружены спросом. Итак, вам нужно уметь делать эти вещи самым простым способом, чтобы удовлетворить этот спрос.

Исторически стоимость перемещения [и] создания хранилищ данных составляла порядка шестидесяти процентов, а может быть, даже двух третей, в зависимости от ваших временных масштабов на стороне ELT. Итак, вы действительно хотите убедиться, что у вас есть что-то, что делает для вас множество повторяемых задач максимально простым способом, потому что это такой большой объем, который может стоить довольно значительных затрат.

Astera DW Builder: платформа автоматизированного хранилища данных

Astera DW Builder — это комплексное решение для хранения данных, которое позволяет разрабатывать автоматизированные конвейеры данных в среде без кода. Унифицированная платформа имеет архитектуру на основе метаданных и оптимизирует процессы проектирования и проектирования, предоставляя точную и актуальную информацию, способствующую более эффективному принятию решений.

Предприятия могут создавать саморегулируемые конвейеры данных, используя расширенные возможности ETL и ELT, такие как встроенная оркестрация рабочих процессов и компоненты планирования заданий. Astera Строитель ДВ. Попытка Astera DW Builder сегодня чтобы узнать, как это может повысить ценность вашей организации.

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Лучшие инструменты приема данных в 2024 году
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся