Блог

Главная / Блог / Как загрузить данные из AWS S3 в Snowflake

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Как загрузить данные из AWS S3 в Snowflake

Усман Хасан Хан

Контент-стратег

Март 21st, 2024

По исследование Statistaрынок облачных хранилищ был оценен в 90.17 млрд долларов США в 2022 году и достигнет значения 472.47 млрд долларов США к 2030 году. Эти цифры указывать растущий сдвиг в сторону облачных вычислений и решений для хранения данных.

Типичный сценарий современного управления данными предполагает передачу данных из облачного хранилища на облачные вычислительные платформы. Amazon Simple Storage Service (S3) является одним из самых популярных кредита в первом случае, а компании доверяют Snowflake во втором. 

В результате передача данных S3 в Snowflake является обычным явлением для компаний, стремящихся польза из взаимодействие масштабируемого хранилища S3 и первоклассных функций хранилища данных Snowflake. 

В этом блоге обсуждаются домен Процесс загрузки данных S3 в Snowflake и объяснениеЕсть два способа настройки, чтобы вы могли выбрать правильный. Давайте начать. 

Обзор Amazon S3 

Amazon S3 — это служба объектного хранения от Amazon Web Services (AWS). Он поддерживается масштабируемой инфраструктурой хранения данных, поддерживающей огромную глобальную сеть электронной коммерции Amazon. 

Amazon S3 — это высокоскоростной облачный веб-сервис хранения данных, который создает онлайн-резервные копии данных и приложений на AWS. Он хорошо подходит для удовлетворения требований к хранению данных любого объема в различных отраслях. 

Интеграция с другими сервисами AWS: Вы можете связать S3 с другими сервисами безопасности и мониторинга AWS, такими как Macie, CloudTrail и CloudWatch. Также возможен вариант прямого подключения услуг поставщиков к S3. 

Простая и безопасная передача данных: Вы можете перенести данные на S3 через общедоступный Интернет через API S3. Amazon S3 Transfer Acceleration поможет вам передавать данные быстрее, а AWS Direct Connect создает частное соединение между S3 и вашим центром обработки данных. 

Случаи использования: Amazon S3 — хороший вариант хранилища для организаций разного размера благодаря возможностям масштабируемости, безопасности, доступности и производительности. Типичные случаи использования S3 включают следующее: 

  • Хранилище данных 
  • Архивирование данных 
  • Хранение документов 
  • Резервное копирование данных 
  • Хранение файлов журналов 
  • Доставка программного обеспечения 
  • Веб-хостинг 
  • Озера данных и хранилища данных

Обзор снежинки 

Snowflake — это полностью управляемое программное обеспечение как услуга (SaaS), запущенное в 2012 году и запущенное в 2014 году. предлагает единую платформу для решения пользовательских хранилищ данных, озер данных, науки о данных, применения и разработки данных, а также требований к инженерии данных. Он также поддерживает безопасное совместное использование и использование данных в реальном времени или общих данных. 

Изображение, изображающее архитектуру Снежинки.

Это облачное решение для хранения данных упрощает хранение, обработку и анализ структурированных и полуструктурированных данных. Разделение вычислений и хранения в Snowflake отличает его от обычных хранилищ данных. Это позволяет вам независимо распределять ресурсы по различным функциям в зависимости от ваших требований. 

Вот некоторые ключевые особенности Snowflake: 

Без аппаратного обеспечения и с ограниченным программным обеспечением: Являясь настоящим SaaS-предложением, Snowflake не обременен виртуальным или физическим оборудованием, которое вам придется устанавливать или настраивать. Также практически нет программного обеспечения, которое вам нужно будет настраивать. 

Простое техническое обслуживание: Snowflake берет на себя все задачи по обслуживанию, обновлениям, настройке и управлению, что облегчает административную нагрузку для пользователей. 

Агностицизм облачных провайдеров: Snowflake известен своей независимостью от поставщиков облачных услуг. Он доступен на AWS, Azure и GCP и сохраняет свою функциональность и удобство для конечных пользователей на каждом из них.

Как загрузить данные из S3 в Snowflake? 

Есть два способа загрузки данных из S3 в Snowflake: вручную или автоматически.. 

Изображение, показывающее два метода передачи данных из AWS S3 в Snowflake.

Ниже, Что ж обсудите перенос данных вручную с помощью команды COPY INTO и автоматический перенос данных с помощью стороннего инструмента интеграции, такого как Astera. 

Ручная передача данных из S3 в Snowflake

Следующие шаги включают настройку передачи данных между S3 и Snowflake вручную: 

1. Настройка корзины Amazon S3 

  • Если у вас еще нет корзины Amazon S3, создайте ее, в которой будут храниться ваши данные. 
  • Убедитесь, что Snowflake имеет необходимые разрешения для доступа к этому сегменту. Возможно, вам потребуется настроить роль AWS Identity and Access Management (IAM), предоставить ей необходимые разрешения и прикрепить ее к учетной записи Snowflake.

2. Настройка внешней сцены Snowflake 

  • Войдите в свою учетную запись Snowflake. 
  • Создайте внешнюю сцену с помощью веб-интерфейса Snowflake или команд SQL. 
  • Укажите путь к корзине Amazon S3 в качестве места для внешнего этапа. 

3. Создайте таблицу снежинок. 

  • Определите схему таблицы Snowflake, соответствующую структуре данных ваших файлов Amazon S3. 
  • Создайте таблицу в Snowflake для данных, переданных из S3. 

4. Настройте интеграцию Snowflake 

  • Создайте Интеграция снежинки объект для установления соединения между Snowflake и Amazon S3. 
  • Укажите необходимые сведения, такие как ключ доступа AWS, секретный ключ AWS и внешний этап, связанный с корзиной S3. 

5. Предоставьте необходимые разрешения 

  • Убедитесь, что пользователь или роль Snowflake имеет необходимые разрешения для доступа к внешней сцене и загрузки данных в таблицу Snowflake. 

6. Загрузите данные в Snowflake. 

  • Используйте команду COPY INTO в Snowflake, чтобы загрузить данные с внешней сцены (Amazon S3) в таблицу Snowflake. 
  • Укажите формат исходного файла, целевую таблицу и другие соответствующие параметры. 

7. Мониторинг и устранение неполадок 

  • Контролируйте процесс передачи данных, чтобы обеспечить бесперебойную и безошибочную работу. 
  • Проверьте журналы Snowflake и Amazon S3 на наличие сообщений об ошибках и устраните неполадки в случае возникновения ошибок. 

Если вы хотите автоматизировать передачу данных из S3 в Snowflake, вы можете настроить расписание с помощью планировщика задач Snowflake или стороннего инструмента планировщика. Определите расписание выполнения команды COPY INTO для загрузки новых данных из Amazon S3 в Snowflake через определенные промежутки времени. 

AWS S3 для передачи данных Snowflake. Упрощенный.

Получите полный контроль над конвейерами AWS S3 — Snowflake, не написав ни единой строки кода. Пытаться Astera в течение двух недель и ощутите разницу на себе.

Начни мою БЕСПЛАТНУЮ пробную версию

Ограничения ручной передачи данных из AWS S3 в Snowflake 

Загрузка данных из AWS S3 в Snowflake вручную может показаться простой, но все же имеет определенные ограничения. Ниже приведены некоторые из основных из них, о которых вам следует знать: 

  • Стоимость передачи данных: Перенос огромных объемов данных из S3 в Snowflake может быстро увеличить затраты на передачу данных. Эти затраты могут со временем накапливаться и становиться непомерно высокими. 
  • Сетевая задержка: Задержка в сети может повлиять на скорость передачи данных при передаче S3 – Snowflake. Это зависит главным образом от географического расстояния между вашим экземпляром Snowflake и регионом AWS с вашей корзиной S3, а также от вашего сетевого подключения. 
  • Безопасность данных: И AWS, и Snowflake предлагают механизмы для обеспечения безопасной передачи данных, такие как роли IAM и шифрование HTTPS. Однако неправильно настроенные протоколы или пробелы в методах безопасности потенциально могут привести к раскрытию конфиденциальной информации во время передачи. 
  • Совместимость форматов данных: Snowflake поддерживает такие форматы, как JSON, CSV, Avro и Parquet. Однако вы можете столкнуться с проблемами, если ваши данные S3 находятся в формате, который Snowflake не поддерживает напрямую — это потребует предварительной обработки или преобразования данных перед загрузкой. 
  • Масштабируемость и параллелизм: Snowflake оснащен мощными функциями параллелизма и масштабируемости. Однако разумнее оптимизировать процессы загрузки данных и распределение ресурсов, чтобы избежать узких мест в производительности, замедления загрузки данных и сбоев в работе служб. 
  • Обработка ошибок и мониторинг: Процессы загрузки данных подвержены ошибкам из-за проблем с сетью, несовместимости форматов данных или отсутствия необходимых разрешений. Вам придется внедрить комплексные механизмы обработки ошибок, чтобы быстро выявлять и устранять такие проблемы. 
  • Соответствие нормативам: В зависимости от характера ваших данных и применимых нормативных требований обеспечение соответствия стандартам управления данными, таким как Общий регламент по защите данных (GDPR), Закон о переносимости и подотчетности медицинского страхования (HIPAA) и Стандарт безопасности данных индустрии платежных карт (PCI DSS). может потребовать от вас значительных усилий. 

Автоматизированная передача данных из AWS S3 в Snowflake с использованием Astera 

1. Просмотр облачных файлов

Во-первых, обратите внимание, что являетесь может просматривать облачные файлы в источнике Excel или любом другом источнике файлов в Astera. 

Настройка объекта ExcelSource в Astera

2. Настройка облачных подключений

Выбор 'Просмотр облачных файлов" вариант возьму являетесь в браузер, где являетесь можно настроить облачные подключения. Здесь, являетесь можно настроить Amazon S3, выбрав 'Добавить новое соединение" и ввод учетных данных, как показано ниже. 

Настройка подключения к облаку в Astera

Настройка подключения к облаку в Astera.

3. Выбор правильного файла

Далее, вы будете выберите файл являетесь хотите получить доступ в AWS S3. 

Выбор файла для доступа в AWS S3 с помощью Astera.

Выбранный файл появится в пути к исходному файлу следующим образом: 

Выбранный пользователем файл появляется в пути к исходному файлу в Astera

4. Проверьте макет файла

После появления являетесь проверьте макет файла в Astera, вот как это будет появляться: 

Проверка макета файла в Astera.

После настройки исходный объект будет выглядеть следующим образом: 

Настроенный исходный объект в Astera.

5. Настройка Снежинки

Далее, вы будете настроить Snowflake, настроив Назначение базы данных объект с учетными данными Snowflake: 

Объект назначения базы данных в Astera

Наряду со связью со Снежинкой, являетесь при необходимости можно настроить промежуточную зону. На изображении ниже домен Amazon S3 ведро служит в качестве плацдарма. 

Настройка объекта Snowflake Destination в Astera.

Ты теперь мы настроили Snowflake в качестве целевого объекта. и Dataflow будет выглядеть как показано ниже: 

Настроенный целевой объект Snowflake в Astera

6. Сопоставление, предварительный просмотр вывода и запуск потока данных

Далее, вы будете создавать сопоставления из Исходный объект (S3) в Целевой объект (Снежинка): 

Сопоставленные объекты источника (S3) и назначения (снежинка) в Astera.

"Предварительный выход" для Целевой объект будет выглядеть так: 

«Предварительный просмотр вывода» для целевого объекта во время передачи данных S3 в Snowflake. Astera.

Наконец, когда являетесь запустите поток данных, используя 'Запустить поток данных" кнопка, Astera запишет данные в пункт назначения, завершив передачу данных S3 в Snowflake. 

Ручная передача данных S3 в Snowflake по сравнению с автоматической передачей в Astera 

Как видно выше, настройка ручной передачи данных S3 в Snowflake является допустимым вариантом. Однако этот процесс может быть сложным, особенно для нетехнических пользователей. Подводя итог, следующие шаги: 

  • Настройка сегмента S3 
  • Создание роли IAM 
  • Создание внешней сцены в Snowflake 
  • Настройка схемы таблицы и создание таблицы в Snowflake 
  • Создание объекта интеграции Snowflake 
  • Загрузка данных из S3 в таблицу Snowflake с помощью команды COPY INTO 
  • Мониторинг и устранение неполадок процесса передачи данных по мере необходимости 

В противоположность, Astera упрощает передачу данных S3 в Snowflake благодаря интуитивно понятному интерфейсу, функции перетаскивания и простоте использования. Он позволяет вам удобно создавать и автоматизировать передачу данных за несколько кликов, независимо от ваших технических навыков. 

Заключение 

Astera оптимизирует сквозное управление данными для ряда отраслей. Это мощный, Готовое решение для предприятий позволяет проектировать, развертывать и автоматизировать конвейеры S3 — Snowflake — без необходимости написания кода. 

Узнайте, как вы можете использовать Astera чтобы преобразовать процессы передачи данных. Свяжитесь с нашей командой or Начните бесплатный пробный период Cегодня! 

Вам также может понравиться
Что такое онлайн-обработка транзакций (OLTP)?
Лучшие инструменты интеллектуального анализа данных в 2024 году
Тестирование хранилища данных: процесс, важность и проблемы 
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся