Blogs

Startseite / Blogs / So laden Sie Daten von AWS S3 in Snowflake

Inhaltsverzeichnis
Die automatisierte, Kein Code Datenstapel

Erfahren Sie, wie Astera Data Stack kann die Datenverwaltung Ihres Unternehmens vereinfachen und rationalisieren.

So laden Sie Daten von AWS S3 in Snowflake

Usman Hasan Khan

Inhalt Strategist

März 21st, 2024

Laut eine Studie von Statista, der Cloud-Speichermarkt wurde mit bewertet 90.17 Milliarden Dollar im Jahr 2022 und wird einen Wert von erreichen 472.47 Milliarden Dollar bis 2030. Diese Zahlen zeigen eine zunehmende Verlagerung hin zu Cloud-Computing- und Datenspeicherlösungen.

Ein typisches Szenario im modernen Datenmanagement ist die Datenübertragung vom Cloud-Speicher auf cloudbasierte Computing-Plattformen. Der Simple Storage Service (S3) von Amazon gehört zu den Anlaufstellen Optionen Für Ersteres vertrauen Unternehmen Snowflake für Letzteres. 

Daher sind Datenübertragungen von S3 zu Snowflake für Unternehmen, die dies wünschen, weit verbreitet Nutzen von dem Synergie des skalierbaren Speichers von S3 und der erstklassigen Data Warehousing-Funktionen von Snowflake. 

Dieser Blog diskutiert S3-zu-Snowflake-Datenladevorgang und ErläuterungEs gibt zwei Möglichkeiten, es einzurichten, sodass Sie die richtige auswählen können. Lasst uns loslegen. 

Amazon S3-Übersicht 

Amazon S3 ist ein Objektspeicherdienst von Amazon Web Services (AWS). Unterstützt wird es durch die skalierbare Speicherinfrastruktur, die das riesige globale E-Commerce-Netzwerk von Amazon unterstützt. 

Als webbasierter Hochgeschwindigkeits-Cloud-Speicherdienst erstellt Amazon S3 Online-Backups von Daten und Anwendungen auf AWS. Es ist gut geeignet, Datenspeicheranforderungen jeglichen Umfangs aus verschiedenen Branchen zu erfüllen. 

Integration mit anderen AWS-Diensten: Sie können S3 mit anderen AWS-Sicherheits- und Überwachungsdiensten wie Macie, CloudTrail und CloudWatch verknüpfen. Eine direkte Verknüpfung von Anbieterdiensten mit S3 ist ebenfalls möglich. 

Einfache und sichere Datenübertragung: Du kannst dich Daten an S3 übertragen über das öffentliche Internet über S3-APIs. Mit Amazon S3 Transfer Acceleration können Sie Daten schneller übertragen, und AWS Direct Connect stellt eine private Verbindung zwischen S3 und Ihrem Rechenzentrum her. 

Anwendungsfälle: Dank seiner Skalierbarkeit, Sicherheit, Verfügbarkeit und Leistungsfähigkeit ist Amazon S3 eine gute Speicheroption für Unternehmen unterschiedlicher Größe. Zu den typischen S3-Anwendungsfällen gehören die folgenden: 

  • Datenspeicher 
  • Datenarchivierung 
  • Dokumentenspeicher 
  • Datensicherung 
  • Speicherung von Protokolldateien 
  • Softwarelieferung 
  • Websitehosting 
  • Data Lakes und Data Warehouses

Übersicht über Schneeflocken 

Snowflake ist ein vollständig verwalteter Software-as-a-Service (SaaS), der 2012 gestartet und 2014 eingeführt wurde bietet eine einzige Plattform zur Bewältigung der Data Warehousing-, Data Lakes-, Data Science-, Datenanwendungs- und -entwicklungs- und Data Engineering-Anforderungen der Benutzer. Es unterstützt auch die sichere gemeinsame Nutzung und Nutzung von Echtzeit- oder gemeinsam genutzten Daten. 

Ein Bild, das die Architektur von Snowflake zeigt.

Diese cloudbasierte Data-Warehousing-Lösung vereinfacht die Speicherung, Verarbeitung und Analyse strukturierter und halbstrukturierter Daten. Die Trennung von Rechenleistung und Speicher unterscheidet Snowflake von herkömmlichen Data Warehouses. Auf diese Weise können Sie Ressourcen unabhängig von Ihren Anforderungen unterschiedlichen Funktionen zuweisen. 

Hier sind einige Hauptfunktionen von Snowflake: 

Keine Hardware und eingeschränkte Software: Als echtes SaaS-Angebot wird Snowflake nicht durch virtuelle oder physische Hardware belastet, die Sie installieren oder konfigurieren müssten. Es gibt auch praktisch keine Software, die Sie einrichten müssen. 

Problemlose Wartung: Snowflake übernimmt alle Wartungs-, Aktualisierungs-, Optimierungs- und Verwaltungsaufgaben und verringert so den Verwaltungsaufwand für die Benutzer. 

Agnostizismus gegenüber Cloud-Anbietern: Snowflake ist dafür bekannt, unabhängig von Cloud-Anbietern zu sein. Es ist auf AWS, Azure und GCP verfügbar und behält seine Funktionalität und Endbenutzererfahrung auf jedem von ihnen.

Wie lade ich Daten von S3 nach Snowflake? 

Es gibt zwei Möglichkeiten, Daten von S3 nach Snowflake zu laden: manuell oder automatisiert. 

Ein Bild, das zwei Arten von Methoden zum Übertragen von Daten von AWS S3 nach Snowflake zeigt.

Unten Gut Besprechen Sie die manuelle Datenübertragung mit dem Befehl COPY INTO und die automatisierte Datenübertragung mit einem Integrationstool eines Drittanbieters, z Astera. 

Manuelle Datenübertragung von S3 zu Snowflake

Die folgenden Schritte sind erforderlich, um eine Datenübertragung zwischen S3 und Snowflake manuell einzurichten: 

1. Einrichten des Amazon S3 Buckets 

  • Wenn Sie noch keinen Amazon S3-Bucket haben, erstellen Sie einen, in dem Ihre Daten gespeichert werden. 
  • Stellen Sie sicher, dass Snowflake über die erforderlichen Berechtigungen für den Zugriff auf diesen Bucket verfügt. Möglicherweise müssen Sie eine AWS Identity and Access Management (IAM)-Rolle einrichten, ihr die erforderlichen Berechtigungen erteilen und sie an das Snowflake-Konto anhängen.

2. Konfigurieren der externen Snowflake-Stufe 

  • Melden Sie sich bei Ihrem Snowflake-Konto an. 
  • Erstellen Sie einen externen Stagingbereich mithilfe der Snowflake-Weboberfläche oder SQL-Befehlen. 
  • Erwähnen Sie den Amazon S3-Bucket-Pfad als Speicherort für die externe Stufe. 

3. Erstellen Sie eine Schneeflockentabelle 

  • Definieren Sie ein Snowflake-Tabellenschema, das der Datenstruktur Ihrer Amazon S3-Dateien entspricht. 
  • Erstellen Sie in Snowflake eine Tabelle für die von S3 übertragenen Daten. 

4. Richten Sie die Snowflake-Integration ein 

  • Erstellen Sie Snowflake-Integration Objekt, um eine Verbindung zwischen Snowflake und Amazon S3 herzustellen. 
  • Geben Sie die erforderlichen Details an, z. B. den AWS-Zugriffsschlüssel, den geheimen AWS-Schlüssel und die externe Stufe, die dem S3-Bucket zugeordnet ist. 

5. Erteilen Sie die erforderlichen Berechtigungen 

  • Stellen Sie sicher, dass der Snowflake-Benutzer oder die Snowflake-Rolle über die erforderlichen Berechtigungen verfügt, um auf den externen Stagingbereich zuzugreifen und Daten in die Snowflake-Tabelle zu laden. 

6. Laden Sie Daten in Snowflake 

  • Verwenden Sie den Befehl COPY INTO in Snowflake, um Daten vom externen Stagingbereich (Amazon S3) in die Snowflake-Tabelle zu laden. 
  • Geben Sie das Quelldateiformat, die Zieltabelle und andere relevante Optionen an. 

7. Überwachung und Fehlerbehebung 

  • Überwachen Sie den Datenübertragungsprozess, um einen reibungslosen, fehlerfreien Betrieb sicherzustellen. 
  • Überprüfen Sie die Protokolle von Snowflake und Amazon S3 auf Fehlermeldungen und beheben Sie eventuelle Fehler. 

Wenn Sie die Datenübertragung von S3 zu Snowflake automatisieren möchten, können Sie mit dem Aufgabenplaner von Snowflake oder einem Planer-Tool eines Drittanbieters einen Zeitplan einrichten. Definieren Sie einen Zeitplan für die Ausführung des COPY INTO-Befehls, um in bestimmten Intervallen neue Daten von Amazon S3 in Snowflake zu laden. 

Datenübertragungen von AWS S3 zu Snowflake. Vereinfacht.

Genießen Sie die vollständige Kontrolle über Ihre AWS S3-zu-Snowflake-Pipelines, ohne eine einzige Codezeile schreiben zu müssen. Versuchen Astera zwei Wochen lang und erleben Sie den Unterschied selbst.

Starten Sie meine KOSTENLOSE Testversion

Die Einschränkungen der manuellen Datenübertragung von AWS S3 zu Snowflake 

Das manuelle Laden von Daten von AWS S3 nach Snowflake mag einfach erscheinen, weist jedoch dennoch gewisse Einschränkungen auf. Im Folgenden finden Sie einige der wichtigsten, die Sie kennen sollten: 

  • Datenübertragungskosten: Durch die Übertragung großer Datenmengen von S3 zu Snowflake können die Datenübertragungskosten schnell steigen. Diese Kosten können sich im Laufe der Zeit summieren und unerschwinglich teuer werden. 
  • Netzwerk-Latenz: Die Netzwerklatenz kann sich auf die Datenübertragungsgeschwindigkeit bei einer S3-Snowflake-Übertragung auswirken. Dies hängt hauptsächlich von der geografischen Entfernung zwischen Ihrer Snowflake-Instanz und der AWS-Region mit Ihrem S3-Bucket sowie Ihrer Netzwerkkonnektivität ab. 
  • Datensicherheit: Sowohl AWS als auch Snowflake bieten Mechanismen zur Gewährleistung einer sicheren Datenübertragung, wie z. B. IAM-Rollen und HTTPS-Verschlüsselung. Allerdings können falsch konfigurierte Protokolle oder Lücken in den Sicherheitsmethoden möglicherweise vertrauliche Informationen während der Übertragung preisgeben. 
  • Datenformatkompatibilität: Snowflake unterstützt Formate wie JSON, CSV, Avro und Parquet. Allerdings können Probleme auftreten, wenn Ihre S3-Daten in einem Format vorliegen, das Snowflake nicht direkt unterstützt – dies erfordert eine Vorverarbeitung oder Transformation der Daten vor dem Laden. 
  • Skalierbarkeit und Parallelität: Snowflake ist mit leistungsstarken Parallelitäts- und Skalierbarkeitsfunktionen ausgestattet. Es ist jedoch klüger, Ihre Datenladeprozesse und Ressourcenzuweisung zu optimieren, um Leistungsengpässe, langsameres Laden von Daten und unterbrochene Dienste zu vermeiden. 
  • Fehlerbehandlung und -überwachung: Datenladeprozesse sind aufgrund von Netzwerkproblemen, Inkompatibilität des Datenformats oder fehlenden erforderlichen Berechtigungen fehleranfällig. Sie müssen umfassende Fehlerbehandlungsmechanismen implementieren, um solche Probleme zeitnah zu erkennen und zu beheben. 
  • Einhaltung Gesetzlicher Vorschriften: Basierend auf der Art Ihrer Daten und den geltenden gesetzlichen Anforderungen stellen wir die Einhaltung von Data-Governance-Standards wie der Datenschutz-Grundverordnung (DSGVO), dem Health Insurance Portability and Accountability Act (HIPAA) und dem Payment Card Industry Data Security Standard (PCI DSS) sicher. kann von Ihrer Seite erhebliche Anstrengungen erfordern. 

Automatisierte Datenübertragung von AWS S3 zu Snowflake mit Astera 

1. Durchsuchen von Cloud-Dateien

Beachten Sie zunächst, dass U kann Cloud-Dateien in einer Excel-Quelle oder einer anderen Dateiquelle durchsuchen Astera. 

Konfigurieren eines ExcelSource-Objekts in Astera

2. Einrichten von Cloud-Verbindungen

Auswahl des 'Durchsuchen Sie Cloud-Dateien' Option wird dauern U zu einem Browser wo U kann Cloud-Verbindungen einrichten. Hier, U Sie können Amazon S3 einrichten, indem Sie „Neue Verbindung hinzufügen' und Eingabe der Anmeldeinformationen, wie unten gezeigt. 

Einrichten einer Cloud-Verbindung in Astera

Einrichten einer Cloud-Verbindung in Astera.

3. Die richtige Datei auswählen

Nächstes du wirst wählen Sie die Datei aus U Ich möchte in AWS S3 darauf zugreifen. 

Auswählen einer Datei, auf die in AWS S3 zugegriffen werden soll Astera.

Die ausgewählte Datei wird im Quelldateipfad wie folgt angezeigt: 

Die vom Benutzer ausgewählte Datei erscheint im Quelldateipfad in Astera

4. Überprüfen Sie das Dateilayout

Wann U Überprüfen Sie das Layout der Datei Astera, das ist wie es wird auftauchen: 

Überprüfen des Layouts einer Datei in Astera.

Nach der Konfiguration sieht das Quellobjekt folgendermaßen aus: 

Ein konfiguriertes Quellobjekt in Astera.

5. Snowflake einrichten

Nächstes du wirst Richten Sie Snowflake ein, indem Sie a konfigurieren Datenbankziel Objekt mit Snowflake-Anmeldeinformationen: 

Ein Datenbankzielobjekt in Astera

Zusammen mit der Snowflake-Verbindung, U kann optional einen Staging-Bereich konfigurieren. Im Bild unten, Amazon S3 Eimer dient als Bereitstellungsbereich. 

Konfigurieren eines Snowflake-Zielobjekts in Astera.

Du haben Snowflake nun als Zielobjekt konfiguriert und für Dataflow wird angezeigt als unten gezeigt: 

Ein konfiguriertes Snowflake-Zielobjekt in Astera

6. Zuordnen, Vorschau der Ausgabe und Ausführen des Datenflusses

Nächstes du wirst Erstellen Sie Zuordnungen aus dem Quellobjekt (S3) zum Zielobjekt (Schneeflocke): 

Zugeordnete Quell- (S3) und Zielobjekte (Snowflake) in Astera.

'Vorschau Ausgabe' für die Zielobjekt wird so aussehen: 

„Vorschauausgabe“ für ein Zielobjekt während der Datenübertragung von S3 zu Snowflake in Astera.

Schließlich, wann U Führen Sie den Datenfluss mit dem ' ausStarten Sie Dataflow' Taste, Astera schreibt die Daten an das Ziel und schließt die Datenübertragung von S3 zu Snowflake ab. 

Manuelle S3-zu-Snowflake-Datenübertragungen im Vergleich zu automatisierten Übertragungen in Astera 

Wie oben gezeigt, ist die Einrichtung manueller S3-zu-Snowflake-Datenübertragungen eine gültige Option. Der Vorgang kann jedoch kompliziert sein, insbesondere für technisch nicht versierte Benutzer. Um es noch einmal zusammenzufassen: Dies sind die Schritte: 

  • S3-Bucket-Setup 
  • Erstellung von IAM-Rollen 
  • Erstellung einer externen Bühne in Snowflake 
  • Tabellenschema einrichten und eine Tabelle in Snowflake erstellen 
  • Erstellung eines Snowflake-Integrationsobjekts 
  • Laden von Daten aus S3 in die Snowflake-Tabelle mit dem Befehl COPY INTO 
  • Überwachung und Fehlerbehebung des Datenübertragungsprozesses nach Bedarf 

Im Gegensatz, Astera vereinfacht die Datenübertragung von S3 zu Snowflake mit seiner intuitiven Benutzeroberfläche, Drag-and-Drop-Funktionalität und Benutzerfreundlichkeit. Damit können Sie Datenübertragungen bequem und mit wenigen Klicks erstellen und automatisieren, unabhängig von Ihren technischen Kenntnissen. 

Zusammenfassung 

Astera optimiert die End-to-End-Datenverwaltung für eine Reihe von Branchen. Es ist kraftvoll, unternehmenstaugliche Lösung ermöglicht Ihnen das Entwerfen, Bereitstellen und Automatisieren von S3-zu-Snowflake-Pipelines – ganz ohne Programmieraufwand. 

Finden Sie heraus, wie Sie es nutzen können Astera um Ihre Datenübertragungsprozesse zu transformieren. Kontaktieren Sie unser Team or starten Sie Ihre kostenlose Testversion  

Sie können auch mögen
Die besten Tools zur Datenerfassung im Jahr 2024
Datenaufnahme vs. ETL: Den Unterschied verstehen
BigQuery vs. Redshift: Welches sollten Sie wählen?
In Anbetracht Astera Für Ihre Datenverwaltungsanforderungen?

Stellen Sie eine codefreie Konnektivität mit Ihren Unternehmensanwendungen, Datenbanken und Cloud-Anwendungen her, um alle Ihre Daten zu integrieren.

Lassen Sie uns jetzt eine Verbindung herstellen!
Lass uns verbinden