المدونة

الصفحة الرئيسية / المدونة / 3 طرق لنقل البيانات من Amazon S3 إلى Redshift

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

3 طرق لنقل البيانات من Amazon S3 إلى Redshift

جافيريا رحيم

مساعد مدير كبار المسئولين الاقتصاديين

أكتوبر 3rd، 2023

مع وسائل التواصل الاجتماعي ، وأجهزة الاستشعار ، وأجهزة إنترنت الأشياء التي تبث الحياة في كل جهاز ، نقوم بتوليد كميات كبيرة من البيانات كل يوم. دائمًا ما يكون المزيد من البيانات خبرًا جيدًا حتى تبدأ فاتورة التخزين في الزيادة ويصبح من الصعب إدارتها. من المتوقع أن تزداد البيانات غير المنظمة إلى 175 مليار زيتابايت بحلول عام 2025. بينما مكنت الخدمات السحابية مثل Amazon S3 المؤسسات من إدارة هذه الكميات الهائلة من البيانات عندما يتعلق الأمر بالتحليل ، فإن حلول التخزين لا تكفي ، وهنا يأتي دور مستودع البيانات مثل Amazon Redshift في الصورة.

غالبًا ما تستخدم الشركات كلاً من خدمات Amazon جنبًا إلى جنب لإدارة التكاليف وسرعة البيانات أو تستخدم Amazon S3 كمنطقة انطلاق أثناء بناء مستودع بيانات على Amazon Redshift. ومع ذلك ، لا يمكنك إدراك الإمكانات الحقيقية لكلتا الخدمتين إلا إذا كان بإمكانك تحقيق اتصال سلس من Amazon S3 إلى Redshift. Astera Centerprise هو حل خالٍ من الأكواد يمكن أن يساعدك على دمج كلتا الخدمتين دون متاعب. دعنا نستكشف بعض مزايا AWS Redshift و Amazon S3 وكيف يمكنك ربطهما بسهولة.

قم بترقية سرعة الاستعلام باستخدام AWS Redshift

AWS Redshift عبارة عن مستودع بيانات سحابي مُدار بالكامل ويتم نشره على خدمات AWS. تم تصميم مستودع البيانات لإجراء تحليلات معقدة وكبيرة الحجم ، ويمكن توسيع نطاقه بسهولة للتعامل مع وحدات بيتابايت من البيانات. يسمح لك باستخراج رؤى ذات مغزى من بياناتك ، حتى لا تترك قراراتك لغريزة الحدس لديك.

هناك العديد من الأسباب التي تجعل AWS Redshift يضيف قيمة حقيقية إلى بنية البيانات الخاصة بك:

  • كمستودع بيانات سحابي قوي ، يمكنه الاستعلام عن مجموعات البيانات الكبيرة دون تأخير كبير.
  • باستخدام واجهة مثل MYSQL ، يكون مستودع البيانات سهل الاستخدام ، مما يسهل إضافته إلى بنية البيانات الخاصة بك
  • نظرًا لوجودها على السحابة ، يمكنك توسيع نطاقها لأعلى ولأسفل بسهولة دون الاستثمار في الأجهزة.

بينما يمكن لـ AWS Redshift التعامل مع احتياجات تحليل البيانات الخاصة بك ، إلا أنها ليست حلاً مثاليًا للتخزين ، ويرجع ذلك أساسًا إلى هيكل التسعير الخاص بها. تفرض AWS Redshift رسومًا عليك على أساس كل ساعة. لذلك ، في حين أن التكاليف تبدأ صغيرة ، فإنها يمكن أن تتضخم بسرعة.

Amazon S3 للتخزين

إذا كنت تفكر في تكملة الأمازون S3 مع الانزياح الأحمر ، الجواب البسيط هو أنه يجب عليك ذلك. Amazon S3 هو خيار تخزين سريع وقابل للتطوير وفعال من حيث التكلفة للمؤسسات. باعتباره تخزينًا للكائنات ، فهو حل مثالي بشكل خاص لتخزين البيانات غير المهيكلة والبيانات التاريخية.

يوفر التخزين السحابي متانة بنسبة 99.9999٪ ، لذلك تكون بياناتك متاحة وآمنة دائمًا. يتم نسخ بياناتك عبر مناطق متعددة للنسخ الاحتياطي وتضمن نقاط الوصول متعددة المناطق الخاصة بها أنك لا تواجه أي مشكلات تتعلق بوقت الاستجابة أثناء الوصول إلى البيانات. علاوة على ذلك ، يوفر S3 ميزات شاملة لإدارة التخزين لمساعدتك في الحفاظ على علامة تبويب على بياناتك.

تقنيات نقل البيانات من Amazon S3 إلى Redshift   

هناك عدة طرق يمكنك استخدامها لإرسال البيانات من Amazon S3 إلى Redshift. يمكنك الاستفادة من الأوامر المضمنة وإرسالها عبر خدمات AWS, أو يمكنك استخدام أداة خارجية مثل Astera Centerprise.   

  1. أمر COPY: الأمر COPY هو ملف in الانزياح الأحمر. يمكنك استخدام هذا لربط مستودع البيانات بمصادر أخرى دون الحاجة إلى أي أدوات أخرى.  
  2. خدمات AWS: هناك العديد من خدمات AWS ، مثل AWS Glue و AWS Data Pipeline التي يمكن أن تساعدك في نقل البيانات.      
  3. Astera Centerprise: وهو نهاية إلى نهاية تكامل البيانات منصة تسمح لك بإرسال البيانات من مصادر مختلفة إلى مستودعات البيانات الشهيرة ووجهات قواعد البيانات التي تختارها دون كتابة سطر واحد من التعليمات البرمجية.      

انسخ الأمر لنقل البيانات من Amazon S3 إلى Redshift   

تم تجهيز Amazon Redshift بخيار يتيح لك نسخ البيانات من Amazon S3 إلى Redshift باستخدام أوامر INSERT و COPY. يكون الأمر INSERT أفضل إذا كنت تريد إضافة صف واحد. يعزز الأمر COPY المعالجة المتوازية ، مما يجعلها مثالية لتحميل كميات كبيرة من البيانات.  

يمكنك إرسال البيانات إلى Redshift من خلال الأمر COPY بالطريقة التالية. ومع ذلك ، قبل القيام بذلك ، هناك سلسلة من الخطوات التي عليك اتباعها:    

  1. إذا كان لديك بالفعل مجموعة متوفرة ، فقم بتنزيل الملفات على جهاز الكمبيوتر الخاص بك.    
  2. قم بإنشاء حاوية على Amazon S3 ثم قم بتحميل البيانات فيها.  
  3. إنشاء الجداول.    
  4. قم بتشغيل الأمر COPY.  
أمر نسخ أمازون الأحمر

أمر نسخ أمازون الأحمر

توضح الصورة أعلاه أمرًا أساسيًا. يجب عليك إعطاء اسم الجدول وقائمة الأعمدة ومصدر البيانات وبيانات الاعتماد. اسم الجدول في الأمر هو الجدول الهدف الخاص بك. تحدد قائمة الأعمدة الأعمدة التي سيقوم Redshift بتعيين البيانات عليها. هذه معلمة اختيارية. مصدر البيانات هو موقع مصدرك ؛ هذا هو حقل إلزامي. يجب عليك أيضًا تحديد بيانات اعتماد الأمان وتنسيق البيانات وأوامر التحويل. يسمح الأمر COPY ببعض التحويلات فقط مثل EXPLICIT_IDS و FILLRECORD و NULL AS و TIME FORMAT وما إلى ذلك.  

ومع ذلك ، ترتبط العديد من القيود بنقل البيانات من Amazon S3 إلى Redshift من خلال هذه العملية. يعتبر الأمر COPY هو الأفضل للإدراج بالجملة. إذا كنت ترغب في تحميل البيانات واحدًا تلو الآخر ، فهذا ليس الخيار الأفضل.    

القيد الثاني لهذا الأسلوب هو أنه لا يسمح لك بتطبيق أي تحويلات على مجموعات البيانات. عليك أن تضع في اعتبارك تحويلات نوع البيانات التي تحدث في الخلفية باستخدام الأمر COPY.   

يقيد الأمر COPY أيضًا نوع مصادر البيانات التي يمكنك نقلها. يمكنك فقط نقل JSON و AVRO و CSV. 

انقل البيانات من Amazon S3 إلى Redshift باستخدام AWS Glue  

بيانات ETL مع بيانات AWS Glue ETL مع AWS Glue

بيانات ETL مع AWS Glue

AWS Glue هو خادم أداة ETL التي قدمتها Amazon Web Services لنقل البيانات بين خدمات Amazon. يمكنك استخدام غراء AWS لنقل البيانات من AWS Redshift وإليه. تستخدم أداة ETL أوامر COPY و UNLOAD لتحقيق أقصى قدر من الإنتاجية. تستخدم AWS Glue خدمة Amazon S3 كمرحلة مرحلية قبل تحميلها إلى Redshift.  

أثناء استخدام AWS Glue ، عليك أن تضع في اعتبارك شيئًا واحدًا. تقوم AWS Glue بتمرير بيانات اعتماد الأمان المؤقتة عندما تقوم بإنشاء وظيفة. تنتهي صلاحية أوراق الاعتماد هذه بعد ساعة وتوقف وظائفك في منتصف الطريق. لمعالجة هذه المشكلة ، تحتاج إلى إنشاء دور IAM منفصل يمكن ربطه بمجموعة الانزياح الأحمر.  

يمكنك نقل البيانات باستخدام AWS Glue بالطريقة التالية:   

  1. قم بتشغيل AWS Redshift Cluster.  
  2. إنشاء مستخدم قاعدة بيانات للترحيل.  
  3. قم بإنشاء دور IAM وامنحه حق الوصول إلى S3 
  4. قم بإرفاق دور IAM بهدف قاعدة البيانات. 
  5. أضف قاعدة بيانات جديدة في الغراء AWS.  
  6. أضف جداول جديدة في قاعدة بيانات AWS Glue.  
  7. قم بإعطاء موقع مصدر Amazon s3 وتفاصيل عمود الجدول.  
  8. أنشئ وظيفة في AWS Glue.  
  9. حدد دور IAM و Amazon S3 كمصادر بيانات في المعلمات.  
  10. اختر خيار "إنشاء جداول في هدف البيانات" واختر JDBC لمخزن البيانات.  
  11. قم بتشغيل مهمة AWS Glue.   

بينما يمكن لـ AWS Glue القيام بالمهمة نيابة عنك ، عليك أن تضع في اعتبارك القيود المرتبطة بها. إن AWS Glue ليست أداة ETL كاملة. بالإضافة إلى ذلك ، عليك كتابة تحويلات في Python أو Scala. لا تسمح لك AWS Glue أيضًا باختبار التحويلات دون تشغيلها على بيانات حقيقية. يدعم AWS Glue اتصالات JSBC و S3 (CSV) فقط.   

انقل البيانات من Amazon S3 إلى Redshift باستخدام AWS Data Pipeline  

انقل بيانات Amazon S3 إلى Redshift

أرسل البيانات إلى Amazon Redshift باستخدام AWS Data Pipeline

AWS Data Pipeline عبارة عن خدمة Amazon مبنية لهذا الغرض يمكنك استخدامها لنقل البيانات بين مصادر Amazon الأخرى وكذلك المصادر المحلية. باستخدام Data Pipeline ، يمكنك إنشاء خطوط أنابيب بيانات موثوقة للغاية ومتسامحة مع الأخطاء.   

تحتوي العملية على عقد البيانات حيث يتم تخزين بياناتك والأنشطة ووظائف السجلات الطبية الإلكترونية أو استعلامات SQL والجدول الزمني الذي تريد تشغيل العملية فيه. لذلك ، على سبيل المثال ، إذا كنت تريد إرسال البيانات من Amazon S3 إلى Redshift ، فأنت بحاجة إلى: 

  •  Dحدد خط أنابيب باستخدام S3DataNode,  
  • A نشاط الخلية لتحويل بياناتك إلى .csv,  
  • RedshiftCopyActivity لنسخ بياناتك من S3 إلى Redshift.   

إليك كيفية إنشاء مسار بيانات:   

  1. قم بإنشاء خط أنابيب. يستخدم قالب Copy to Redshift في وحدة تحكم AWS Data Pipeline.  
  2. حفظ والتحقق من صحة خط أنابيب البيانات الخاصة بك. يمكنك حفظه في أي وقت أثناء العملية. تمنحك الأداة تحذيرات في حالة وجود أية مشكلات في عبء العمل لديك. 
  3. قم بتنشيط خط الأنابيب الخاص بك ثم المراقبة.  
  4. يمكنك حذف خط الأنابيب الخاص بك بمجرد اكتمال النقل.  

انقل البيانات من Amazon S3 إلى Redshift باستخدام Astera Centerprise

Astera Centerprise يمنحك طريقة أسهل لإرسال البيانات من Amazon S3 إلى Redshift. تأتي الأداة الخالية من التعليمات البرمجية مع اتصال أصلي بقواعد البيانات وتنسيقات الملفات الشائعة. يتيح لك إرسال البيانات من أي مصدر إلى أي وجهة دون كتابة سطر واحد من التعليمات البرمجية. مع Astera Centerprise، كل ما عليك فعله هو سحب الموصلات وإفلاتها في مصمم خط أنابيب البيانات ويمكنك البدء في إنشاء خطوط أنابيب البيانات في أي وقت من الأوقات. النظام الأساسي يأتي أيضًا مع بصري تعيين البيانات وواجهة مستخدم سهلة الاستخدام تمنحك رؤية كاملة لخطوط بياناتك.

استخدام Amazon S3 كمنطقة مرحلية لـ Amazon Redshift

إذا كنت تستخدم Amazon S3 كمنطقة انطلاق لبناء مستودع بياناتك في Amazon Redshift ، إذن Astera Centerprise يمنحك طريقة خالية من المتاعب لإرسال البيانات بكميات كبيرة. إليك كيف يمكنك القيام بذلك:

  1. قم بسحب وإسقاط وجهة قاعدة البيانات في مصمم خط أنابيب البيانات واختر Amazon Redshift من القائمة المنسدلة ثم امنح بيانات الاعتماد الخاصة بك للاتصال. لاستخدام Amazon S3 كمنطقة انطلاق ، ما عليك سوى النقر فوق الخيار وإعطاء بيانات الاعتماد الخاصة بك.
Amazon S3 إلى Redshift

الاتصال بـ Amazon Redshift بتنسيق Astera Centerprise

  1. بمجرد القيام بذلك ، يمكنك أيضًا اختيار حجم الإدراج المجمع. على سبيل المثال ، إذا كان لديك ملف Excel يحتوي على مليون سجل ، فيمكنك إرساله إلى الأمازون الأحمر على دفعات من 10,000.
أمازون s3 إلى التحول الأحمر

تحديد حجم الدُفعة للإدخال بالجملة في Amazon S3

قم بإثراء بياناتك قبل إرسالها من Amazon S3 إلى Redshift

بخلاف الأمر COPY ، Astera Centerprise يسمح لك بتدليك بياناتك قبل إرسالها إلى Amazon Redshift، مما يضمن قوتها إدارة جودة البيانات. Astera Centerprise يأتي مع تحويلات متطورة مضمنة تتيح لك التعامل مع البيانات بالطريقة التي تريدها. سواء كنت ترغب في فرز بياناتك أو تصفيتها أو تطبيق قواعد جودة البيانات ، يمكنك القيام بذلك باستخدام مكتبة التحويلات الشاملة.

ماذا يجعل Astera Centerprise الاختيار الصحيح؟

في حين أن هناك بدائل أخرى بما في ذلك أدوات AWS التي تتيح لك إرسال البيانات من Amazon S3 إلى Redshift ، Astera Centerprise يقدم لك أسرع وأسهل طريقة للنقل. خالية من الكود أداة تكامل البيانات هو:

  1. سهل الاستخدام: يأتي مع الحد الأدنى من منحنى التعلم ، والذي يسمح حتى للمستخدمين لأول مرة بالبدء في بناء خطوط أنابيب البيانات في غضون دقائق
  2. آلي: من خلال ميزات جدولة الوظائف ، يمكنك أتمتة مهام سير العمل بالكامل بناءً على الوقت أو المشغلات المستندة إلى الحدث.
  3. جودة البيانات: تأتي الأداة مع العديد من الخيارات الجاهزة لتنظيف بياناتك والتحقق منها وتوصيفها ، مما يضمن وصول البيانات المؤهلة فقط إلى الوجهة. يمكنك استخدام منشئ التعبير المخصص لتحديد القواعد الخاصة بك أيضًا.

هل تريد تحميل البيانات من Amazon S3 إلى Redshift؟ إبداء الأن مع Astera Centerprise اليوم!

ربما يعجبك أيضا
أفضل 7 أدوات لتجميع البيانات في عام 2024
إطار إدارة البيانات: ما هو؟ الأهمية والركائز وأفضل الممارسات
أفضل أدوات استيعاب البيانات في عام 2024
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال