مدونات

الرئيسية / مدونات / 3 طرق لنقل البيانات من Amazon S3 إلى Redshift

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

    3 طرق لنقل البيانات من Amazon S3 إلى Redshift

    13 فبراير، 2025

    مع بث وسائل التواصل الاجتماعي وأجهزة الاستشعار وأجهزة إنترنت الأشياء الحياة في كل جهاز، فإننا نولد كميات هائلة من البيانات كل يوم. إن زيادة البيانات هي دائمًا أخبار جيدة حتى تبدأ فاتورة التخزين في الارتفاع وتصبح إدارتها صعبة. ومن المتوقع أن تزيد البيانات غير المنظمة إلى 175 مليار تيرابايت خلال عام 2025وفي حين أن الخدمات السحابية مثل Amazon S3 مكنت المؤسسات من إدارة هذه الكميات الهائلة من البيانات، إلا أنه عندما يتعلق الأمر بالتحليل، فإن حلول التخزين الأساسية لا تكفي، وهنا يأتي دور مستودع البيانات، مثل Amazon Redshift.

    غالبًا ما تستخدم الشركات كلاً من خدمات Amazon جنبًا إلى جنب لإدارة التكاليف وسرعة البيانات أو تستخدم Amazon S3 كمنطقة انطلاق أثناء بناء مستودع بيانات على Amazon Redshift. ومع ذلك ، لا يمكنك إدراك الإمكانات الحقيقية لكلتا الخدمتين إلا إذا كان بإمكانك تحقيق اتصال سلس من Amazon S3 إلى Redshift.

    Astera خط أنابيب البيانات يعد AWS Redshift حلاً خاليًا من التعليمات البرمجية يمكنه مساعدتك في دمج الخدمتين دون أي متاعب، وذلك بفضل دعمه لخطوط الأنابيب المتكاملة التي تجمع بين جميع جوانب سير عمل البيانات في مكان واحد. دعنا نستكشف بعض فوائد AWS Redshift وAmazon S3 وكيف يمكنك ربطهما بسهولة.

    قم بترقية سرعة الاستعلام باستخدام AWS Redshift

    AWS Redshift عبارة عن مستودع بيانات سحابي مُدار بالكامل ويتم نشره على خدمات AWS. تم تصميم مستودع البيانات لإجراء تحليلات معقدة وكبيرة الحجم ، ويمكن توسيع نطاقه بسهولة للتعامل مع وحدات بيتابايت من البيانات. يسمح لك باستخراج رؤى ذات مغزى من بياناتك ، حتى لا تترك قراراتك لغريزة الحدس لديك.

    هناك العديد من الأسباب التي تجعل AWS Redshift يضيف قيمة حقيقية إلى بنية البيانات الخاصة بك:

    • كمستودع بيانات سحابي قوي ، يمكنه الاستعلام عن مجموعات البيانات الكبيرة دون تأخير كبير.
    • باستخدام واجهة مثل MYSQL ، يكون مستودع البيانات سهل الاستخدام ، مما يسهل إضافته إلى بنية البيانات الخاصة بك
    • نظرًا لوجودها على السحابة ، يمكنك توسيع نطاقها لأعلى ولأسفل بسهولة دون الاستثمار في الأجهزة.

    بينما يمكن لـ AWS Redshift التعامل مع احتياجات تحليل البيانات الخاصة بك ، إلا أنها ليست حلاً مثاليًا للتخزين ، ويرجع ذلك أساسًا إلى هيكل التسعير الخاص بها. تفرض AWS Redshift رسومًا عليك على أساس كل ساعة. لذلك ، في حين أن التكاليف تبدأ صغيرة ، فإنها يمكن أن تتضخم بسرعة.

    Amazon S3 للتخزين

    إذا كنت تفكر في تكملة الأمازون S3 مع الانزياح الأحمر ، الجواب البسيط هو أنه يجب عليك ذلك. Amazon S3 هو خيار تخزين سريع وقابل للتطوير وفعال من حيث التكلفة للمؤسسات. باعتباره تخزينًا للكائنات ، فهو حل مثالي بشكل خاص لتخزين البيانات غير المهيكلة والبيانات التاريخية.

    يوفر التخزين السحابي متانة بنسبة 99.9999٪ ، لذلك تكون بياناتك متاحة وآمنة دائمًا. يتم نسخ بياناتك عبر مناطق متعددة للنسخ الاحتياطي وتضمن نقاط الوصول متعددة المناطق الخاصة بها أنك لا تواجه أي مشكلات تتعلق بوقت الاستجابة أثناء الوصول إلى البيانات. علاوة على ذلك ، يوفر S3 ميزات شاملة لإدارة التخزين لمساعدتك في الحفاظ على علامة تبويب على بياناتك.

    تقنيات نقل البيانات من Amazon S3 إلى Redshift   

    هناك عدة طرق يمكنك استخدامها لإرسال البيانات من Amazon S3 إلى Redshift. يمكنك الاستفادة من الأوامر المضمنة وإرسالها عبر خدمات AWS, أو يمكنك استخدام أداة خارجية مثل Astera خط أنابيب البيانات.   

    1. أمر COPY: الأمر COPY هو ملف in الانزياح الأحمر. يمكنك استخدام هذا لربط مستودع البيانات بمصادر أخرى دون الحاجة إلى أي أدوات أخرى.  
    2. خدمات AWS: هناك العديد من خدمات AWS ، مثل AWS Glue و AWS Data Pipeline التي يمكن أن تساعدك في نقل البيانات.      
    3. Astera خط أنابيب البيانات:إنها عبارة عن منصة تكامل بيانات متكاملة تعتمد على الذكاء الاصطناعي، وتعتمد على السحابة، وتتيح لك إرسال البيانات من مصادر مختلفة إلى مستودعات البيانات الشهيرة ووجهات قواعد البيانات التي تختارها دون كتابة سطر واحد من التعليمات البرمجية.      

    انسخ الأمر لنقل البيانات من Amazon S3 إلى Redshift   

    تم تجهيز Amazon Redshift بخيار يتيح لك نسخ البيانات من Amazon S3 إلى Redshift باستخدام أوامر INSERT و COPY. يكون الأمر INSERT أفضل إذا كنت تريد إضافة صف واحد. يعزز الأمر COPY المعالجة المتوازية ، مما يجعلها مثالية لتحميل كميات كبيرة من البيانات.  

    يمكنك إرسال البيانات إلى Redshift من خلال الأمر COPY بالطريقة التالية. ومع ذلك ، قبل القيام بذلك ، هناك سلسلة من الخطوات التي عليك اتباعها:    

    1. إذا كان لديك بالفعل مجموعة متوفرة ، فقم بتنزيل الملفات على جهاز الكمبيوتر الخاص بك.    
    2. قم بإنشاء حاوية على Amazon S3 ثم قم بتحميل البيانات فيها.  
    3. إنشاء الجداول.    
    4. قم بتشغيل الأمر COPY.  
    نقل البيانات من Amazon S3 إلى Redshift باستخدام الأمر COPY

    نقل البيانات من Amazon S3 إلى Redshift باستخدام الأمر COPY

    توضح الصورة أعلاه أمرًا أساسيًا. يجب عليك إعطاء اسم الجدول وقائمة الأعمدة ومصدر البيانات وبيانات الاعتماد. اسم الجدول في الأمر هو الجدول الهدف الخاص بك. تحدد قائمة الأعمدة الأعمدة التي سيقوم Redshift بتعيين البيانات عليها. هذه معلمة اختيارية. مصدر البيانات هو موقع مصدرك ؛ هذا هو حقل إلزامي. يجب عليك أيضًا تحديد بيانات اعتماد الأمان وتنسيق البيانات وأوامر التحويل. يسمح الأمر COPY ببعض التحويلات فقط مثل EXPLICIT_IDS و FILLRECORD و NULL AS و TIME FORMAT وما إلى ذلك.  

    ومع ذلك ، ترتبط العديد من القيود بنقل البيانات من Amazon S3 إلى Redshift من خلال هذه العملية. يعتبر الأمر COPY هو الأفضل للإدراج بالجملة. إذا كنت ترغب في تحميل البيانات واحدًا تلو الآخر ، فهذا ليس الخيار الأفضل.    

    القيد الثاني لهذا الأسلوب هو أنه لا يسمح لك بتطبيق أي تحويلات على مجموعات البيانات. عليك أن تضع في اعتبارك تحويلات نوع البيانات التي تحدث في الخلفية باستخدام الأمر COPY.   

    يقيد الأمر COPY أيضًا نوع مصادر البيانات التي يمكنك نقلها. يمكنك فقط نقل JSON و AVRO و CSV. 

    انقل البيانات من Amazon S3 إلى Redshift باستخدام AWS Glue  

    بيانات ETL مع بيانات AWS Glue ETL مع AWS Glue

    بيانات ETL مع AWS Glue

    AWS Glue هو خادم أداة ETL التي قدمتها Amazon Web Services لنقل البيانات بين خدمات Amazon. يمكنك استخدام غراء AWS لنقل البيانات من AWS Redshift وإليه. تستخدم أداة ETL أوامر COPY و UNLOAD لتحقيق أقصى قدر من الإنتاجية. تستخدم AWS Glue خدمة Amazon S3 كمرحلة مرحلية قبل تحميلها إلى Redshift.  

    أثناء استخدام AWS Glue ، عليك أن تضع في اعتبارك شيئًا واحدًا. تقوم AWS Glue بتمرير بيانات اعتماد الأمان المؤقتة عندما تقوم بإنشاء وظيفة. تنتهي صلاحية أوراق الاعتماد هذه بعد ساعة وتوقف وظائفك في منتصف الطريق. لمعالجة هذه المشكلة ، تحتاج إلى إنشاء دور IAM منفصل يمكن ربطه بمجموعة الانزياح الأحمر.  

    يمكنك نقل البيانات من Amazon S3 إلى Redshift باستخدام AWS Glue بالطريقة التالية:   

    1. قم بتشغيل AWS Redshift Cluster.  
    2. إنشاء مستخدم قاعدة بيانات للترحيل.  
    3. قم بإنشاء دور IAM وامنحه حق الوصول إلى S3 
    4. قم بإرفاق دور IAM بهدف قاعدة البيانات. 
    5. أضف قاعدة بيانات جديدة في الغراء AWS.  
    6. أضف جداول جديدة في قاعدة بيانات AWS Glue.  
    7. قم بإعطاء موقع مصدر Amazon s3 وتفاصيل عمود الجدول.  
    8. أنشئ وظيفة في AWS Glue.  
    9. حدد دور IAM و Amazon S3 كمصادر بيانات في المعلمات.  
    10. اختر خيار "إنشاء جداول في هدف البيانات" واختر JDBC لمخزن البيانات.  
    11. قم بتشغيل مهمة AWS Glue.   

    بينما يمكن لـ AWS Glue القيام بالمهمة نيابة عنك ، عليك أن تضع في اعتبارك القيود المرتبطة بها. إن AWS Glue ليست أداة ETL كاملة. بالإضافة إلى ذلك ، عليك كتابة تحويلات في Python أو Scala. لا تسمح لك AWS Glue أيضًا باختبار التحويلات دون تشغيلها على بيانات حقيقية. يدعم AWS Glue اتصالات JSBC و S3 (CSV) فقط.   

    انقل البيانات من Amazon S3 إلى Redshift باستخدام AWS Data Pipeline  

    انقل بيانات Amazon S3 إلى Redshift

    أرسل البيانات إلى Amazon Redshift باستخدام AWS Data Pipeline

    AWS Data Pipeline عبارة عن خدمة Amazon مبنية لهذا الغرض يمكنك استخدامها لنقل البيانات بين مصادر Amazon الأخرى وكذلك المصادر المحلية. باستخدام Data Pipeline ، يمكنك إنشاء خطوط أنابيب بيانات موثوقة للغاية ومتسامحة مع الأخطاء.   

    تحتوي العملية على عقد البيانات حيث يتم تخزين بياناتك والأنشطة ووظائف السجلات الطبية الإلكترونية أو استعلامات SQL والجدول الزمني الذي تريد تشغيل العملية فيه. لذلك ، على سبيل المثال ، إذا كنت تريد إرسال البيانات من Amazon S3 إلى Redshift ، فأنت بحاجة إلى: 

    • Dحدد خط أنابيب باستخدام S3DataNode,  
    • A نشاط الخلية لتحويل بياناتك إلى .csv,  
    • RedshiftCopyActivity لنسخ بياناتك من S3 إلى Redshift.   

    إليك كيفية إنشاء مسار بيانات:   

    1. قم بإنشاء خط أنابيب. يستخدم قالب Copy to Redshift في وحدة تحكم AWS Data Pipeline.  
    2. حفظ والتحقق من صحة خط أنابيب البيانات الخاصة بك. يمكنك حفظه في أي وقت أثناء العملية. تمنحك الأداة تحذيرات في حالة وجود أية مشكلات في عبء العمل لديك. 
    3. قم بتنشيط خط الأنابيب الخاص بك ثم المراقبة.  
    4. يمكنك حذف خط الأنابيب الخاص بك بمجرد اكتمال النقل.  

    انقل البيانات من Amazon S3 إلى Redshift باستخدام Astera

    Astera يُسهّل عليك خط أنابيب البيانات إرسال البيانات من Amazon S3 إلى Redshift. تأتي هذه الأداة، التي لا تحتاج إلى برمجة، مزودةً باتصال أصلي بقواعد البيانات وتنسيقات الملفات الشائعة. تُتيح لك إرسال البيانات من أي مصدر إلى أي وجهة دون الحاجة إلى كتابة سطر واحد من التعليمات البرمجية. Astera، كل ما عليك فعله هو سحب الموصلات وإفلاتها في مصمم خط أنابيب البيانات ويمكنك البدء في إنشاء خطوط أنابيب البيانات في أي وقت من الأوقات. النظام الأساسي يأتي أيضًا مع بصري تعيين البيانات وواجهة مستخدم سهلة الاستخدام تمنحك رؤية كاملة لخطوط بياناتك.

    استخدام Amazon S3 كمنطقة مرحلية لـ Amazon Redshift

    إذا كنت تستخدم Amazon S3 كمنطقة انطلاق لبناء مستودع بياناتك في Amazon Redshift ، إذن Astera يمنحك طريقة خالية من المتاعب لإرسال البيانات بكميات كبيرة. إليك كيف يمكنك القيام بذلك:

    1. قم بسحب وإسقاط وجهة قاعدة البيانات في مصمم خط أنابيب البيانات واختر Amazon Redshift من القائمة المنسدلة ثم امنح بيانات الاعتماد الخاصة بك للاتصال. لاستخدام Amazon S3 كمنطقة انطلاق ، ما عليك سوى النقر فوق الخيار وإعطاء بيانات الاعتماد الخاصة بك.
    Amazon S3 إلى Redshift

    الاتصال بـ Amazon Redshift بتنسيق Astera

    1. بمجرد القيام بذلك ، يمكنك أيضًا اختيار حجم الإدراج المجمع. على سبيل المثال ، إذا كان لديك ملف Excel يحتوي على مليون سجل ، فيمكنك إرساله إلى الأمازون الأحمر على دفعات من 10,000.
    أمازون s3 إلى التحول الأحمر

    تحديد حجم الدُفعة للإدخال بالجملة في Amazon S3

    قم بإثراء بياناتك قبل إرسالها من Amazon S3 إلى Redshift

    بخلاف الأمر COPY ، Astera يسمح لك بمعالجة بياناتك قبل إرسالها إلى Amazon Redshift. Astera يأتي مع تحويلات متطورة مضمنة تتيح لك التعامل مع البيانات بالطريقة التي تريدها. سواء كنت ترغب في فرز بياناتك أو تصفيتها أو تطبيق قواعد جودة البيانات ، يمكنك القيام بذلك باستخدام مكتبة التحويلات الشاملة.

    ماذا يجعل Astera هل خط أنابيب البيانات هو الخيار الصحيح؟

    في حين أن هناك بدائل أخرى بما في ذلك أدوات AWS التي تتيح لك إرسال البيانات من Amazon S3 إلى Redshift ، Astera خط أنابيب البيانات يقدم لك أسرع وأسهل طريقة للنقل، وذلك بفضل الميزات الرئيسية التالية:

    1. سهل الاستخداميأتي مع منحنى تعليمي بسيط، مما يسمح حتى للمستخدمين الجدد بالبدء في بناء خطوط البيانات في غضون دقائق.
    2. الآلي:بفضل ميزات جدولة الوظائف، يمكنك أتمتة سير العمل بالكامل استنادًا إلى عوامل تشغيل تعتمد على الوقت أو الحدث.
    3. جودة البيانات:تأتي الأداة مع العديد من الخيارات الجاهزة لتنظيف بياناتك والتحقق منها وإنشاء ملف تعريف لها، مما يضمن فقط بيانات عالية الجودة يصل إلى الوجهة. يمكنك استخدام منشئ التعبيرات المخصصة لتحديد قواعدك الخاصة أيضًا.
    4. دعم أوقات الاستجابة المتغيرة: سواء كان لديك متطلبات بيانات في الوقت الفعلي أو في الوقت الفعلي تقريبًا أو دفعات، فإن ADPB يجعل من السهل تلبيتها.
    5. التخطيط الدلالي المدعوم بالذكاء الاصطناعي: يتم تعيين حقول البيانات عبر المصادر والوجهات تلقائيًا، مما يحافظ على الدقة ويقلل الحاجة إلى الإدخال اليدوي.

    هل تريد تحميل البيانات من Amazon S3 إلى Redshift؟ إبداء الأن مع Astera اليوم!

    نقل البيانات من Amazon S3 إلى Redshift: الأسئلة الشائعة
    ما هي الطرق الأساسية لنقل البيانات من Amazon S3 إلى Amazon Redshift؟

    يمكنك نقل البيانات باستخدام عدة طرق:

    • أمر النسخ: أمر Redshift مدمج يقوم بتحميل البيانات بكفاءة من S3 إلى جداول Redshift.
    • غراء AWS: خدمة ETL بدون خادم تسهل إعداد البيانات وتحميلها إلى Redshift.
    • خط أنابيب بيانات AWS: خدمة ويب تقوم بأتمتة نقل البيانات وتحويلها بين خدمات AWS، بما في ذلك S3 وRedshift.
    • أدوات الطرف الثالث: حلول مثل Astera يوفر خط أنابيب البيانات تكامل البيانات المعتمد على الذكاء الاصطناعي والخالي من التعليمات البرمجية بين S3 وRedshift.
    كيف يعمل الأمر COPY لتحميل البيانات إلى Redshift؟
    يستخدم أمر COPY بنية المعالجة المتوازية الضخمة (MPP) في Redshift لقراءة البيانات وتحميلها من الملفات الموجودة في دلو S3 إلى جدول Redshift محدد. وهو يدعم تنسيقات بيانات مختلفة ويسمح بالمعالجة المتوازية لتحسين أداء التحميل.
    ما هي حدود استخدام الأمر COPY؟

    على الرغم من أن الأمر COPY فعال للتحميل بالجملة، إلا أنه يحتوي على قيود:

    • لا يدعم الإدخالات على مستوى الصف، فهو مُحسَّن للعمليات المجمعة.
    • تعتبر تحويلات البيانات محدودة؛ وقد تكون هناك حاجة إلى المعالجة المسبقة.
    • ويدعم تنسيقات بيانات محددة مثل CSV وJSON وAVRO.

    بالنسبة للتحويلات الأكثر تعقيدًا أو التنسيقات غير المدعومة، قد تكون هناك حاجة إلى أدوات أو خدمات إضافية.

    هل يمكنني أتمتة تحميل البيانات من S3 إلى Redshift؟
    نعم، تتيح ميزة النسخ التلقائي في Amazon Redshift استيعاب البيانات بشكل مستمر ومتزايد من S3. من خلال إعداد مهام النسخ التلقائي، يتم تحميل الملفات الجديدة المضافة إلى مسارات S3 المحددة تلقائيًا في جداول Redshift دون تدخل يدوي.
    كيف يكمل Amazon S3 خدمة Redshift في إدارة البيانات؟
    توفر خدمة Amazon S3 تخزينًا قابلًا للتطوير ودائمًا وفعّالاً من حيث التكلفة لكميات هائلة من البيانات غير المنظمة. وعند إقرانها بخدمة Redshift، يمكن لخدمة S3 أن تعمل كمنطقة مؤقتة للبيانات الخام، والتي يمكن بعد ذلك تحميلها إلى Redshift للتحليل المنظم والاستعلام، مما يؤدي إلى تحسين كل من تكاليف التخزين والأداء التحليلي.
    كيف أتعامل مع تغييرات المخطط عند نقل البيانات من S3 إلى Redshift؟

    قد تؤدي تغييرات المخطط في بيانات المصدر إلى فشل التحميل. لإدارة هذا:

    • استخدم AWS Glue: يمكنه المساعدة في اكتشاف تغييرات المخطط وضبط التحويلات وفقًا لذلك.
    • الاستفادة من طيف Redshift: إنه يسمح بالاستعلام عن بيانات S3 دون تعديلات المخطط الفورية.
    • تحديث مخطط Redshift يدويًا: استخدم أوامر ALTER TABLE لتعديل هياكل الجدول عند الحاجة إلى ذلك.
    كيف يمكنني تأمين نقل بياناتي من Amazon S3 إلى Redshift؟

    لضمان نقل البيانات بشكل آمن:

    • تمكين تشفير SSL: استخدم ENCRYPTED مع الأمر COPY.
    • تقييد أذونات IAM: منح أقل قدر من الامتيازات اللازمة للوصول إلى S3 وRedshift.
    • استخدام تشفير AWS KMS: تشفير البيانات المخزنة في S3 باستخدام خدمة AWS Key Management (KMS).
    • تمكين الاتصالات المستندة إلى VPC: تأمين حركة البيانات عن طريق الحفاظ على حركة المرور داخل AWS Virtual Private Cloud (VPC).
    ما هي مزايا استخدام أدوات الطرف الثالث مثل Astera خط أنابيب البيانات عبر خدمات AWS الأصلية؟

    أدوات الطرف الثالث مثل Astera عرض خط أنابيب البيانات:

    • واجهات سهلة الاستخدام: تعمل وظيفة السحب والإفلات على تقليل الحاجة إلى الترميز اليدوي.
    • تحويلات البيانات المتقدمة: إمكانيات مدمجة لتنظيف البيانات وإثرائها وتحويلها قبل التحميل.
    • توافق واسع: دعم لمصادر البيانات المختلفة والتنسيقات التي تتجاوز ما تقدمه خدمات AWS الأصلية.
    • الأتمتة الذكية: ميزات الجدولة والمراقبة لتبسيط سير عمل البيانات.

    المؤلف:

    • Astera فريق التسويق
    ربما يعجبك أيضا
    دليلك لاستخدام بيانات AWS S3 بسهولة
    كيفية تحميل البيانات من AWS S3 إلى Snowflake
    AWS Redshift مقابل Snowflake: 5 اختلافات رئيسية
    مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

    أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

    دعونا نتواصل الآن!
    يتيح الاتصال