مدونات

الرئيسية / مدونات / بيانات ETL مع Asteraموصل أصلي لـ Amazon Redshift

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

    بيانات ETL مع Asteraموصل أصلي لـ Amazon Redshift

    أكتوبر 4th، 2024

    في هذه المقالة، سنناقش كيفية عمل Amazon Redshift وكيفية مقارنته بمستودعات البيانات المحلية التقليدية. سنستكشف أيضًا كيفية Astera يساعد الشركات على استخدام Amazon Redshift بكامل إمكاناتها من خلال موصل بيانات أصلي.

    ما هو التحول نحو الأحمر في أمازون؟ 

    الأمازون الأحمر

    تقدم Amazon Redshift، التي تقدمها Amazon Web Services (AWS)، خدمة قوية مستودع البيانات القائم على السحابة يتيح لك Amazon Redshift معالجة وتحليل البيانات الضخمة بسرعة وكفاءة. كما يوفر قابلية التوسع بسهولة والأداء العالي والوصول إلى البيانات في الوقت الفعلي وقدرات التحليلات العميقة والتكامل السلس مع التطبيقات الأخرى، مما يجعله الخيار المفضل للعديد من المؤسسات. يمكن لـ Amazon Redshift التعامل مع كميات كبيرة من البيانات دون التضحية بالأداء أو قابلية التوسع. وبالتالي، فهو يساعد الشركات على تقليل وقت معالجة البيانات وتحسين قدراتها التحليلية.

    الهدف الأساسي من ذلك هو مساعدة الشركات في الاستفادة من بياناتها المخزنة للحصول على رؤى حول عملائها واتخاذ قرارات أفضل ودفع نمو الإيرادات. لذلك، من خلال تخزين كميات كبيرة من البيانات المنظمة أو شبه المنظمة، يمكن للمستخدمين الاستعلام عن البيانات بسرعة باستخدام البيانات القياسية أدوات ETL المستندة إلى SQL وبرامج ذكاء الأعمال.

    مع Amazon Redshift، يمكن للشركات استخراج رؤى قيمة من مجموعات البيانات المخزنة في مستودعات البياناتيمكن استخدام هذه البيانات لتحليل أنماط سلوك العملاء أو تتبع مستويات المخزون أو إبلاغ القرارات المتعلقة بتطوير المنتجات والحملات التسويقية. تتمتع Amazon Redshift بالقدرة على معالجة الاستعلامات على بايتات من البيانات في ثوانٍ، مما يوفر أداءً عاليًا مع زمن انتقال منخفض.

    مقارنة Redshift بمستودعات البيانات التقليدية 

    أولاً، سنستكشف الاختلافات بين Amazon Redshift ومستودعات البيانات الشائعة. تستخدم مستودعات البيانات التقليدية قواعد البيانات العلائقية وتتطلب قدرًا كبيرًا من الجهد اليدوي لإعدادها. ولديها خادم واحد فقط، لذا فهي ليست سريعة أو فعالة في جمع مجموعات البيانات الضخمة.

    في المقابل ، يسمح Amazon Redshift للمستخدمين بتخزين وتحليل بيتابايت من البيانات. يستخدم MPP (معالجة متوازية بشكل كبير) لتقسيم الاستعلامات إلى أجزاء صغيرة يمكن تنفيذها بالتوازي لزيادة الأداء. وهذا يجعلها أسرع بكثير من مستودعات البيانات التقليدية ، مما يجعلها مثالية لعمليات التحليلات المعقدة والتطبيقات التي تتطلب وصولاً سريعًا إلى كميات كبيرة من البيانات.

    يوفر Amazon Redshift أيضًا قابلية التوسع ، حيث يمكن للمستخدمين بسهولة زيادة سعة التخزين وقوة الحوسبة عند الحاجة. يستخدم تقنية التخزين العمودي ، والتي تتيح للمستخدمين مسح عدد أقل من الأعمدة عند تنفيذ استعلامات معينة. لذلك ، تقليل مقدار الوقت اللازم لإكمال العملية. بالإضافة إلى ذلك ، يتكامل Amazon Redshift مع خدمات AWS الأخرى لسهولة إعداد وإدارة الموارد.

    فوائد Amazon Redshift

    تقدم Amazon Redshift مجموعة من المزايا إلى الجدول مقارنة بمستودعات البيانات التقليدية. من خلال الجمع بين البنية التحتية الفعالة من حيث التكلفة وقابلية التوسع وإمكانيات التحليل الفائقة ، توفر Amazon Redshift قوة لا مثيل لها في تخزين البيانات.

    البنية التحتية الفعالة من حيث التكلفة 

    Amazon Redshift هي خدمة ميسورة التكلفة حل مستودع البياناتمما يسمح للشركات بتخزين وتحليل كميات هائلة من البيانات دون إنفاق الكثير من المال. ويعتمد على البنية التحتية كخدمة (IaaS) نموذج. هذا يعني أن الشركات لا تحتاج إلى الاستثمار في أجهزة وبرامج باهظة الثمن.

    التوسعة 

    Amazon Redshift قابل للتطوير بدرجة كبيرة ، مما يسمح للشركات بزيادة موارد الحوسبة أو تقليلها بسهولة مع تغير احتياجاتها. يتم تحقيق ذلك باستخدام المجموعات وتغيير الحجم المرن ، والذي يمكّن الشركات من إضافة أو إزالة العقد من مجموعات Redshift الخاصة بهم دون أي توقف أو تعطيل لأعباء عمل التحليلات الخاصة بهم. تجعل هذه الميزات Amazon Redshift حلاً مرنًا لتحليل كميات كبيرة من البيانات.

    قدرات تحليلية متفوقة 

    تقدم Amazon Redshift أيضًا إمكانات تحليلية فائقة عند مقارنتها بمستودعات البيانات التقليدية. من خلال تكاملها مع أدوات قوية مثل Apache Hive و Apache Spark ، يمكن للشركات تحليل مجموعات البيانات الكبيرة بسرعة واكتساب رؤى قيمة حول قاعدة عملائها وعملياتهم والمزيد.

    تحميل البيانات إلى Amazon Redshift باستخدام موصل أصلي

    يعد استخدام موصل أصلي لاستخراج البيانات وتحويلها وتحميلها إلى Amazon Redshift أكثر كفاءة وأقل عرضة للخطأ مقارنة بالترميز اليدوي. عند الترميز، يحتاج مهندسو البيانات إلى كتابة نصوص ETL معقدة، وغالبًا ما يتعاملون مع مصادر بيانات مختلفة ويضمنون تنفيذ كل تحويل بشكل صحيح. يمكن أن تصبح هذه العملية مملة وتستغرق وقتًا طويلاً، خاصة بالنسبة لمجموعات البيانات الكبيرة أو الوظائف المتكررة.

    A أداة تكامل البيانات باستخدام موصلات أصلية، يتم أتمتة الكثير من هذه العملية، مما يوفر واجهة سهلة الاستخدام مع وظائف مُصممة مسبقًا تقلل من فرص الخطأ البشري مع تسريع سير عمل ETL. يمكن للمستخدمين استخراج البيانات من مصادر متعددة - منصات سحابية أو قواعد بيانات محلية أو واجهات برمجة تطبيقات خارجية - دون كتابة تعليمات برمجية مكثفة. خطوات التحويل قابلة للتكوين بصريًا، مما يسمح للمستخدمين بتنظيف البيانات وهيكلتها بناءً على منطق محدد مسبقًا. أخيرًا، يتم تحميل البيانات مباشرة إلى Amazon Redshift، وهي مُحسَّنة للاستعلام والتحليلات السريعة. يزيل هذا النهج تعقيدات الترميز اليدوي مع تقديم أداء وقابلية للتطوير أفضل من خلال الاستفادة من بنية Redshift.

    تتضمن المنظمات التي تستفيد أكثر من استخدام موصل أصلي تلك التي تتعامل مع كميات كبيرة من البيانات أو لديها مجموعة متنوعة من مصادر البيانات ولكنها تفتقر إلى النطاق الترددي الفني لبناء وصيانة موصلات مخصصة خطوط أنابيب ETLإنه مفيد بشكل خاص للفرق التي تعطي الأولوية للسرعة والدقة والقدرة على التوسع بسرعة. يتيح لهم هذا الحل التركيز على تحليل البيانات واتخاذ القرار بدلاً من قضاء الوقت في إدارة البنية الأساسية المطلوبة لنقل البيانات وإعدادها.

    التحديات والقيود مع Amazon Redshift

    بينما يتكامل Amazon Redshift بسهولة مع خدمات AWS الأخرى ، فإنه يتمتع بدعم محدود للأنظمة البيئية للبرامج الأخرى. إذا كنت تقوم بتشغيل برنامج خارج بنية Amazon الأساسية ، فقد لا تتمكن من استخدام جميع ميزاته.

    بالإضافة إلى ذلك ، يعد Amazon Redshift تطبيقًا قائمًا على السحابة يعتمد على توفر النطاق الترددي للشبكة ومساحة التخزين. إذا كان هذان الموردان غير كافيين ، فسوف يتأثر الأداء وقد يتسبب في تعطل التطبيقات أو عدم الاستجابة.

    الاتصال بـ Amazon Redshift باستخدام Asteraموصل أصلي

    التكنولوجيا مع Asteraالصورة من خلال موصل أصلي، يمكن للمستخدمين الاستفادة الكاملة من قوة وقابلية التوسع في Amazon Redshift، مما يسمح للمؤسسات بالوصول إلى البيانات وتحليلها بطرق لا يمكن عادةً تحقيقها باستخدام مستودعات البيانات التقليدية. Astera توفر واجهة مرئية سهلة الاستخدام، مما يتيح للمستخدمين إنشاء خطوط أنابيب لدمج البيانات ونقلها، بالإضافة إلى نماذج بيانات لهندسة مستودعات البيانات. وتشمل هذه النماذج الأبعاد وخزائن البيانات.

    Astera يتميز ببيئة السحب والإفلات ، مما يسمح لمستخدمي الأعمال بالاتصال بقاعدة بيانات Redshift دون كتابة أجزاء طويلة من التعليمات البرمجية أو تحديد سلاسل الاتصال. يمكنك تكوين اتصال Redshift بسهولة لمعالجة البيانات أو إجراء عمليات بحث في قاعدة البيانات عن طريق تحديد Amazon Redshift من القائمة المنسدلة لقواعد البيانات المدعومة.

    موصل قاعدة بيانات الانزياح الأحمر

    الشكل 1: قم بالتمرير خلال قائمة موفري البيانات المدعومين من Astera والاتصال بـ Redshift

    قاعدة بيانات Amazon Redshift كمصدر

    اسحب مصدر جدول قاعدة البيانات كائن من مربع الأدوات وقم بإفلاته في نافذة المصمم للاتصال بقاعدة بيانات Redshift واستخدامها ككائن مصدر. بعد ذلك ، يمكنك تكوينه عن طريق تحديد Redshift كمزود البيانات من القائمة المنسدلة.

    في الخطوة التالية ، نحتاج إلى تحديد الجدول الذي سيتم الحصول على البيانات منه. في هذه الحالة ، نختار جدولًا به تفاصيل الموظف المسمى طلبات عامة. يمكننا النقر فوق جدول التقسيم لخيار القراءة لتقسيم الجدول إلى مقاطع أصغر ستتم قراءتها بشكل فردي. يمكن تحديد هذا الخيار لتقليل الحمل على قاعدة البيانات وتحسين الأداء. هنا ، يمكننا أيضًا تحديد حقل المفتاح لتقسيم الجدول إلى أقسام.

    خيار آخر في جدول خصائص قاعدة البيانات هو تحديد استراتيجية القراءة. هنا ، يمكننا أن نقرر ما إذا كنا نريد قراءة البيانات الكاملة (تحميل كامل) أو السجلات المحدثة فقط (تحميل متزايد بناءً على حقول التدقيق).

    قم بتكوين موصل Redshift عن طريق تحديد الجدول واستراتيجية القراءة المناسبة

    الشكل 2: تحديد الجدول وقراءة الإستراتيجية لمصدر قاعدة البيانات لدينا

    تعرض الشاشة التالية منشئ التخطيط لجدول مصدر قاعدة البيانات. هنا ، يمكننا رؤية أنواع البيانات وأطوال كل حقل ، إلى جانب بعض التفاصيل الأخرى.

    الانزياح الأحمر منشئ تخطيط جدول قاعدة البيانات

    الشكل 3: منشئ التخطيط لجدول قاعدة بيانات الانزياح الأحمر مع تفاصيل حول نوع البيانات وطول كل حقل.

    يمكن معالجة البيانات من جدول Redshift هذا بطرق متعددة باستخدام العديد من التحويلات المضمنة المتاحة في Centerprise وتحميلها إلى ملف أو قاعدة بيانات أو أي وجهة أخرى متاحة.

    يتم تطبيق تحويل المرشح على جدول الانزياح الأحمر

    الشكل 4: تدفق بيانات يُظهر عامل تصفية يتم تطبيقه على البيانات التي تم الحصول عليها من جدول Redshift وتعيينه إلى كائن وجهة Excel

    تُظهر لقطة الشاشة أعلاه تدفق البيانات الذي يقوم بتصفية البيانات من جدول الطلبات باستخدام تحويل المرشح وتعيينه في ملف وجهة Excel يسمى FilteredRedshiftData.

    قاعدة بيانات Amazon Redshift كوجهة

    يمكن للمستخدمين أيضًا الاتصال بقاعدة بيانات Amazon Redshift وتكوينها ككائن وجهة. لهذا ، فإن وجهة جدول قاعدة البيانات يجب سحب الكائن من صندوق الأدوات وإسقاطه على المصمم. بعد ذلك ، نحتاج إلى توجيه كائن الوجهة إلى قاعدة بيانات Redshift على النحو التالي:

    قاعدة بيانات أمازون redshift

    الشكل 5: تكوين كائن وجهة جدول قاعدة البيانات مع Redshift كموفر البيانات.

    تُظهر الصورة أيضًا خيارًا حيث يمكن للمستخدمين إضافة بيانات اعتماد Amazon Simple Storage Service (S3) لتحميل البيانات بكميات كبيرة إلى قاعدة بيانات Redshift.

    بمجرد تحديد Redshift كمزود للبيانات ، يحتاج المستخدم إلى تحديد ما إذا كان يريد اختيار جدول موجود أو إنشاء جدول جديد أو الكتابة فوق البيانات الموجودة في جدول موجود. في هذه الحالة ، قمنا بإنشاء جدول جديد في قاعدة البيانات وأطلقنا عليه اسم WebAggregate.

     

    قم بإنشاء جدول انزياح أحمر جديد

    الشكل 6: يتم إنشاء جدول قاعدة بيانات جديد يسمى WebAggregate لتحميل البيانات بشكل مجمّع.

    في هذا المثال ، البيانات من ملف كائن مصدر قاعدة البيانات يتم تجميع WebConnectionRegistration المسمى ويتم تمريره إلى جدول قاعدة بيانات WebAggregate. تدفق البيانات الكامل على النحو التالي:

    تعيين البيانات المجمعة إلى جدول وجهة Redshift

    الشكل 7: يتم تجميع البيانات من جدول قاعدة البيانات وتعيينها إلى جدول وجهة Redshift.

    الخاتمة 

    في النهاية ، يعد Amazon Redshift حلًا قويًا للغاية لتخزين البيانات يمكن أن يساعد المؤسسات في الكشف عن الرؤى التي تدفع قرارات الأعمال. من خلال الاستفادة من سرعة Amazon Redshift وقابليته للتوسع ، يمكن للمؤسسات اكتساب رؤى من بياناتها بسرعة وسهولة. إلى جانب ذلك ، يمكنهم الاستفادة من توفير كبير في التكلفة مقارنة بمستودعات البيانات التقليدية.

    التكنولوجيا مع Astera، يمكن للمستخدمين:

    1. أتمتة عملية الاستخراج والتحويل والتحميل (ETL) البيانات من مصادر متعددة في مستودع واحد على Amazon Redshift.
    2. أتمتة جدولة أعمالك سير عمل ETL في AWS مع ميزة جدولة المهام المدمجة لضمان التعامل مع المهام المتكررة بدقة وفي الوقت المحدد.
    3. يمكّن مصمم البيانات المرئية في الحل المستخدمين من إنشاء نماذج البيانات وتعديلها باستخدام واجهة سحب وإفلات بسيطة.
    4. يمكن للمستخدمين تحديد العلاقات بين الجداول وإنشاء مفاتيح أساسية وخارجية وتحديد أنواع البيانات والقيود لكل حقل في نموذج البيانات الخاص بهم.
    5. Astera يدعم Data Warehouse Builder أيضًا الهندسة العكسية. وهذا يسمح للمستخدمين بإنشاء نماذج بيانات من قواعد البيانات أو مستودعات البيانات في Amazon Redshift.
    6. يوفر الحل أيضًا توثيقًا شاملاً وميزات التحكم في الإصدار. لذلك ، يسهل على المستخدمين إدارة نماذج البيانات الخاصة بهم وصيانتها بمرور الوقت.
    7. من خلال إمكانات إنشاء النص التلقائي ، يمكن للمستخدمين إعادة توجيه نماذج البيانات المنطقية الخاصة بهم إلى قواعد البيانات المادية على Amazon Redshift ، أو أي من الموفرين المدعومين.

    باستخدام Astera من خلال الاتصال بـ Amazon Redshift، يمكن للشركات الاستفادة بشكل فعال من بياناتها المخزنة للحصول على رؤى وتحسين عملية اتخاذ القرار.

    المؤلف:

    • Astera فريق التحليلات
    ربما يعجبك أيضا
    التكامل المدعوم بالذكاء الاصطناعي: تحويل سير العمل المعقدة إلى أوامر بسيطة
    إعداد بيانات الذكاء الاصطناعي: 5 خطوات نحو التعلم الآلي الأكثر ذكاءً
    اكتشاف علاقات البيانات: المفتاح لتحسين نمذجة البيانات
    مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

    أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

    دعونا نتواصل الآن!
    يتيح الاتصال