المدونة

الصفحة الرئيسية / المدونة / تحميل البيانات إلى حقائق وأبعاد - هل هو مجرد قطعة من الكعكة؟

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

تحميل البيانات في حقائق وأبعاد - قطعة من الكعكة؟

18 أبريل، 2024

كيمبلكانت النمذجة ذات النمط الأبعاد هي البنية الأساسية لمعظم مطوري مستودعات البيانات على مدار العقدين الماضيين. تجعل الطبيعة غير المنسقة لهذه المخططات ، إلى جانب تحسين صيانة السجل ، النموذج ذي الأبعاد أداة مثالية لترسانة تخزين البيانات ، خاصة للإبلاغ من خلال ذكاء الأعمال (BI) أدوات.

في ظاهرها ، الفكرة بسيطة: تحتوي جداول الحقائق على معلومات عن المعاملات ، وتوفر الأبعاد سياقًا لهذه الحقائق من خلال علاقات المفاتيح الخارجية. ومع ذلك ، فإن الأسئلة التي تظهر هي التالية: ما مدى سهولة تحميل البيانات والاحتفاظ بها في جداول البيانات الفعلية وجداول الأبعاد؟ وهل تستحق العناء؟

لنأخذ سيناريو حيث قمت بإعداد بنية خاصة بك مستودع البيانات - مخطط نجمي بسيط يتكون من معلومات المبيعات في جدول الحقائق ، محاطًا بأبعاد قليلة ، مثل العملاء والموردين ، إلخ. تم تحميل بيانات المصدر الواردة في البداية من أنظمة مختلفة في طبقة مرحلية موحدة.

الهدف هو إعداد عملية تحميل وصيانة لجداول الأبعاد والحقائق. يمكن أن يكون تحميل البيانات في جداول الأبعاد أمرًا بسيطًا ، نظرًا لأنك لا تبحث عن الاحتفاظ بالمحفوظات. في مثل هذه الحالة ، قد ترغب فقط في تحديث سجلات الوجهة ، والتي يمكن إجراؤها عبر تغيير الأبعاد ببطء النوع 1 (SCD1). إليك مقتطفًا لما سيبدو عليه هذا الاستعلام:

ومع ذلك ، فمن غير المحتمل أن يكون هذا كافياً في سيناريو عملي عملي. من المهم الاحتفاظ ببعض المحفوظات على الأقل في مستودع البيانات لتحديد الاتجاهات والأنماط. هذا هو المكان الذي تلعب فيه أنواع أخرى أكثر تعقيدًا من SCD ، مثل SCD 2 و 3 و 6.

إذا كنت تنوي استخدام SCD 2 أو 6 في حقول معينة ، فيجب أن يحتوي الجدول على معرفات السجل أيضًا للتعرف على الصف النشط لكل سجل. قد يكون هذا علامة صواب / خطأ ، أو نطاق تاريخ انتهاء صلاحية فعال ، أو مجرد رقم إصدار لكل سجل ، على سبيل المثال لا الحصر.

إذا كنت تبحث عن استخدام SCD 3 أو 6 ، فستحتاج إلى حقل إضافي لتخزين القيمة السابقة للحقل المعني.

إليك ما يمكن أن يبدو عليه جزء من الاستعلام إذا كنت ستستخدم SCD 2 أو 6 للحفاظ على السجل:

معماريات مستودع البيانات

هل بدأت تبدو معقدة بعض الشيء؟ لقد لمسنا فقط غيض من فيض.

قد تحتاج على الأرجح إلى مستويات مختلفة من التاريخ لحقول مختلفة. لنفترض ، على سبيل المثال ، أن لديك بُعد موظف يحتوي على معلومات راتب الموظفين ورقم هاتفهم. هنا ، قد ترغب في تتبع كيف يتغير راتب الموظف ولكن فقط قم بتحديث رقم الهاتف.

في مثل هذه الحالات ، يمكنك استخدام أنواع متعددة من SCD ؛ SCD 1 للحقول التي تتطلب فقط تحديثات و SCD 2 أو 3 أو 6 لتلك الحقول التي تتطلب مستوى معينًا من المحفوظات ليتم الحفاظ عليها. مع أخذ العديد من الأشياء في الاعتبار ، يمكنك تخيل مدى تعقيد الاستعلام!

حتى الآن ، ركزنا على السكان وصيانة جداول الأبعاد. توفر هذه الأبعاد سياق المعلومات المخزنة في جداول الحقائق. لذلك ، يتم نشر كل تغيير في جدول الأبعاد في جدول الحقائق أيضًا ؛ قد يكون من الصعب التأكد من أن هذا الانتشار يتم بدقة.

بعض المعلومات التي تحتاج إلى تحميلها في جدول الحقائق غير متوفرة في المصدر. المفاتيح البديلة المستخدمة لإنشاء العلاقات بين الأبعاد وجداول الحقائق غير موجودة في طبقة التدريج - تم إنشاؤها كمفاتيح أنشأها النظام في كل بُعد.

لذلك ، ستحتاج إلى تصميم آلية تستخدم عمليات البحث عن الأبعاد لنقل كل مفتاح عمل وارد (طبيعي) من طبقة التدريج إلى البعد ذي الصلة وجلب المفتاح البديل النشط لهذا السجل. علاوة على ذلك ، ستختلف تعقيدات جلب هذه المفاتيح البديلة بناءً على نوع SCD المستخدم لكل حقل ومعرف الصف الموجود في جدول الأبعاد.

كما لو أن هذه العملية ليست معقدة بدرجة كافية ، فإليك كرة منحنى أخرى لك: ماذا لو كان لديك بعض الإدخالات المفقودة في جدول الحقائق التي لا تتطلب مفتاح بديل محدث؟ يمكنك استخدام مفتاح تاريخ المعاملة لتحديد المفتاح البديل النشط ، بالنظر إلى أنك استخدمت معرف صف نشط خاص بالطابع الزمني ، مثل نطاق تاريخ انتهاء الصلاحية الفعلي.

قد يكون الموقف معكوسًا أيضًا: قد يكون لديك بعض الإدخالات في جدول الحقائق التي تشير إلى سجل البعد الذي لم تتم إضافته إلى جدول الأبعاد حتى الآن. هذا هو لغز تخزين البيانات الشائع - أبعاد الوصول المتأخر والحقائق التي وصلت في وقت مبكر. لتلبية هذه المشكلة ، يمكنك إنشاء سجل وهمي في جدول الأبعاد في وقت التشغيل.

سيتم استبدال هذا السجل في النهاية بسجل البعد المناسب (المتأخر) القادم من المصدر. ولكنه على الأقل سيمكن البحث عن البعد من الحدوث في الوقت المناسب دون أي عوائق غير ضرورية.

بشكل عام ، يمكن أن يكون تحميل البيانات في جدول الحقائق عملية شاقة ومعرضة للخطأ. إذا لم تتم معالجة القضايا الموضحة أعلاه. على سبيل المثال ، قد تتعطل خطوط الأنابيب الخاصة بك ، أو قد ينتهي بك الأمر في المستودع الخاص بك إلى احتواء بيانات غير دقيقة.

إليك نموذج استعلام يمكنه تحميل البيانات في جدول حقائق:

معماريات تخزين البيانات

لنفترض أنك تنجز كل شيء. لقد نجحت في كتابة جميع الاستفسارات المطلوبة ، وهي مثالية. عملك لم يكتمل بعد. لا تنتهي عملية تخزين البيانات بالكامل مطلقًا لأن صيانة النظام البيئي لا تقل أهمية عن تصميمه في المقام الأول. لتحقيق أقصى قدر من الأداء ، ستحتاج إلى التأكد من تحميل البيانات بشكل متزايد ، مما يتطلب تنفيذ آلية تغيير التقاط البيانات (CDC).

علاوة على ذلك ، ستحتاج هذه الاستعلامات المعقدة إلى تحديثات متكررة ، اعتمادًا على احتياجات العمل. قد تضطر إلى إضافة الحقول أو إزالتها ، وتغيير أنواع معينة من البيانات ، وتغيير نوع SCD المطبق على حقل ، وما إلى ذلك. إجراء هذه التغييرات على الاستعلامات لا يستغرق وقتًا طويلاً فحسب ، بل إنه أيضًا عرضة للخطأ بشكل كبير. قبل أن تعرف ذلك ، ربما تكون قد أفسدت خط أنابيب موجود أثناء تنفيذ تغيير طفيف في آلية التحميل.

على الرغم من مشكلات الصيانة المحتملة هذه ، ستظل تشعر أن معظم العمل الشاق قد تم. ومع ذلك ، فإن الشركات تتطلع باستمرار إلى تحديث وتحسين عمليات البيانات الخاصة بهم. قد يأتي يوم تقرر فيه شركتك تبديل الأنظمة الأساسية لمستودعات البيانات. لنفترض أنهم قرروا الانتقال من SQL Server المحلي إلى نظام أساسي سحابي مثل ندفة الثلج or الأمازون الأحمر.

هل تدرك ما يتطلبه ذلك؟ أولاً ، يجب عليك إنشاء بنية جديدة على النظام الأساسي الجديد. بعد ذلك ، أعد كتابة جميع الاستعلامات لإعداد خطوط الأنابيب الأصلية للجداول الوجهة الجديدة. سيكون عليك في الأساس إجراء العملية بأكملها مرة أخرى - من البداية! لذلك ، استنادًا إلى كل شيء كشفناه ، من الآمن استنتاج أن تحميل البيانات في جداول الحقيقة والأبعاد هو أمر صحيح لا قطعة من الكعكة. يمكن أن يصبح مستوى التعقيد الذي ينطوي عليه الأمر مرتفعًا جدًا ، حتى بالنسبة للمستخدمين التقنيين.

لكن ماذا لو أخبرتك أن هناك طريقة أسهل بكثير لتحقيق نفس النتيجة؟

بدافع Astera منشئ مستودع البيانات، يمكنك بناء بنية خاصة بك نموذج الأبعاد باستخدام مصمم نموذج البيانات البديهي. علاوة على ذلك ، تتيح لك واجهة النقر والإشارة تعيين الأدوار ، مثل أنواع SCD ، ومعرفات الصفوف النشطة ، ومفاتيح تاريخ المعاملة ، وما إلى ذلك ، إلى الحقول الموجودة في جداول البيانات الواقعية والأبعاد.

الأهم من ذلك ، يمكنك الاستفادة من المعلومات الموجودة في النماذج الخاصة بك في مكون ETL / ELT المستند إلى السحب والإفلات للأداة لأتمتة المهام المملة والمستهلكة للوقت المتضمنة في تحميل جداول الحقائق والأبعاد - بدءًا من الحفاظ على SCD في الأبعاد إلى الأداء عمليات البحث عن الأبعاد في جداول الحقائق. يتم إنشاء الكود المعقد الذي رأيناه سابقًا تلقائيًا بواسطة الأداة.

لماذا تضيع الكثير من الوقت والجهد في كتابة استفسارات ضخمة بينما يمكنك تحقيق نفس النتيجة باستخدام واجهة مرئية بسيطة؟ على الرغم من أن تحميل البيانات إلى الحقائق والأبعاد لا يعد عادةً قطعة من الكعكة ، باستخدام Astera منشئ مستودع البيانات ، يمكن أن يكون!

إذا كنت ترغب في استكشاف الطريقة المرنة لبناء مستودع بياناتك ، فاتصل بنا على [البريد الإلكتروني محمي] اليوم أو تنزيل ملف الإصدار التجريبي المجاني من 14 يومًا.

ربما يعجبك أيضا
كيفية بناء استراتيجية لإدارة البيانات لمؤسستك
أفضل 7 أدوات لتجميع البيانات في عام 2024
إطار إدارة البيانات: ما هو؟ الأهمية والركائز وأفضل الممارسات
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال