مدونات

الصفحة الرئيسية / مدونات / تحديث بنية البيانات الخاصة بك باستخدام نهج أفضل الممارسات لنمذجة البيانات الأبعاد

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

قم بتحديث بنية البيانات الخاصة بك باستخدام نهج أفضل الممارسات لنمذجة البيانات ذات الأبعاد

يوليو 25th، 2022

كانت نمذجة البيانات ذات الأبعاد هي الأساس لتصميم مستودع البيانات الفعال لعقود. تعد منهجية Kimball بأداء استعلام محسن وبنية مبسطة يسهل فهمها من قبل أصحاب المصلحة في كل مستوى من مستويات المؤسسة. تابع القراءة لمعرفة كيف يساعدك نهجنا الآلي في تنفيذ هذا المخطط لتحقيق أقصى قدر من الفعالية في مستودع البيانات الخاص بك.

لبناء بنية تحليلات حديثة حقًا تتيح التقنيات المتقدمة مثل التعلم الآلي والتحليل التنبئي والتنبؤ وتصورات البيانات ، تحتاج إلى تنفيذ نمذجة البيانات ذات الأبعاد في مستودع البيانات الخاص بك. هناك عدد قليل من علامات الاختيار التي يحتاج نظام ذكاء الأعمال إلى الوصول إليها قبل أن يصبح مؤهلاً.

أولاً ، يجب أن تكون قادرة على جمع ومعالجة كميات كبيرة من البيانات من مصادر معاملات متباينة. ثانيًا ، يجب أن يتعامل مع السجلات الحالية والتاريخية. ثالثًا ، يجب أن تدعم مجموعة من عمليات الاستعلام المعقدة والمتغيرة باستمرار. أخيرًا ، يحتاج إلى إنتاج بيانات محدثة وذات صلة للمستخدمين النهائيين.

يكمن مفتاح تلبية هذه التوقعات في مرحلة التصميم أثناء نمذجة البيانات. ستؤثر القرارات التي تتخذها هنا بشكل مباشر على سرعة أداء مستودع البيانات وقابليته للتوسع.

ولكن لماذا نمذجة البيانات الأبعاد؟

مخطط مخطط نجمة

مخطط النجم الكلاسيكي

 

لنفترض أنك اخترت مخطط 3NF ، والذي يقلل من تكرار البيانات من خلال التطبيع. سيزداد عدد طاولات التخزين بشكل كبير. هذا يعني أن أي استعلام يتم تشغيله مقابل مخطط 3NF قد يتضمن الكثير من الصلات المعقدة.

بالمقارنة، النمذجة الأبعاد تقدم التقنيات بنية مبسطة وغير منسقة تنتج صلات أقل بكثير وبالتالي تحسن أداء الاستعلام. كما تدعم نماذج البيانات ذات الأبعاد البيانات المتغيرة ببطء والأبعاد الخاصة بالتاريخ / الوقت ، وكلاهما يسهل التحليل التاريخي. يمكن للمستخدمين النهائيين فهم هذا المخطط بسهولة ، مما يسمح لهم بالتعاون مع فريق التطوير الخاص بهم باستخدام لغة مشتركة. نتيجة لذلك ، يصبح من الأسهل بكثير إنشاء مستودع بيانات حول العمليات التجارية الفعلية وتطوير نموذج البيانات ليشمل الاحتياجات المتغيرة باستمرار لمؤسستك.

دعنا نلقي نظرة على بعض العوامل الحاسمة التي ستجعل نماذج الأبعاد الخاصة بك محركًا رئيسيًا لتطوير مستودع البيانات الخاص بك.

انتبه للحبوب

انتبه إلى الحبيبات عند إنشاء نموذج بيانات الأبعاد

يعد العثور على الحبوب المناسبة لجدول الحقائق أمرًا ضروريًا (تلميح: القمح لن ينجح)

يعد العثور على الحبوب المناسبة لصف جدول الحقائق أمرًا ضروريًا (تلميح: القمح لن ينجح)

عادة ، ستحتاج إلى بناء نماذج فردية الأبعاد لمناطق مختلفة من العمل عبر مؤسستك. كل من هذه العمليات سيكون لها حبة محددة ؛ هذا هو مستوى التفاصيل الذي يتم فيه تخزين البيانات في جداول الحقائق والأبعاد ذات الصلة. من الضروري الحفاظ على حبيبات متسقة في نماذج البيانات ذات الأبعاد لضمان أفضل أداء وقابلية للاستخدام أثناء مرحلة الاستهلاك. خلاف ذلك ، قد ينتهي بك الأمر بتقارير وتحليلات خاطئة.

للحصول على مثال ممتاز على ذلك ، لنفترض أنك تقوم بتصميم نموذج بيانات الأبعاد لعملية المبيعات الخاصة بك. لديك مصدران مختلفان يتم تسجيل البيانات فيهما ، أحدهما يتتبع الفواتير المحلية على أساس كل معاملة والآخر يتتبع أوامر الشراء عالميًا شهريًا. يعد أحد الجداول أكثر ملاءمة لتقطيع البيانات وتقطيعها لاحقًا بينما يوفر الأخير بشكل أساسي عرضًا موجزًا ​​لعملية المبيعات ، والتي لن تكون مفيدة إلا في إعداد التقارير عالية المستوى وذكاء الأعمال.

بشكل عام ، عندما تتعلق البيانات بعمليات تجارية مختلفة ، يمكنك افتراض الحاجة إلى بناء نماذج متعددة. لذلك ، يجب أن تكون قادرًا على هندسة هذه المخططات بدقة بناءً على علاقات الكيانات المحددة في النظام المصدر. يجب تعيين جداول الحقائق والأبعاد بشكل صحيح على مستوى التفاصيل المناسب.

بالانتقال إلى أ عملية المعالجة الذي يسمح لك بأتمتة نمذجة المخطط الأولي ، يمكنك التأكد من تطبيق هذه المفاهيم الأساسية بشكل صحيح على مخططك. من هناك ، يمكنك العمل على تشكيلها بشكل أقرب إلى متطلبات ذكاء الأعمال الخاصة بك. والأهم من ذلك ، أنه يمكنك بسهولة تحديث النماذج الخاصة بك لتعكس التغييرات في النظام المصدر أو متطلبات المستخدم النهائي ، ثم نشر هذه التغييرات عبر خطوط أنابيب البيانات الخاصة بك دون إعادة صياغة يدوية شاملة.

من التفاصيل الهامة الأخرى للحصول على نهجك الصحيح التأكد من أن نهج النمذجة الأبعاد الخاص بك يتضمن جداول أبعاد التاريخ. توفر هذه الجداول أنواعًا مختلفة من القياسات الخاصة بالتاريخ مثل اليومية أو الشهرية أو السنوية أو أرباع السنة المالية أو أيام العطل الرسمية. في النهاية ، سيساعد هذا المستخدمين النهائيين على تصفية بياناتهم وتجميعها بشكل أكثر كفاءة أثناء مرحلة الاستهلاك.

تعامل تلقائيًا مع بياناتك المتغيرة ببطء

شرح السجلات التاريخية من خلال مثال

يمكن أن تكون هذه السجلات التاريخية في متناول اليد (https://xkcd.com/2075/)

العمليات التجارية في مرحلة مستمرة من التغيير. ينضم الموظفون إلى المنظمة ويتم ترقيتهم ويتقاعدون في النهاية. ينتقل العملاء إلى عنوان جديد أو يغيرون تفاصيل الاتصال الخاصة بهم. في بعض الحالات ، يتم استيعاب أقسام بأكملها أو إعادة تسميتها أو إعادة هيكلتها. لذلك ، يجب عليك التأكد من أن نموذج الأبعاد الخاص بك يمكن أن يعكس هذه البيئة الديناميكية بدقة.

من خلال تطبيق تقنية معالجة SCD الصحيحة بالنسبة لنماذج بيانات الأبعاد الخاصة بك ، يمكنك حساب التغييرات التي تم إجراؤها على السجلات في النظام المصدر ، وإذا لزم الأمر ، الاحتفاظ بالبيانات التاريخية لمزيد من التحليل. الآن ، هناك العديد من أنواع SCD المتاحة بناءً على متطلباتك. تتراوح الأساليب من SCD Type 1 للكتابة فوق القيم السابقة إلى نوع SCD 3 الذي يقوم بتحديث السجل الحالي أثناء إضافة حقل جديد لإظهار القيمة السابقة للسمة.

قد يحتوي جدول الأبعاد أيضًا على حقول إضافية لتعكس وقت دخول تغيير معين حيز التنفيذ (تاريخ السريان / تاريخ انتهاء الصلاحية) أو عملة سجل معين (الإصدار) في حالة إجراء تغييرات متعددة عليه عبر السنوات. قد يكون لديك حتى مؤشر علم نشط للإشارة إلى إصدار السجل قيد الاستخدام في وقت الإبلاغ.

أحد التحذيرات هنا هو أنه من المرهق تسهيل عمليات الإدخال والتحديثات هذه أثناء تحميل مستودع البيانات يدويًا. بعد كل شيء ، نحن نتحدث عن تنفيذ العمليات للتحقق تلقائيًا من التغييرات في سجل النظام المصدر ثم تحديد ما إذا كان يجب الكتابة فوق السجلات أو تحديثها. في الحالة الأخيرة ، قد يلزم إنشاء عدة مفاتيح بديلة جديدة ، ناهيك عن عدة حقول جديدة. سيتعين عليك أيضًا إنشاء تعيين البيانات لجميع هذه الأنشطة.

إذا كنت تقوم بتطوير مستودع البيانات الخاص بك بمساعدة أداة نمذجة بيانات الأبعاد التي تتبع نهجًا يعتمد على البيانات الوصفية الخالية من التعليمات البرمجية ، يمكنك ببساطة تعيين أنواع SCD ذات الصلة إلى السمات على المستوى المنطقي. بعد ذلك ، سيتم نشر هذه التفاصيل إلى محرك ETL يمكنه التعامل تلقائيًا مع إدراج / تحديثات لاحقة ، والصلات ، واعتبارات تعيين البيانات دون أي جهد يدوي.

تبسيط تحميل جدول الحقائق

تبسيط تحميل جدول الحقائق باستخدام نماذج البيانات ذات الأبعاد

تؤدي جميع خطوط أنابيب البيانات إلى جداول الحقائق والأبعاد

تحميل جدول الحقائق هو مجال آخر يقدم الكثير من الجهد اليدوي الإضافي أثناء تطوير خط أنابيب البيانات. تتضمن هذه العملية هندسة صلات متعددة بين جداول الأبعاد. بالنظر إلى أن جداول الحقائق تحتوي بشكل عام على ملايين السجلات ، فإن التكلفة العالية لتنفيذ هذه العملية واضحة.

في كل مرة يتم فيها ملء جدول الحقائق ، تقوم عمليات البحث في نموذج بيانات الأبعاد بمرجع تبادلي لكل مفتاح عمل مقابل جدول الأبعاد ذي الصلة وتحويله إلى مفتاح بديل. افترض أن جدول الأبعاد كبير بشكل خاص ، أو تم إجراء العديد من التغييرات على سجلات المصدر (في حالة الأبعاد المتغيرة ببطء). في هذه الحالة ، يمكن أن يصبح البحث مستهلكًا للوقت وموارد بشكل خاص. بالطبع ، سوف تتكرر هذه المهمة باستمرار حيث يتم تحديث بيانات المعاملات باستمرار.

في كثير من الحالات ، قد تحتاج إلى إنشاء ملف جدول التدريج بين نظام المصدر ومستودع البيانات لتخزين كل هذه البيانات التاريخية وبالتالي تسهيل معالجتها بشكل أكبر أثناء التحميل.

قد تضطر أيضًا إلى إجراء تعيينات بيانات هرمية متقدمة من أنظمة المصدر لضمان تحميل البيانات الموجودة في الحبوب الصحيحة في جدول الحقائق.

الآن ، إذا عدنا إلى نهج يحركها البيانات الوصفية الموضحة سابقًا ، يمكننا إيجاد طريقة لتسريع هذه العملية بشكل جذري. إذا قمت ، بدلاً من ذلك ، بتكوين سمات الحقائق داخل نموذج بيانات الأبعاد ، فعندئذٍ استخدم هذه الكيانات في خط أنابيب البيانات ، يمكن تنفيذ الصلات وعمليات البحث المطلوبة لمحتوى مستودع البيانات تلقائيًا بواسطة محرك ETL / ELT الأساسي.

 

ضع العمليات في مكانها الصحيح للتعامل مع الحقائق المبكرة

تساعد نماذج البيانات ذات الأبعاد على تخزين البيانات التاريخية

في بعض الأحيان ، قد لا يتناسب واقع بيئة عملك بدقة مع متطلبات المخطط القياسي.

على سبيل المثال ، قد يتم إنشاء معرّف الموظف لمُجنّد قبل أن يكون لدى المنظمة أي معلومات عن هويتهم أو حتى تاريخ انضمام محدد للمرشح. إذا قمت ببناء نموذج بيانات الأبعاد ليعكس عملية الموارد البشرية الخاصة بك ، فسوف ينتج عن هذا السيناريو سجل جدول حقائق بدون أي سمات أبعاد ذات صلة. في الأساس ، فشل البحث عن مفتاح خارجي.

الآن ، في هذه الحالة ، إنها مسألة انتظار وصول المعلومات المطلوبة ، لذا فإن أفضل طريقة هي استبدال البيانات المفقودة ببُعد عنصر نائب يحتوي على قيم افتراضية. بعد ذلك ، بمجرد تسجيل تفاصيل الموظف بالكامل ، يمكن تحديث السمات في الجدول ذي الصلة. في حالات أخرى ، قد لا ترغب في معالجة السجل على الإطلاق ، وفي هذه الحالة قد ترغب في وضع علامة على الإدخال أو حذفه تمامًا أثناء مجتمع مستودع البيانات.

بغض النظر عن كيفية تعاملك مع هذه المواقف ، يجب أن يسمح نموذج بيانات الأبعاد الخاص بك بالتكوينات الديناميكية التي تعكس طبيعة عملك.

مهندس نماذج البيانات الوصفية الغنية بالأبعاد بسرعة مع Astera منشئ DW

Astera منشئ DW هي أداة نمذجة بيانات أبعاد شاملة تتيح لك تصميم نماذج أبعاد شاملة من نظام معاملات في دقائق.

يمكن لمحركنا البديهي أن يطور تلقائيًا أفضل مخطط ملائم يعين الحقائق والأبعاد بناءً على علاقات الكيانات المضمنة في قاعدة البيانات المصدر. بدلاً من ذلك ، يمكنك الاستفادة من مربع أدوات ADWB الغني بالميزات لإنشاء نموذج الأبعاد الخاص بك من البداية ، مع استكمال جداول أبعاد الحقائق والأبعاد والتاريخ. بعد ذلك ، قم ببساطة بتكوين كل كيان بالسمات الضرورية ، بما في ذلك أنواع SCD ، والمفاتيح البديلة ، ومفاتيح العمل ، وبيانات التعريف التعريفية الأخرى.

نقدم أيضًا وظائف متنوعة لتسريع عملية تحميل مستودع البيانات ، بما في ذلك محمل الحقائق والأبعاد المخصصة لتسريع نقل البيانات إلى وجهتك. يوفر ADWB أيضًا كائن استعلام نموذج بيانات مبني لغرض معين والذي يسمح لك بالانضمام إلى عدة جداول نظام مصدر لإنشاء كيان مصدر هرمي يمكنك تعيينه بسهولة إلى جداول مستودع البيانات ذات الصلة.

لإلقاء نظرة فاحصة على Astera قدرات النمذجة الأبعاد وأتمتة مستودعات البيانات في DW Builder ، قم بالتواصل معنا الان. أو راجع المنتج لنفسك.

ربما يعجبك أيضا
ما هي إمكانية ملاحظة البيانات؟ دليل كامل
استكشاف مصدر البيانات: ضمان سلامة البيانات وصحتها
ما هي البيانات الوصفية ولماذا هي مهمة؟
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال