بنية مستودع البيانات: الأنواع والمكونات والمفاهيم

By |2022-05-13T09:45:36+00:00مايو 23rd، 2019|

على مدى العقود القليلة الماضية ، كانت بنية مستودع البيانات هي ركيزة النظم الإيكولوجية لبيانات الشركة. وعلى الرغم من التعديلات العديدة على مدى السنوات الخمس الماضية في مجال البيانات الضخمة والحوسبة السحابية والتحليل التنبئي وتقنيات المعلومات ، اكتسبت مستودعات البيانات أهمية أكبر فقط. اليوم ، أهمية تخزين البيانات لا يمكن إنكاره ، وهناك المزيد من الاحتمالات المتاحة لتخزين البيانات وتحليلها وفهرستها أكثر من أي وقت مضى.

ستناقش هذه المقالة المفاهيم الأساسية المختلفة لهندسة مستودع البيانات ونماذج مستودعات بيانات المؤسسة المختلفة (EDW) وخصائصها ومكوناتها المهمة ، وتستكشف الغرض الأساسي من مستودع البيانات في الصناعات الحديثة.

ما هو مستودع البيانات؟

مستودع البيانات هو مستودع مركزي يتضمن المعلومات السابقة والتبادلية من مصدر واحد أو عدة مصادر. يمكن لموظفي المؤسسة استخدام هذا المستودع للتحليل ورسم الرؤى والتنبؤ بالمستقبل.

تعتبر عملية ETL مفهومًا أساسيًا لمستودع البيانات:

  • مقتطف: جمع البيانات من مصادر مختلفة غير متجانسة
  • تحول: تحويل البيانات دون المستوى إلى بيانات نظيفة ومنظمة ومحققة وجاهزة للاستخدام
  • حمل: تحميل البيانات على وجهة جديدة

يبسط خبراء التعليم والتدريب عمليات إعداد التقارير وذكاء الأعمال للشركات. بدلاً من معالجة المعاملات ، يعمل مستودع البيانات كقاعدة بيانات علائقية ويقوم بإجراء الاستعلام والتحليل. يتمثل الاختلاف الرئيسي بين قواعد بيانات المعاملات ومستودعات البيانات في أن قواعد بيانات المعاملات لا تؤدي إلى تحليلات ، بينما يتم تنفيذ التحليلات بكفاءة في مستودع البيانات. باختصار ، تتشابه قواعد بيانات المعاملات ومستودعات البيانات باستثناء الجانب التحليلي.

يشتمل نموذج مستودع البيانات عادةً على بيانات المعاملات التاريخية. ومع ذلك ، يمكن أن تحتوي على بيانات من مصادر أخرى أيضًا. إنه يميز القدرة التحليلية من القدرة على المعاملات ، مما يسمح للشركات بجمع البيانات من مصادر عديدة. بهذه الطريقة ، فهي تساعد في:

  • حفظ السجلات
  • تقييم البيانات لفهم عمليات الشركة بشكل أفضل وتعزيزها

أدوات وميزات مستودع البيانات

إلى جانب قاعدة بيانات علائقية ، يمكن أن يحتوي تصميم مستودع البيانات على أداة استخراج وتحويل وتحميل (ETL)والتحليل العددي وقدرات إعداد التقارير وقدرات استخراج البيانات والتطبيقات الأخرى. تتعامل هذه الأدوات والميزات مع إجراءات تجميع البيانات وتحويلها إلى معلومات قيمة ونقلها إلى محللي الأعمال والمستخدمين الآخرين. تتيح هذه الإمكانات تطبيقات واستخدامات متعددة لتخزين البيانات. على سبيل المثال ، يمكن للقطاع المصرفي استخدام مستودعات البيانات لإنشاء نماذج مالية يمكنها تحسين كفاءة التكلفة.

آخر مثال حالة الاستخدام لتخزين البيانات هي إدارة سلسلة التوريد ، حيث تساعد تحليلات البيانات والتنبؤ في تقليل المهل الزمنية وتبسيط العمليات.

ومع ذلك ، فإن بداية أي مبادرة لتخزين البيانات تتطلب عملية تقييم شاملة ودقيقة. غالبًا ما تُستخدم قوالب تقييم مستودع البيانات لهذا الغرض. إنها توفر معلومات متعمقة حول احتياجات العمل والتوقعات والجوانب الفنية لبناء مستودع بيانات وتخطيطه وتشغيله.

من المهم أيضًا ملاحظة أن تقييم مستودع البيانات ليس حدثًا لمرة واحدة ويعتمد غالبًا على الاحتياجات الفريدة للشركة. هذه التقييمات ضرورية لمعرفة القضايا الرئيسية التي قد تواجهها المنظمة أثناء التخطيط لبناء مستودع بيانات من البداية.

خصائص تصميم مستودع البيانات

فيما يلي الخصائص الرئيسية لتصميم تخزين البيانات وتطويره وأفضل الممارسات:

يركز على الموضوع

يستخدم تصميم مستودع البيانات موضوعًا معينًا. يوفر معلومات تتعلق بموضوع بدلاً من عمليات الشركة. يمكن أن تكون هذه الموضوعات مرتبطة بالمبيعات والإعلان والتسويق والمزيد.

بدلاً من التركيز على العمليات أو المعاملات التجارية ، يركز تخزين البيانات على ذكاء الأعمال (BI) ، أي عرض البيانات وتحليلها لاتخاذ القرار. كما يقدم تفسيراً مباشراً وموجزاً لموضوع معين عن طريق حذف البيانات التي قد لا تكون مفيدة لصانعي القرار.

موحد

باستخدام نمذجة مستودع البيانات ، فإن تصميم مستودع البيانات يوحد ويدمج البيانات من قواعد بيانات مختلفة بطريقة مناسبة جماعية. يتضمن بيانات من مصادر متنوعة ، مثل قواعد البيانات العلائقية وغير العلائقية ، والملفات الثابتة ، والحواسيب المركزية ، والأنظمة المستندة إلى السحابة. إلى جانب ذلك ، يجب أن يحافظ مستودع البيانات على تصنيف وتخطيط وترميز متسق لتسهيل تحليل البيانات بكفاءة.

تباين الوقت

على عكس أنظمة التشغيل الأخرى ، يقوم مخزن البيانات بتخزين البيانات المركزية من فترة زمنية معينة. لذلك ، يتم تحديد البيانات التي تم جمعها خلال فترة زمنية محددة وتوفر رؤى من منظور الماضي. علاوة على ذلك ، لا يمكن تنظيم البيانات أو تعديلها بعد دخولها المستودع.

عدم التقلب

من الخصائص المهمة الأخرى لمستودع البيانات عدم التقلب ، مما يعني أنه لا يتم إزالة البيانات الأولية عند تحميل معلومات جديدة إلى مستودع البيانات. علاوة على ذلك ، يمكن قراءة البيانات فقط ويمكن تحديثها بشكل متقطع لتقديم صورة كاملة ومحدثة للمستخدم.

أتمتة تصميم مستودع البيانات 

يمكن أتمتة تصميم مستودع البيانات Jumpstart تطوير مستودع البيانات الخاص بك. من الضروري أن تكون مقاربتك صحيحة. أولاً ، حدد مكان وجود بياناتك المهمة ، وأي البيانات ذات صلة بمبادرات ذكاء الأعمال الخاصة بك.

بعد ذلك ، قم بإنشاء إطار عمل بيانات تعريف معياري يوفر سياقًا هامًا لهذه البيانات في مرحلة نمذجة البيانات. سيكون إطار العمل هذا قادرًا على مطابقة نموذج مستودع البيانات الخاص بك مع النظام المصدر والتأكد من أن العلاقات بين الكيانات مبنية بشكل مناسب باستخدام مفاتيح أساسية وخارجية محددة بشكل صحيح. من شأنه أيضًا أن يثبت أن الجداول مرتبطة بشكل صحيح وأن أنواع علاقة الكيانات يتم تعيينها بدقة.

أيضًا ، يجب أن تكون لديك عمليات مطبقة تسمح لك بدمج مصادر جديدة وتعديلات أخرى في نموذج بيانات المصدر الخاص بك وإعادة نشره. سيوفر اتباع نهج تكراري نظرة أكثر تفصيلاً للبيانات المقدمة لأغراض ذكاء الأعمال ووجهات النظر المحققة.

يمكنك اعتماد 3NF أو نهج النمذجة الأبعاد، حسب متطلبات ذكاء الأعمال الخاصة بك. هذا الأخير أفضل لأنه سيساعدك على إنشاء هيكل مبسط وغير منسق لنموذج مستودع البيانات الخاص بك.

أثناء تواجدك فيه ، إليك بعض النصائح الأساسية التي يجب أن تضعها في اعتبارك:

  • الحفاظ على حبيبات متسقة في نماذج البيانات ذات الأبعاد
  • قم بتطبيق تقنية معالجة SCD الصحيحة على سمات الأبعاد الخاصة بك
  • تبسيط تحميل جدول الحقائق باستخدام نهج قائم على البيانات الوصفية
  • ضع العمليات في مكانها الصحيح للتعامل مع الحقائق المبكرة

أخيرًا ، يمكن لأعضاء الفريق اختبار جودة وسلامة نماذج البيانات قبل نشرها على قاعدة البيانات الهدف. وجود التحقق الآلي من نموذج البيانات يمكن أن توفر الأداة توفيرًا كبيرًا في الوقت.

سيساعدك اتباع أفضل الممارسات عند أتمتة نمذجة المخطط على تحديث نموذجك بسلاسة ونشر التغييرات عبر خطوط بياناتك.

تتمثل الخطوة التالية في عملية تصميم مستودع البيانات في اختيار بنية تخزين البيانات الصحيحة.

أنواع معمارية مستودع البيانات

تحدد بنية مستودع البيانات ترتيب البيانات في قواعد البيانات المختلفة. نظرًا لأنه يجب تنظيم البيانات وتنظيفها لتكون ذات قيمة ، فإن بنية مستودع البيانات الحديثة تحدد الأسلوب الأكثر فاعلية لاستخراج المعلومات من البيانات الأولية. باستخدام نموذج الأبعاد ، يتم استخراج البيانات الأولية في منطقة التدريج وتحويلها إلى هيكل تخزين بسيط قابل للاستهلاك لتقديم معلومات تجارية قيّمة. علاوة على ذلك ، على عكس أ مستودع البيانات السحابية، يتطلب نموذج مستودع البيانات التقليدي خوادم محلية لتعمل جميع مكونات المستودعات.

عند تصميم مستودع بيانات الشركة ، هناك ثلاثة أنواع مختلفة من النماذج يجب وضعها في الاعتبار:

مستودع بيانات أحادي المستوى

ينتج هيكل بنية مستودع البيانات أحادي الطبقة مجموعة كثيفة من البيانات ويقلل من حجم البيانات المودعة. على الرغم من أنه مفيد للتخلص من التكرار ، إلا أن هذا النوع من تصميم المستودعات غير مناسب للشركات ذات متطلبات البيانات المعقدة والعديد من تدفقات البيانات. هذا هو المكان الذي تأتي فيه بنيات مستودعات البيانات متعددة المستويات لأنها تتعامل مع تدفقات البيانات الأكثر تعقيدًا.

مستودع بيانات من مستويين

في المقارنة ، يقسم هيكل البيانات لنموذج مستودع البيانات ذي المستويين مصادر البيانات الملموسة من المستودع نفسه. على عكس الطبقة الواحدة ، يستخدم التصميم ذو المستويين نظامًا وخادم قاعدة بيانات.

عادةً ما تستخدم المؤسسات الصغيرة حيث يتم استخدام الخادم كسوق بيانات هذا النوع من بنية مستودع البيانات. على الرغم من أنها أكثر كفاءة في تخزين البيانات وتنظيمها ، إلا أن البنية ذات المستويين غير قابلة للتطوير. علاوة على ذلك ، فهو يدعم فقط عددًا رمزيًا من المستخدمين.

مستودع بيانات ثلاثي المستويات

يعد نوع بنية مستودع البيانات المكون من ثلاث طبقات هو النوع الأكثر شيوعًا لتصميم DWH الحديث لأنه ينتج تدفقًا منظمًا جيدًا للبيانات من المعلومات الأولية إلى الرؤى القيمة.

تتكون الطبقة السفلية في نموذج مستودع البيانات عادةً من خادم بنك البيانات الذي يُنشئ طبقة تجريد على البيانات من مصادر عديدة ، مثل بنوك بيانات المعاملات المستخدمة للاستخدامات الأمامية.

الطبقة الوسطى تشمل المعالجة التحليلية عبر الإنترنت (OLAP) الخادم. يغير هذا المستوى البيانات إلى ترتيب أكثر ملاءمة للتحليل والتحقيق متعدد الأوجه من منظور المستخدم. نظرًا لأنه يشتمل على خادم OLAP مدمج مسبقًا في البنية ، يمكننا أيضًا تسميته مستودع البيانات الذي يركز على OLAP.

المستوى الثالث والأعلى هو مستوى العميل الذي يتضمن الأدوات وواجهة برمجة التطبيقات (API) المستخدمة لتحليل البيانات عالية المستوى والاستعلام وإعداد التقارير. ومع ذلك ، بالكاد يقوم الأشخاص بتضمين المستوى الرابع في بنية مستودع البيانات لأنه غالبًا لا يعتبر جزءًا لا يتجزأ من الأنواع الثلاثة الأخرى.

يوضح مخطط DW أدناه الطبقات الثلاث لمستودع البيانات:

تصميم مستودع البيانات | ETL | مركز معلومات مستودع البيانات

المصدر: DatawarehouseInfo.com

كما هو موضح بمزيد من التفصيل في مخطط مستودع البيانات ، هذه هي الأنواع المختلفة لبنية تخزين البيانات التقليدية. الآن ، دعنا نتعرف على المكونات الرئيسية لمستودع البيانات (DWH) وكيف تساعد في بناء وتوسيع مستودع البيانات بالتفصيل.

المكونات الرئيسية لـ DWH العمارة

الطبقات المختلفة لمستودع البيانات أو المكونات في بنية DWH هي:

  1. قاعدة بيانات مستودع البيانات

المكون المركزي لبنية DW هو قاعدة بيانات تخزن جميع بيانات المؤسسة وتجعلها قابلة للإدارة لإعداد التقارير. من الواضح أن هذا يعني أنك بحاجة إلى اختيار نوع قاعدة البيانات التي ستستخدمها لتخزين البيانات في المستودع الخاص بك.

فيما يلي أنواع قاعدة البيانات الأربعة التي يمكنك استخدامها:

  • قواعد البيانات العلائقية النموذجية هي قواعد البيانات التي تتمحور حول الصفوف والتي ربما تستخدمها على أساس يومي - على سبيل المثال ، Microsoft SQL Server و SAP و Oracle و IBM DB2.
  • قواعد بيانات التحليلات تم تطويرها بدقة لتخزين البيانات للحفاظ على التحليلات وإدارتها ، مثل Teradata و Greenplum.
  • تطبيقات مستودع البيانات ليست قواعد بيانات تخزين بالضبط ، ولكن العديد من التجار يقدمون الآن تطبيقات تقدم برامج لإدارة البيانات بالإضافة إلى أجهزة لتخزين البيانات. على سبيل المثال ، SAP Hana و Oracle Exadata و IBM Netezza.
  • قواعد البيانات المستندة إلى السحابة يمكن استضافتها واستردادها على السحابة بحيث لا تضطر إلى شراء أي جهاز لإعداد مستودع البيانات - على سبيل المثال ، Amazon Redshift و Google BigQuery و Microsoft Azure SQL.

2. أدوات الاستخراج والتحويل والتحميل (ETL)

أدوات ETL هي مكونات مركزية لتصميم مستودع بيانات المؤسسة. تساعد هذه الأدوات في استخراج البيانات من مصادر مختلفة ، وتحويلها إلى ترتيب مناسب ، وتحميلها في مستودع بيانات.

ستحدد أداة ETL التي تختارها:

  • الوقت المستغرق في استخراج البيانات
  • نهج استخراج البيانات
  • نوع التحولات المطبقة والبساطة للقيام بذلك
  • تعريف قاعدة العمل لـ التحقق من صحة البيانات وتنقيتها لتحسين تحليلات المنتج النهائي
  • تعبئة بيانات مضللة
  • تحديد توزيع المعلومات من المستودع الأساسي إلى تطبيقات BI الخاصة بك

3. البيانات الوصفية

في بنية DW ، تصف البيانات الوصفية قاعدة بيانات مستودع البيانات وتوفر إطارًا للبيانات. يساعد في إنشاء مستودع البيانات وحفظه ومعالجته والاستفادة منه.

هناك نوعان من البيانات الوصفية في تخزين البيانات:

  • البيانات الوصفية الفنية يتألف من المعلومات التي يمكن للمطورين والمديرين استخدامها عند تنفيذ مهام تطوير وإدارة المستودعات.
  • البيانات الوصفية للأعمال يتضمن معلومات تقدم وجهة نظر سهلة الفهم للبيانات المخزنة في المستودع.
البيانات الوصفية وتطبيقاتها في بنية مستودع البيانات

الصورة مأخوذة من www.softwaretestinghelp.com/metadata-in-data-warehouse-etl/

تلعب البيانات الوصفية دورًا مهمًا للشركات والفرق الفنية لفهم البيانات الموجودة في المستودع وتحويلها إلى معلومات.

مستودع البيانات الخاص بك ليس مشروعًا ، إنه عملية. لجعل تنفيذك فعالاً قدر الإمكان ، تحتاج إلى اتباع نهج رشيق حقًا ، الأمر الذي يستلزم وجود بنية مستودع البيانات القائمة على البيانات الوصفية.

هذا نهج مرئي لتخزين البيانات يستفيد من نماذج البيانات الغنية بالبيانات الوصفية لدفع كل جانب من جوانب عملية التطوير من توثيق أنظمة المصدر إلى نسخ المخططات في قاعدة بيانات فعلية وتسهيل رسم الخرائط من المصدر إلى الوجهة.

 

مخطط مستودع البيانات هو على مستوى البيانات الوصفية، مما يعني أنه لا داعي للقلق بشأن جودة الكود وكيف ستواجه كميات كبيرة من البيانات. في الواقع ، يمكنك إدارة بياناتك والتحكم فيها دون الدخول في الكود.

أيضا، يمكنك اختبار نماذج مستودعات البيانات بشكل متزامن قبل النشر ونسخ مخططك في أي قاعدة بيانات رائدة. يؤدي النهج القائم على البيانات الوصفية إلى ثقافة تطوير تكرارية وتحميض المستقبل من نشر مستودع البيانات الخاص بك ، بحيث يمكنك تحديث البنية التحتية الحالية بالمتطلبات الجديدة دون الإخلال بسلامة مستودع البيانات وقابليته للاستخدام.

إلى جانب إمكانات الأتمتة ، يمكن لتصميم مستودع البيانات المستند إلى البيانات الوصفية القيام بذلك تبسيط التصميم والتطوير والنشر، مما يؤدي إلى تنفيذ مستودع بيانات قوي.

4. أدوات الوصول إلى مستودع البيانات

يستخدم مستودع البيانات قاعدة بيانات أو مجموعة من قواعد البيانات كأساس. لا يمكن لشركات مستودعات البيانات بشكل عام العمل مع قواعد البيانات دون استخدام الأدوات ما لم يكن لديها مسؤولو قواعد البيانات المتاحون. ومع ذلك ، ليس هذا هو الحال مع جميع وحدات الأعمال. هذا هو السبب في أنهم يستخدمون المساعدة من العديد من أدوات تخزين البيانات بدون رمز ، مثل:

  • أدوات الاستعلام وإعداد التقارير تساعد المستخدمين في إنتاج تقارير الشركات لتحليلها والتي يمكن أن تكون في شكل جداول بيانات أو حسابات أو عناصر مرئية تفاعلية.
  • أدوات تطوير التطبيقات المساعدة في إنشاء تقارير مخصصة وتقديمها في تفسيرات مخصصة لأغراض إعداد التقارير.
  • أدوات التنقيب عن البيانات لتخزين البيانات تنظيم إجراءات تحديد المصفوفات والروابط بكميات هائلة من البيانات باستخدام أساليب النمذجة الإحصائية المتطورة.
  • أدوات OLAP المساعدة في إنشاء مستودع بيانات متعدد الأبعاد والسماح بتحليل بيانات المؤسسة من وجهات نظر عديدة.

5. حافلة مستودع البيانات

يحدد تدفق البيانات داخل بنية ناقل تخزين البيانات ويتضمن سوق البيانات. سوق البيانات هو مستوى وصول يسمح للمستخدمين بنقل البيانات. يتم استخدامه أيضًا لتقسيم البيانات التي يتم إنتاجها لمجموعة مستخدمين معينة.

6. طبقة تقارير مستودع البيانات

تسمح طبقة التقارير في مستودع البيانات للمستخدمين النهائيين بالوصول إلى واجهة BI أو بنية قاعدة بيانات BI. الغرض من طبقة التقارير في مستودع البيانات هو العمل كلوحة معلومات لتصور البيانات وإنشاء التقارير وإخراج أي معلومات مطلوبة.

أفضل ممارسات معمارية مستودع البيانات

  • إنشاء نماذج مستودع البيانات التي تم تحسينها لاسترجاع المعلومات في كل من الأساليب الأبعاد أو غير الطبيعية أو المختلطة.
  • حدد أسلوبًا واحدًا لتصميمات مستودعات البيانات مثل النهج من أعلى إلى أسفل أو من أسفل إلى أعلى والتزم به.
  • قم دائمًا بتنظيف وتحويل البيانات باستخدام أداة ETL قبل تحميل البيانات إلى مستودع البيانات.
يتم تنظيف البيانات وتحويلها في أدوات ETL قبل دمجها في بنية مستودع البيانات

الصورة مأخوذة من medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632

  • قم بإنشاء عملية تطهير بيانات آلية حيث يتم تنظيف جميع البيانات بشكل موحد قبل التحميل.
  • السماح بمشاركة البيانات الوصفية بين المكونات المختلفة لمستودع البيانات لعملية استخراج سلسة.
  • تأكد دائمًا من تكامل البيانات بشكل صحيح وعدم دمجها فقط عند نقلها من مخازن البيانات إلى مستودع البيانات. سيتطلب هذا تطبيع 3NF لنماذج البيانات.

بناء مستودع البيانات الخاص بك مع Astera DW Builder

Astera DW Builder هو حل لتخزين البيانات من البداية إلى النهاية يعمل على أتمتة تصميم ونشر مستودع البيانات في بيئة خالية من التعليمات البرمجية. يستخدم نهجًا يعتمد على البيانات الوصفية يمكّن المستخدمين من معالجة البيانات باستخدام مجموعة شاملة من التحولات المضمنة بدون برمجة ETL معقدة أو برمجة نصية لـ SQL.

مقالات ذات صلة

النهج التقليدي مقابل تخزين البيانات المستند إلى البيانات الوصفية

  من أنظمة معلومات الإدارة المتجانسة إلى مستودعات البيانات ذات النماذج الأبعاد وبحيرات البيانات ، رأينا تغييرات هائلة في كيفية ...
المزيد

النهج المستند إلى البيانات الوصفية يلتقي بأتمتة مستودع البيانات - مطابقة مصنوعة ...

في الجزء السابق ، سلطنا الضوء على سبب وجوب أن تكون تقنية أتمتة مستودعات البيانات جزءًا لا يتجزأ من ...
المزيد

كيف تجني المؤسسات فوائد أتمتة مستودعات البيانات باستخدام Astera DW ...

تسمح مخازن البيانات للشركات بعرض بياناتها من جميع نقاط النهاية في موقع مركزي ومعالجتها للحصول على رؤى ....
المزيد