بنية مستودع البيانات: الأنواع والمكونات والمفاهيم

By |2021-04-30T20:27:51+00:0030 أبريل، 2021|

على مدى العقود الثلاثة الماضية ، كانت بنية مستودع البيانات هي ركيزة النظم البيئية لبيانات الشركات. وعلى الرغم من التعديلات العديدة على مدار السنوات الخمس الماضية في ساحة البيانات الضخمة والحوسبة السحابية والتحليل التنبئي وتقنيات المعلومات ، اكتسبت مستودعات البيانات أهمية أكبر. اليوم ، هناك المزيد من الاحتمالات المتاحة لتخزين البيانات وتحليلها وفهرستها ، ولكن أهمية تخزين البيانات لا يمكن إنكاره.

في هذه المقالة ، سنناقش المفاهيم الأساسية لهندسة مستودع البيانات والأنواع والخصائص والمكونات الرئيسية لهندسة مستودع البيانات ونرى كيف يمكن أن تساعدك في بناء مشروع مستودع البيانات الخاص بك. لنبدأ بفهم مفهوم مستودع البيانات.

ما هو مستودع البيانات (EDW)؟

دعنا نحدد مصطلح "مستودع البيانات".

مستودع البيانات هو مستودع يتضمن المعلومات السابقة والتبادلية من مصدر واحد أو عدة مصادر. يمكن استخدام هذا المستودع من قبل موظفي المؤسسة للتحليل ورسم الرؤى والتنبؤ بالمستقبل.

تعتبر عملية ETL مفهومًا أساسيًا لمستودع البيانات:

  • استخراج: جمع البيانات من مصادر مختلفة غير متجانسة
  • التحويل: تحويل البيانات دون المستوى إلى بيانات نظيفة ومنظمة وموثقة وجاهزة للاستخدام
  • تحميل: تحميل البيانات على وجهة جديدة

تعمل مستودعات بيانات المؤسسة على تبسيط إعداد التقارير وعمليات ذكاء الأعمال للشركات. بدلاً من معالجة المعاملات ، يعمل مستودع البيانات كقاعدة بيانات علائقية ويقوم بإجراء الاستعلام والتحليل. يتمثل الاختلاف الرئيسي بين مستودع البيانات وقاعدة بيانات المعاملات في أن قاعدة بيانات المعاملات لا تؤدي إلى التحليلات ، بينما يتم تنفيذ التحليلات بكفاءة في مستودع البيانات.

يتضمن مستودع البيانات عادةً بيانات المعاملات السابقة. ومع ذلك ، يمكن أن يحتوي على بيانات من مصادر أخرى أيضًا. يميز القدرة التحليلية عن القدرة على المعاملات ويسمح للشركات بدمج البيانات من مصادر عديدة. بهذه الطريقة ، تساعد في:

  • حفظ السجلات السابقة
  • تقييم البيانات لفهم وتعزيز عمليات الشركة بشكل أفضل

إلى جانب قاعدة بيانات علائقية ، يمكن أن يحتوي تصميم مستودع البيانات على أداة استخراج وتحويل وتحميل (ETL)والتحليل العددي وقدرات إعداد التقارير وقدرات استخراج البيانات والتطبيقات الأخرى التي تتعامل مع إجراءات جمع البيانات وتحويلها إلى معلومات قيمة ونقلها إلى محلل الأعمال والمستخدمين الآخرين. تتيح هذه الإمكانات تطبيقات واستخدامات متعددة لتخزين البيانات. على سبيل المثال ، في القطاع المصرفي ، يمكن استخدام مستودعات البيانات لإنشاء نماذج مالية من شأنها تحسين كفاءة التكلفة. اخر مثال حالة الاستخدام لتخزين البيانات هي إدارة سلسلة التوريد ، حيث تساعد تحليلات البيانات والتنبؤ في تقليل المهل الزمنية وتبسيط العمليات.

ومع ذلك ، فإن بداية أي مبادرة لتخزين البيانات تتطلب عملية تقييم شاملة ودقيقة. سيوفر استخدام قالب تقييم مستودع البيانات معلومات متعمقة حول احتياجات العمل والتوقعات والجوانب الفنية لبناء مستودع البيانات والتخطيط له وتشغيله. من المهم أيضًا ملاحظة أن تقييم مستودع البيانات ليس حدثًا لمرة واحدة وغالبًا ما يعتمد على الاحتياجات الفريدة للشركة.

خصائص تصميم مستودع البيانات

بعد مناقشة مفاهيم مستودع البيانات الرئيسية ، يمكننا الآن فهم خصائص مستودع البيانات بشكل أفضل.

فيما يلي الخصائص الرئيسية لتصميم تخزين البيانات وتطويره وأفضل الممارسات:

يركز على الموضوع

يستخدم تصميم مستودع البيانات موضوعًا معينًا. يوفر معلومات تتعلق بموضوع بدلاً من عمليات الشركة. يمكن أن تكون هذه الموضوعات مرتبطة بالمبيعات والإعلان والتسويق والمزيد.

بدلاً من التركيز على العمليات أو المعاملات التجارية ، يركز تخزين البيانات على ذكاء الأعمال (BI) ، أي ؛ عرض وتحليل البيانات لاتخاذ القرار. كما يقدم تفسيرًا مباشرًا وموجزًا ​​لموضوع معين من خلال حذف البيانات التي قد لا تكون مفيدة لصانعي القرار.

موحد

يعمل تصميم مستودع البيانات على توحيد ودمج جميع البيانات المماثلة من قواعد البيانات المختلفة بطريقة مقبولة جماعيًا باستخدام نمذجة مستودع البيانات. إنه يشتمل على بيانات من مصادر متنوعة مثل قواعد البيانات العلائقية وغير العلائقية ، والملفات الثابتة ، والحاسوب المركزي ، والأنظمة المستندة إلى مجموعة النظراء ، وما إلى ذلك ، بالإضافة إلى ذلك ، يجب أن يحتفظ مستودع البيانات بالتسميات والتخطيط والترميز المتسق لتسهيل تحليل البيانات بشكل فعال.

تباين الوقت

على عكس أنظمة التشغيل الأخرى ، يخزن مستودع البيانات البيانات التي تم جمعها على مدى فترة زمنية طويلة. يتم تحديد البيانات التي تم جمعها بمدة زمنية محددة وتوفر رؤى من منظور الماضي. علاوة على ذلك ، عند إدخال البيانات في المستودع ، لا يمكن إعادة هيكلتها أو تعديلها.

عدم التقلب

من الخصائص المهمة الأخرى لمستودع البيانات عدم التقلب مما يعني أنه لا يتم إزالة البيانات السابقة عند تحميل بيانات جديدة إلى مستودع البيانات. علاوة على ذلك ، يمكن قراءة البيانات فقط ويمكن تحديثها بشكل متقطع لتقديم صورة كاملة ومحدثة للمستخدم.

تعريف بنية مستودع البيانات

بنية مستودع البيانات هي تصميم إطار تخزين البيانات للمؤسسة. تأخذ بنية مستودع البيانات المعلومات من مجموعات البيانات الأولية وتخزنها في تنسيق منظم وسهل الفهم.

أنواع معمارية مستودع البيانات

تحدد بنية مستودع البيانات ترتيب البيانات في قواعد البيانات المختلفة. نظرًا لأنه يجب تنظيم البيانات وتنظيفها لتكون ذات قيمة ، فإن هيكل مستودع البيانات الحديث يركز على تحديد الأسلوب الأكثر فعالية لاستخراج المعلومات من البيانات الخام في منطقة التدريج وتحويلها إلى هيكل تخزين بسيط قابل للاستهلاك باستخدام نموذج الأبعاد الذي يوفر قيمة ذكاء الأعمال.

عند تصميم مستودع بيانات شركة ، هناك ثلاثة أنواع رئيسية من بنية مستودع البيانات يجب مراعاتها:

بنية مستودع البيانات أحادية المستوى

تركز بنية بنية مستودع البيانات أحادية المستوى على إنتاج مجموعة كثيفة من البيانات وتقليل حجم البيانات المودعة. على الرغم من أنها مفيدة للتخلص من التكرار ، إلا أن هذه البنية غير مناسبة للشركات ذات متطلبات البيانات المعقدة والعديد من تدفقات البيانات. هذا هو المكان الذي تأتي فيه بنية مستودع البيانات من مستويين وثلاثة مستويات حيث يتعامل كلاهما مع تدفقات بيانات أكثر تعقيدًا.

بنية مستودع البيانات من مستويين

وبالمقارنة ، فإن بنية البيانات للبنية ذات المستويين تقسم مصادر البيانات الملموسة من المستودع نفسه. على عكس الطبقة الواحدة ، يستخدم الهيكل ذو الطبقتين نظامًا وخادم قاعدة بيانات. هذا هو الأكثر استخدامًا في المؤسسات الصغيرة حيث يتم استخدام الخادم كسوق بيانات. على الرغم من أنها أكثر كفاءة في تخزين البيانات وتنظيمها ، إلا أن البنية ذات المستويين غير قابلة للتطوير. علاوة على ذلك ، فهو يدعم فقط عددًا رمزيًا من المستخدمين.

بنية مستودع البيانات ثلاثية المستويات

تعد بنية مستودع البيانات ثلاثية المستويات هي النوع الأكثر شيوعًا لبنية DWH الحديثة لأنها تنتج تدفق بيانات منظم جيدًا من المعلومات الأولية إلى الرؤى القيمة.

تتألف الطبقة السفلية عادةً من خادم بنك البيانات الذي ينشئ طبقة تجريدية على البيانات من مصادر عديدة ، مثل بنوك بيانات المعاملات المستخدمة للاستخدامات الأمامية.

الطبقة الوسطى تشمل المعالجة التحليلية عبر الإنترنت (OLAP) الخادم. من وجهة نظر المستخدم ، يغير هذا المستوى البيانات إلى ترتيب أكثر ملاءمة للتحليل والتحقيق متعدد الأوجه. نظرًا لأنه يشتمل على خادم OLAP مدمج مسبقًا في البنية ، يمكننا أيضًا تسميته مستودع البيانات الذي يركز على OLAP.

المستوى الثالث والأعلى هو مستوى العميل الذي يتضمن الأدوات وواجهة برمجة التطبيقات (API) المستخدمة لتحليل البيانات عالية المستوى والاستعلام وإعداد التقارير. ومع ذلك ، بالكاد يقوم الأشخاص بتضمين المستوى الرابع في بنية مستودع البيانات لأنه غالبًا لا يعتبر جزءًا لا يتجزأ من الأنواع الثلاثة الأخرى لبنى مستودعات البيانات.

يوضح مخطط DW أدناه البنية ذات 3 مستويات لمستودع البيانات:

هندسة مستودع البيانات | ETL | مركز معلومات مستودع البيانات

المصدر معلومات مستودع البيانات

هذه هي الأنواع المختلفة لبنية مستودع البيانات في استخراج البيانات ، كما هو موضح بمزيد من التفصيل في مخطط مستودع البيانات. الآن دعنا نتعرف على المكونات الرئيسية لبنية مستودع البيانات (DWH) وكيف تساعد في بناء وتوسيع مستودع البيانات بالتفصيل.

المكونات الرئيسية لهندسة مستودع البيانات

يتكون تصميم مستودع البيانات (DWH) من ستة مكونات رئيسية:

1. قاعدة بيانات مستودع البيانات

المكون الرئيسي لهيكل تخزين البيانات هو بنك معلومات يقوم بتخزين جميع بيانات المؤسسة ويجعلها قابلة للإدارة من أجل إعداد التقارير. من الواضح أن هذا يعني أنك بحاجة إلى اختيار نوع قاعدة البيانات التي ستستخدمها لتخزين البيانات في المستودع الخاص بك.

فيما يلي أنواع قاعدة البيانات الأربعة التي يمكنك استخدامها:

  • قواعد البيانات العلائقية النموذجية هي قواعد البيانات التي تركز على الصفوف والتي ربما تستخدمها على أساس يومي. على سبيل المثال ، Microsoft SQL Server و SAP و Oracle و IBM DB2.
  • قواعد بيانات التحليلات تم تطويرها بدقة لتخزين البيانات للحفاظ على التحليلات وإدارتها. على سبيل المثال ، Teradata و Greenplum.
  • تطبيقات مستودع البيانات ليست بالضبط نوعًا من قواعد بيانات التخزين ، لكن العديد من التجار يقدمون الآن تطبيقات تقدم برامج لإدارة البيانات بالإضافة إلى أجهزة لتخزين البيانات. على سبيل المثال ، SAP Hana و Oracle Exadata و IBM Netezza.
  • قواعد البيانات المستندة إلى السحابة يمكن استضافتها واستردادها على السحابة بحيث لا تضطر إلى شراء أي جهاز لإعداد مستودع البيانات الخاص بك. على سبيل المثال ، Amazon Redshift و Microsoft Azure SQL و Google BigQuery.

2. أدوات الاستخراج والتحويل والتحميل (ETL)

أدوات ETL هي مكونات مركزية لهندسة مستودع البيانات. تساعد هذه الأدوات في استخراج البيانات من مصادر مختلفة ، وتحويلها إلى ترتيب مناسب ، وتحميلها في مستودع بيانات.

ستحدد أداة ETL التي تختارها:

  • الوقت المستغرق في استخراج البيانات
  • نهج استخراج البيانات
  • نوع التحولات المطبقة والبساطة للقيام بذلك
  • تعريف قاعدة العمل لـ التحقق من صحة البيانات وتنقيتها لتحسين تحليلات المنتج النهائي
  • تعبئة بيانات مضللة
  • تحديد توزيع المعلومات من المستودع الأساسي إلى تطبيقات BI الخاصة بك

3. البيانات الوصفية

في بنية مستودع البيانات ، تصف البيانات الوصفية مخزن البيانات وتوفر إطارًا للبيانات. يساعد في إنشاء مستودع البيانات وحفظه ومعالجته والاستفادة منه.

يمكن وصفها بنوعين:

  • البيانات الوصفية الفنية، والتي تتضمن معلومات يمكن للمطورين والمديرين استخدامها عند تنفيذ مهام تطوير المستودعات وإدارتها.
  • البيانات الوصفية للأعمال، والذي يتضمن المعلومات التي تقدم وجهة نظر سهلة الفهم للبيانات المخزنة في المستودع.

تلعب البيانات الوصفية دورًا مهمًا للشركات وكذلك الفرق الفنية لفهم البيانات الموجودة في المستودع وتحويلها إلى معلومات.

4. أدوات الوصول إلى مستودع البيانات

يستخدم مستودع البيانات قاعدة بيانات أو مجموعة من قواعد البيانات كأساس. لا يمكن لشركات مستودعات البيانات بشكل عام العمل مع قواعد البيانات دون استخدام الأدوات ما لم يكن لديها مسؤولو قواعد البيانات المتاحون. ومع ذلك ، ليس هذا هو الحال مع جميع وحدات الأعمال. هذا هو السبب في أنهم يستخدمون المساعدة من العديد من أدوات تخزين البيانات بدون رمز ، مثل:

  • أدوات الاستعلام وإعداد التقارير، والتي تساعد المستخدمين على إنتاج تقارير الشركات للتحليل التي يمكن أن تكون في شكل جداول بيانات أو حسابات أو صور تفاعلية.
  • أدوات تطوير التطبيقات، مما يساعد على إنشاء تقارير مخصصة وعرضها في تفسيرات مخصصة لأغراض إعداد تقارير معينة.
  • أدوات التنقيب عن البيانات لتخزين البيانات، التي تنظم إجراء تحديد المصفوفات والوصلات بكميات ضخمة من البيانات باستخدام طرق النمذجة الإحصائية المتطورة.
  • أدوات OLAP، والتي تساعد في إنشاء مستودع بيانات متعدد الأبعاد وتسمح بتحليل بيانات المؤسسة من وجهات نظر عديدة.

5. حافلة مستودع البيانات

يحدد تدفق البيانات داخل بنية ناقل تخزين البيانات ويتضمن سوق البيانات. سوق البيانات هو مستوى وصول يستخدم لنقل البيانات إلى المستخدمين. يتم استخدامه لتقسيم البيانات التي يتم إنتاجها لمجموعة مستخدمين معينة.

6. طبقة تقارير مستودع البيانات

تسمح طبقة التقارير في مستودع البيانات للمستخدمين بالوصول إلى واجهة BI أو BI هندسة قاعدة البيانات. الغرض من طبقة التقارير هو العمل كلوحة معلومات لتصور البيانات وإنشاء التقارير وإخراج أي معلومات مطلوبة.

أفضل ممارسات معمارية مستودع البيانات

  • خلق نماذج مستودع البيانات التي تم تحسينها لاسترجاع المعلومات في كل من الأساليب الأبعاد أو غير الطبيعية أو المختلطة.
  • حدد نهجًا واحدًا لتصميم مستودعات البيانات مثل النهج من أعلى إلى أسفل أو من أسفل إلى أعلى والتزم به.
  • قم دائمًا بتنظيف وتحويل البيانات باستخدام أداة ETL قبل تحميل البيانات إلى مستودع البيانات.
  • قم بإنشاء عملية تطهير بيانات آلية حيث يتم تنظيف جميع البيانات بشكل موحد قبل التحميل.
  • السماح بمشاركة البيانات الوصفية بين المكونات المختلفة لمستودع البيانات لعملية استرجاع سلسة.
  • تأكد دائمًا من أن البيانات متكاملة بشكل صحيح وليس فقط مدمجة عند نقلها من مخازن البيانات إلى مستودع البيانات. سيتطلب هذا تطبيع 3NF لنماذج البيانات.

بناء مستودع البيانات الخاص بك مع Astera Centerprise

Astera Centerprise هو حل ETL على مستوى المؤسسات يدمج البيانات عبر أنظمة متعددة ، مثل SQL Server و Excel و Salesforce والمزيد. إنه يمكّن المستخدمين من معالجة البيانات باستخدام مجموعة شاملة من التحويلات المضمنة ويساعد على نقل البيانات المحولة إلى مستودع موحد ، وكل ذلك بطريقة السحب والإفلات الخالية تمامًا من الرموز.