س / ج: العمل مع مستودع البيانات كبير الحجم بتنسيق Centerprise

By |2021-01-21T22:45:16+00:00يناير 21st، 2021|

الأول في حياتنا Centerprise أفضل سلسلة ندوات عبر الإنترنت يناقش ميزات Centerprise مما يجعله حل التكامل المثالي لمستودع البيانات كبير الحجم. تشمل الموضوعات جودة البيانات (التنميط ، وقياسات الجودة ، والتحقق من الصحة) ، وترجمة البيانات إلى مخطط نجمي (الحفاظ على علاقات المفاتيح الخارجية والعلاقة الأساسية مع الأبعاد المتغيرة ببطء) ، والأداء ، بما في ذلك الاستعلام عن البيانات مع الصلات داخل قاعدة البيانات والتخزين المؤقت. لقد نشرنا الأسئلة والأجوبة أدناه ، والتي تتعمق في بعض الموضوعات المثيرة للاهتمام.

س: هل يمكن التنميط البيانات وحدها؟

ج: نعم ، بالتأكيد. هذا بالضبط ما يتم في مثال تحليل الطلب الموضح أدناه. إذا نظرت إلى الأهداف ، فأنا لا أكتب في الواقع إلى مستودع بيانات أو أنقل أي بيانات ، كل ما أفعله هو إنشاء تقارير لذلك. لذا نعم ، يمكنك استخدام هذه المعلومات كقطعة مستقلة ، ما أفعله في هذه الحالة هو جمع معلومات حول هذا المخطط بالذات

س: هل يمكننا تجميع مجموعة من قواعد جودة البيانات واستخدامها في تدفقات متعددة؟

ج: نعم. كما هو موضح أدناه ، يمكنك إنشاء قواعد متعددة وجعلها مكونًا معقولًا بمجرد سحب المشروع وإسقاطه. يمكنك أن ترى أن مكون التحقق من البيانات هذا يصبح مربعًا رماديًا ، والآن هو كمرجع. الآن ، إذا كان لدي أي تدفق آخر ، يمكنني استخدام فحص البيانات هذا لأنه مرجعي. إنها ممارسة جيدة جدًا أنه في أي وقت يمكنك فيه صنع شيء يمكن إعادة استخدامه ، يجب عليك القيام بذلك. ستشكر نفسك في المستقبل.

س: اشرح كيف تعمل ذاكرة التخزين المؤقت للبحث المستمر على تحسين الأداء

ج: في المثال التالي باستخدام البحث عن منتج الأبعاد ، هذا شيء سيتم استخدامه مرارًا وتكرارًا ، لذلك لا تريد أن تضطر إلى تحميل جدول الأبعاد هذا في كل مرة. يمكنك أن ترى أين قد يحتوي جدول الأبعاد هذا على مئات الآلاف من الصفوف فيه ، لذلك إذا كنت تقوم بتحميل كل جدول حقائق واحد ، ومن خلال القيام بذلك ، يجب عليك تحميل جميع البيانات للبحث ، فمن الواضح أن كل المعالجة ، كل تمر البيانات عند الترحيل. سيتم استهلاكه في عمليات البحث فقط. لذا بدلاً من ذلك الآن Centerprise يمكنك استخدام ذاكرة التخزين المؤقت للبحث المستمر. Centerprise يحتوي على قاعدة بيانات مدمجة حيث يقوم بتخزين هذه المعلومات ، والتي يتم تخزينها على القرص ، لذلك لا داعي للقلق بشأن استخدام الذاكرة. في كل مرة يستخدم فيها البحث هذا التصنيف ، فإنه يستشير ذاكرة التخزين المؤقت بدلاً من القيام برحلة إلى قاعدة البيانات. يعد الذهاب إلى قاعدة البيانات مكلفًا بطبيعته على أي حال ، والقيام برحلة إلى طاولة كبيرة جدًا مرارًا وتكرارًا واسترداد جميع السجلات أمر مكلف للغاية ويمكن أن يؤدي في الواقع إلى إيقاف العملية. أوصي باستخدام التخزين المؤقت المستمر في أي وقت لديك خيار القيام بذلك.

س: ما هي الأسباب الأكثر شيوعًا لمشكلات الأداء في تحميل مستودعات البيانات التي واجهها المستخدمون Centerprise?

ج: السبب الأول لمشاكل الأداء Centerprise، كما هو الحال مع أي برنامج لتكامل البيانات ، هو حجم البيانات - وجود عدد كبير جدًا من عمليات البحث ، وخاصة عدد كبير جدًا من عمليات البحث كلها في عمود. في المثال أدناه ، يمكنك رؤية أنه في جدول الحقائق ، تحتاج جميع المفاتيح إلى نوع من البحث وإذا كان لديك ، على سبيل المثال ، 10 عمليات بحث قبل جدول الأبعاد مباشرةً ، يجب أن تكتمل كل واحدة من عمليات البحث هذه قبل أن يمكن إدراج السجل إلى جدول حقائق. لذا فإن وجود الكثير من عمليات البحث غير الفعالة سيبطئ تدفق البيانات إلى حد كبير.

المسألة الثانية التي قد تضعف الأداء هي الاستعلام الأولي. طريقة حل ذلك هي تحديد معلمات هذه الاستعلامات ، والتي يمكن القيام بها بعدة طرق مختلفة. أولاً ، يمكنك استخدام المتغيرات التي يتم التحكم فيها من الخارج. على سبيل المثال ، إذا كان لديك سير عمل يقوم بتشغيل جميع تدفقات البيانات الخاصة بك ، يمكنك تعيين سير العمل هذا للسجلات لفترة زمنية محدودة ، على سبيل المثال أسبوع. سيؤدي هذا إلى خفض كبير في كمية البيانات بين قاعدة البيانات المصدر و Centerprise.

الخيار الثالث مشابه جدًا لاستخدام المتغيرات ، ولكنه بدلاً من ذلك يستخدم الحمل المتزايد بناءً على حقول التدقيق. إذا كان لديك حقل تعرف أنه مضمون أن يتم تعديله في كل مرة يحدث فيها تغيير ، فيمكنك استخدام رأس تاريخ التعديل في حقل التدقيق كما هو موضح في المثال أدناه وسوف يخزن هذه المعلومات في ملف.

ثم في أوقات لاحقة سيتم تشغيل تدفق البيانات ، سوف يقوم باستشارة هذا الملف ويقوم بشكل أساسي بنفس الشيء الذي قمت بتحديده في "بند الشرط" الخاص بك ، ولكنه سيقوم بذلك تلقائيًا في ملف "المكان". لذا فإن الاتجاه الصعودي هو أنك لست مضطرًا إلى تتبع المتغيرات ، والجانب السلبي الآن هو أن لديك ملفًا إضافيًا لكل كائن تقوم بالتحميل منه. هذا يبرز النقطة التي قد تريد حتى المصادر أن تكون إجراءات مشتركة ، وبهذه الطريقة لا يتعين عليك الاستمرار في تحديدها ومجالات التدقيق الخاصة بها.

س: هل استخدام الكتابة القائمة على القيد يكتشف تلقائيًا تسلسل الكتابة

ج: نعم. لا يهم عدد الجداول التي تكتبها طالما كانت في نفس قاعدة البيانات. اخترت استخدام الكتابة المستندة إلى القيد وتعرف ترتيب الكتابة. إنها تعرف أنها يجب أن تكتب العميل أولاً ثم أمر المبيعات - فهي تعتني بترتيب العمليات التي تكتبها لك.

س: كيف يقارن Diff Processor بالأداء المرتفع؟

ج: معالج Diff أسرع بكثير من المقلوب. سيقوم Upsert بإطلاق استعلام آخر لمعرفة ما إذا كانت المعلومات موجودة أم لا ، بينما يعمل معالج Diff عن طريق إرسال جميع السجلات في مجموعات إلى النظام الهدف. ثم يتم كتابتها إلى جدول مؤقت والانضمام. تحدث هذه المقارنة من جانب قاعدة البيانات بدلاً من Centerprise جانبًا ، لذلك يتم إعداد الأجزاء الكبيرة على جانب قاعدة البيانات بدلاً من استخدام استعلام منفصل لمعرفة ما إذا كان يلزم إدخال أو تحديث. في الأساس ، يقوم upert بعمل سجل واحد في كل مرة ويقارن معالج Diff على دفعات. لقد وجدنا أنها أسرع من حيث الحجم.

س: هل تؤيد التحميل السريع لـ Teradata؟

ج: نعم ، تحميل سريع وتحميل متعدد. يتم استخدام التحميل السريع تلقائيًا عند الكتابة في جدول فارغ.