المدونة

الصفحة الرئيسية / المدونة / س/ج: العمل مع مستودع البيانات كبير الحجم في Centerprise

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

س / ج: العمل مع مستودع البيانات كبير الحجم بتنسيق Centerprise

أكتوبر 17th، 2022

الأول في حياتنا Centerprise أفضل سلسلة ندوات عبر الإنترنت يناقش ميزات Centerprise مما يجعله حلاً تكامليًا مثاليًا لمستودع البيانات كبير الحجم. تشمل الموضوعات جودة البيانات (التنميط ، وقياسات الجودة ، والتحقق من الصحة) ، وترجمة البيانات إلى مخطط نجمي (الحفاظ على علاقات المفاتيح الخارجية والعلاقة الأساسية مع أبعاد متغيرة ببطء) ، والأداء ، بما في ذلك الاستعلام عن البيانات مع الصلات داخل قاعدة البيانات والتخزين المؤقت. لقد نشرنا الأسئلة والأجوبة أدناه ، والتي تتعمق في بعض الموضوعات المثيرة للاهتمام.

تعامل مع البيانات ذات الحجم الكبير باستخدام مستودع البيانات.

س: هل يمكن التنميط البيانات وحدها؟

ج: نعم ، بالتأكيد. هذا بالضبط ما يتم في مثال تحليل الطلب الموضح أدناه. إذا نظرت إلى الأهداف ، فأنا لا أكتب في الواقع إلى مستودع بيانات أو أنقل أي بيانات ، كل ما أفعله هو إنشاء تقارير لذلك. لذا نعم ، يمكنك استخدام هذه المعلومات كقطعة مستقلة ، ما أفعله في هذه الحالة هو جمع معلومات حول هذا المخطط بالذات

س: هل يمكننا تجميع مجموعة من قواعد جودة البيانات واستخدامها في تدفقات متعددة؟

ج: نعم. كما هو موضح أدناه ، يمكنك إنشاء قواعد متعددة وجعلها مكونًا معقولًا بمجرد سحب المشروع وإسقاطه. يمكنك أن ترى أن مكون التحقق من البيانات هذا يصبح مربعًا رماديًا ، والآن هو كمرجع. الآن ، إذا كان لدي أي تدفق آخر ، يمكنني استخدام فحص البيانات هذا لأنه مرجعي. إنها ممارسة جيدة جدًا أنه في أي وقت يمكنك فيه صنع شيء يمكن إعادة استخدامه ، يجب عليك القيام بذلك. ستشكر نفسك في المستقبل.

س: اشرح كيف تعمل ذاكرة التخزين المؤقت للبحث المستمر على تحسين الأداء

ج: في المثال التالي باستخدام البحث عن منتج الأبعاد ، هذا شيء سيتم استخدامه مرارًا وتكرارًا ، لذلك لا تريد أن تضطر إلى تحميل جدول الأبعاد هذا في كل مرة. يمكنك أن ترى أين قد يحتوي جدول الأبعاد هذا على مئات الآلاف من الصفوف فيه ، لذلك إذا كنت تقوم بتحميل كل جدول حقائق واحد ، ومن خلال القيام بذلك ، يجب عليك تحميل جميع البيانات للبحث ، فمن الواضح أن كل المعالجة ، كل تمر البيانات عند الترحيل. سيتم استهلاكه في عمليات البحث فقط. لذا بدلاً من ذلك الآن Centerprise يمكنك استخدام ذاكرة التخزين المؤقت للبحث المستمر. Centerprise يحتوي على قاعدة بيانات مدمجة حيث يقوم بتخزين هذه المعلومات ، والتي يتم تخزينها على القرص ، لذلك لا داعي للقلق بشأن استخدام الذاكرة. في كل مرة يستخدم فيها البحث هذا التصنيف ، فإنه يستشير ذاكرة التخزين المؤقت بدلاً من القيام برحلة إلى قاعدة البيانات. يعد الذهاب إلى قاعدة البيانات مكلفًا بطبيعته على أي حال ، والقيام برحلة إلى طاولة كبيرة جدًا مرارًا وتكرارًا واسترداد جميع السجلات أمر مكلف للغاية ويمكن أن يؤدي في الواقع إلى إيقاف العملية. أوصي باستخدام التخزين المؤقت المستمر في أي وقت لديك خيار القيام بذلك.

س: ما هي الأسباب الأكثر شيوعًا لمشكلات الأداء في تحميل مستودعات البيانات التي واجهها المستخدمون Centerprise?

ج: السبب الأول لمشاكل الأداء Centerprise، كما هو الحال مع أي تكامل البيانات البرنامج ، هو حجم البيانات - وجود عدد كبير جدًا من عمليات البحث ، خاصة عمليات البحث الكثيرة جدًا جميعها في عمود. في المثال أدناه ، يمكنك أن ترى أنه في جدول الحقائق ، تحتاج جميع المفاتيح إلى نوع من البحث ، وإذا كان لديك ، على سبيل المثال ، 10 عمليات بحث قبل جدول الأبعاد مباشرةً ، فيجب إكمال كل عملية بحث قبل إدراج السجل في جدول الحقائق. لذا فإن إجراء الكثير من عمليات البحث غير الفعالة سيؤدي إلى إبطاء تدفق البيانات إلى حد كبير.

المسألة الثانية التي قد تضعف الأداء هي الاستعلام الأولي. طريقة حل ذلك هي تحديد معلمات هذه الاستعلامات ، والتي يمكن القيام بها بعدة طرق مختلفة. أولاً ، يمكنك استخدام المتغيرات التي يتم التحكم فيها من الخارج. على سبيل المثال ، إذا كان لديك سير عمل يقوم بتشغيل جميع تدفقات البيانات الخاصة بك ، يمكنك تعيين سير العمل هذا للسجلات لفترة زمنية محدودة ، على سبيل المثال أسبوع. سيؤدي هذا إلى خفض كبير في كمية البيانات بين قاعدة البيانات المصدر و Centerprise.

الخيار الثالث مشابه جدًا لاستخدام المتغيرات ، ولكنه بدلاً من ذلك يستخدم الحمل المتزايد بناءً على حقول التدقيق. إذا كان لديك حقل تعرف أنه مضمون أن يتم تعديله في كل مرة يحدث فيها تغيير ، فيمكنك استخدام رأس تاريخ التعديل في حقل التدقيق كما هو موضح في المثال أدناه وسوف يخزن هذه المعلومات في ملف.

ثم في أوقات لاحقة سيتم تشغيل تدفق البيانات ، سوف يقوم باستشارة هذا الملف ويقوم بشكل أساسي بنفس الشيء الذي قمت بتحديده في "بند الشرط" الخاص بك ، ولكنه سيقوم بذلك تلقائيًا في ملف "المكان". لذا فإن الاتجاه الصعودي هو أنك لست مضطرًا إلى تتبع المتغيرات ، والجانب السلبي الآن هو أن لديك ملفًا إضافيًا لكل كائن تقوم بالتحميل منه. هذا يبرز النقطة التي قد تريد حتى المصادر أن تكون إجراءات مشتركة ، وبهذه الطريقة لا يتعين عليك الاستمرار في تحديدها ومجالات التدقيق الخاصة بها.

س: هل استخدام الكتابة القائمة على القيد يكتشف تلقائيًا تسلسل الكتابة

ج: نعم. لا يهم عدد الجداول التي تكتبها طالما كانت في نفس قاعدة البيانات. اخترت استخدام الكتابة المستندة إلى القيد وتعرف ترتيب الكتابة. إنها تعرف أنها يجب أن تكتب العميل أولاً ثم أمر المبيعات - فهي تعتني بترتيب العمليات التي تكتبها لك.

س: كيف يقارن Diff Processor بالأداء المرتفع؟

ج: معالج Diff أسرع بكثير من المقلوب. سيقوم Upsert بإطلاق استعلام آخر لمعرفة ما إذا كانت المعلومات موجودة أم لا ، بينما يعمل معالج Diff عن طريق إرسال جميع السجلات في مجموعات إلى النظام الهدف. ثم يتم كتابتها إلى جدول مؤقت والانضمام. تحدث هذه المقارنة من جانب قاعدة البيانات بدلاً من Centerprise جانبًا ، لذلك يتم إعداد الأجزاء الكبيرة على جانب قاعدة البيانات بدلاً من استخدام استعلام منفصل لمعرفة ما إذا كان يلزم إدخال أو تحديث. في الأساس ، يقوم upert بعمل سجل واحد في كل مرة ويقارن معالج Diff على دفعات. لقد وجدنا أنها أسرع من حيث الحجم.

س: هل تؤيد التحميل السريع لـ Teradata؟

ج: نعم ، يتم دعم كل من التحميل السريع والحمل المتعدد مقاومه. يتم استخدام التحميل السريع تلقائيًا عند الكتابة في جدول فارغ.

 

ربما يعجبك أيضا
اختبار مستودع البيانات: العملية والأهمية والتحديات 
تصفية البيانات: دليل شامل للتقنيات والفوائد وأفضل الممارسات 
استمتع بتجربة الاتصال بدون تعليمات برمجية مع إدارة علاقات العملاء (CRMs) باستخدام Astera موصلات CAPI
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال