جلسة أسئلة وأجوبة مع بول كيليت حول خطوط أنابيب البيانات الآلية

By |2022-08-04T13:42:49+00:00نوفمبر 16th، 2021|

تعمل خطوط أنابيب البيانات المؤتمتة بمثابة العمود الفقري لنظام بيئي مدفوع بالكامل بالبيانات. إنها تمكن المؤسسات من استخراج البيانات من مصادر مختلفة ، وتطبيق التحولات ، وتنفيذ عملية التكامل بكفاءة وموثوقية وسرعة. تختار المزيد من الشركات أتمتة مستودعات البيانات لتحسين تحليلات البيانات والمنافسة بشكل أكثر استراتيجية.

أطلقنا مؤخرا Astera DW Builder ، منصة أتمتة لمستودعات البيانات الشاملة توفر بيئة تكرارية خالية من التعليمات البرمجية لتصميم خطوط أنابيب البيانات وتطويرها ونشرها بسرعات غير مسبوقة.

لتثقيف الشركات الحديثة حول خط أنابيب البيانات ذاتية التنظيم ، استضفنا ندوة مباشرة عبر الإنترنت بعنوان - حماية مستقبلية لمخزن البيانات الخاص بك مع خطوط أنابيب بيانات ذاتية التنظيم في نوفمبر 2nd، حيث أتيحت لنا فرصة رائعة لإجراء مناقشة مع بول كيليت. يتمتع بخبرة تزيد عن 25 عامًا في العمل في مشاريع ذكاء الأعمال على مستوى المؤسسات للمؤسسات.

في جلسة الأسئلة والأجوبة لدينا ، حصلنا على بعض الأفكار القيمة حول إنشاء خطوط بيانات مؤتمتة وعالية الجودة وعمليات مستودعات البيانات الحديثة وتخزين البيانات السحابية والمزيد.

أفنان: مخازن البيانات الحديثة تعالج كميات هائلة من البيانات. هل توصي بأي ممارسات أفضل يجب أن يستخدمها الأشخاص لبناء خطوط بيانات يمكنها تقديم هذه الكميات الكبيرة من البيانات بشكل فعال إلى مستودع البيانات الخاص بهم؟

بول: نعم ، لكن أود أن أضيف أيضًا أن الأمر لا يقتصر على حجم البيانات فقط. إنها مجموعة متنوعة من المصادر ، وتنوع تنسيقات المصادر ، وحقيقة أنه إذا كنت تعمل بشكل خاص في أي بيئة شركة ، فأنت تصل بشكل متكرر إلى عشرات الأنظمة - فهي في حالة تغير دائم. لذلك ، سيتغير نوع البيانات التي تحصل عليها بشكل عام.

هذه الأنظمة لا تقف مكتوفة الأيدي - الشركات تبتكر ، وتتغير ، لذلك أنت تبحث في العديد من المشاكل هنا. تحتاج إلى الحصول عليه بشكل موثوق ؛ تحتاج إلى [معالجة البيانات] بطريقة قوية [مع] أقل عدد ممكن من التدخلات. تاريخيًا ، قد يُنشئ الأشخاص سلسلة كاملة من المقتطفات من أنظمة المصدر الخاصة بهم ، وكانوا يقومون بحلول الكتابة من نقطة إلى نقطة حيث يمكن أن يكون لديك العديد من الآليات المختلفة لتلقي البيانات. أود أن أقول ، حاول أن يكون لديك [أ] آلية قياسية ثابتة [و] سيكون لديك نوع واحد من الممارسة.

تحتاج بعد ذلك إلى وضع الأدوات المناسبة لهذه الأشياء. لذلك ، تجنب قدر الإمكان الحلول المصنوعة يدويًا أو الحلول من نقطة إلى نقطة. ما نراه في الكثير من مستودعات البيانات التاريخية هو أن هناك [] عددًا من الحلول المصنوعة يدويًا حسب الطلب للحصول على البيانات من النظام "أ" وآخر مختلف عن "النظام ب". ينتهي بهم الأمر بشكل أساسي بقضايا الجودة والمتانة ، وينتهي بهم الأمر أيضًا بمشاكل الصيانة ، ويميلون إلى التكيف ببطء إلى حد ما مع التغيير.

إذن ، إنها ضربة ثلاثية من حيث القيام بذلك. تريد أن تستخدم الأشياء التي تقوم بالأعباء الثقيلة نيابة عنك. أنت لا تريد أن تكرر الأشياء القياسية مثل معالجة الأخطاء. تحتاج إلى أن تكون بسيطة وسهلة وقوية ومتسقة وقياسية. ستكون نقطتي الأخيرة حول هذا السؤال هي المحاولة ، إن أمكن ، الذهاب وسحب البيانات من أنظمة المصدر بدلاً من تقديمها لك كمقتطف.

أفنان: خطوط أنابيب البيانات و ETL هي في الأساس مفهوم مرادف لتخزين البيانات منذ بداية التكنولوجيا. إذن ، كيف برأيك تطورت ELT وخط أنابيب البيانات في عصر البيانات الضخمة؟ ما نوع الابتكارات التي تعتقد أنها يمكن أن تقلل من تكلفة وتعقيد ETL التقليدية؟

بول: ربما تأتي الكثير من التكاليف تاريخياً من مجالين رئيسيين: أحدهما كان الكثير من الحلول اليدوية ، وهي باهظة الثمن ومحدودة للغاية. أيضًا - وأنا لا أحصل على أدوات ELT هنا ، لكن - لقد كانت كبيرة [و] باهظة الثمن. إنها تتطلب موارد متخصصة وبنية تحتية مخصصة ، وأجهزة ، وخادم ، ومنصات ، كما أنها [تتطلب] موارد [يصعب الحصول عليها].

لذا ، ما نراه الآن هو خطوة لجعل هذه الأنواع من العمليات أسهل. لذا ، بدلاً من الاضطرار إلى تحديد ما ستحصل عليه ، يذهبون ويصنعون لك خريطة تلقائيًا. إنها نقرة ونقطة أكثر بكثير مما كانت عليه الحال في الماضي. لذلك ، نرى أن هذا يؤدي في الأساس إلى تقليل الحاجة ، و [يسمح] بالكثير من الترميز والمضي قدماً في ذلك.

أفنان: أحد المتطلبات الرئيسية التي نراها تأتي كثيرًا هو أن المزيد من المنظمات ترغب في بناء خطوط أنابيب ELT الآن بدلاً من خطوط أنابيب ETL التقليدية. إذن ، ما رأيك في هذا النهج؟ هل تعتقد أنه يمكن أن يعمل مع كل منظمة؟ أو هل هناك أشياء معينة يجب على المؤسسات وضعها في الاعتبار قبل الانتقال إلى ELT بدلاً من ETL؟

بول: لذلك أولاً ، لا يوجد حل واحد يصلح لكل شيء على الإطلاق. هناك حالات يكون فيها ETL مناسبًا تمامًا ؛ في الواقع ، يفضل. لكن ما نراه هو أن نقطة البداية المفضلة في الوقت الحاضر ربما تكون ELT. لقد تحسنت برمجيات قواعد البيانات وبنياتها بشكل كبير. كان أحد احتياجات ELT التاريخية هو عدم قدرة قاعدة البيانات على معالجة الكميات الكبيرة من التحويلات المطلوبة في المقاييس الزمنية. يمكنهم إلى حد كبير القيام بعدد كبير جدًا من حالات الاستخدام.

أنا شخصيا انتقلت نحو ELT. لا أتذكر آخر مرة قمت فيها بعمل ELT - كان من الممكن أن تكون قبل عشر سنوات على الأقل. سيكون دافعهم الرئيسي هو عنصر العافية. لقد جعلت الحل الخاص بك أبسط. لديك منصة واحدة أقل من أن تخطئ وتضع [بالإضافة إلى] مجموعة واحدة من منصات الاختبار لتخوضها. إذن ، لقد أسقطت تعقيدك.

لديك أيضًا تكلفة ، من حيث أنك لا تملك تلك المنصات للقيام بذلك ، لذا فقد تقلصت الأشياء التي كانت تدفع الحاجة إلى ذلك بشكل أساسي. إذا كنت أبحث اليوم في بيئة Greenfields ، فسأفترض أن نقطة البداية ستكون ELT ثم ابتعد عن ذلك إذا شعرت أنني بحاجة إلى ذلك بسبب بعض الظروف الخاصة.

أفنان: كيف يمكنك التأكد من أن لديك البيانات الصحيحة في مستودع البيانات الخاص بك؟ وأنه يتم دمجهما وتوحيدهما و [و] تحويلهما بطريقة تناسب متطلبات إعداد التقارير والتحليلات؟

بول: لذلك أولاً ، لا يمكنك حقًا الحصول على بيانات صحيحة مضمونة. والسبب في ذلك هو أنك تعتمد على البيانات التي توفرها لك أنظمة المصدر ، وكما سيشهد أي شخص يعمل في المنطقة ، فسوف يقدمون لك غالبًا بيانات غير صحيحة أو بيانات غير متسقة أو بيانات بها مشكلات عند تقديمها بطريقة مختلفة - [ ] توفر الموقف الخاطئ.

ولكن ما يمكنك فعله هو محاولة إعطاء أفضل صورة ممكنة للبيانات بأفضل طريقة ممكنة. لا يجب أن تقوم بإعداد نفسك بالقول إننا سنقدم بيانات مثالية لأن ذلك لا يحدث. لحسن الحظ ، [إنها] ليست مهمة لأنك تتحدث عمومًا عن التحليلات وتتعلق بفهم حجم البيانات ، لذلك فهي ليست بالضرورة مشكلة إذا كنت تديرها بشكل صحيح.

إذا كنت ترغب في الحصول على أفضل البيانات الممكنة ، فسيكون هناك نوعان من التكتيكات التي أود أن أنصح بها ، أحدهما [] الإفراط في جمع. إذا أخذنا المثال ، على سبيل المثال ، معاملات المبيعات ، فسيُطلب منك تقديم تقارير المبيعات أو تحليل المبيعات وسيعمل شخص ما على أنك بحاجة إلى الحقول A و B و C من هذين الجدولين ثم [الحقول] خارج هذا و هذا وهذا وستحصل على البيانات المطلوبة لحل المشكلة.

نصيحتي بشكل عام هي إذا كنت بحاجة إلى معلومات المبيعات ، احصل على معاملة المبيعات بالكامل [و] جميع البيانات المرتبطة بها. أيضًا ، خذها بطريقة غير متغيرة قدر الإمكان. لا تخاطر بشكل أساسي في إجراء تحويل أو اشتقاق من البيانات بوضع أخطاء الترجمة الخاصة بك. قم بإحضار ذلك إلى مستودع البيانات الخاص بك وقم به هناك.

كما أنني أتطلع إلى بناء بعض حلقات التعليقات ، بحيث يكون لديّ طرق لإجراء عمليات تحقق عالية المستوى. لنفترض أنني حصلت على البيانات التي أتوقع الحصول عليها ، وهذا عادةً ما يستخدم تقارير موثوقة أو بيانات من أنظمة المصدر ثم مطابقتها مع شيء مشابه في ما تستمده أثناء تقدمك.

من المهم أن تفهم ما هو جيد بما يكفي للعمل. على سبيل المثال ، من الناحية التاريخية ، يجب أن تكون المعاملات المحاسبية مثالية وضمن سنتات ، ولكن إذا ارتفعت معاملات المبيعات الخاصة بك قليلاً ، فهذه ليست نهاية العالم. لذلك ، سأستخدم أشياء مثل فوق ذلك أيضًا. هناك [] حيل وتقنيات قياسية مثل تنسيق البيانات القياسي [و] تجريد المسافة الزائدة مثل الفاصلة. اتخذ قرارك بأنك ستفعل ذلك وافعله [بطريقة] قياسية.

أفنان: عندما تتحدث عن جمع كل هذه البيانات من مصادر مختلفة. سوف تتعامل مع العديد من خطوط أنابيب البيانات ، ومن الواضح أن كل خطوط الأنابيب هذه سيكون لها فترات انتقال وترابط بيانات مختلفة. إذن ، ما هي في رأيك العناصر الأساسية لتنظيم خطوط الأنابيب هذه؟

بول: هناك تقنيات نمذجة تم اختبارها بشكل قياسي في نمذجة الأبعاد المستخدمة هناك. Kimball [هو] مكان جيد جدًا للبدء في الذهاب إليه وإلقاء نظرة على نوع النصائح وتقنيات التصميم التي قدموها. هذه مناسبة جدًا لبناء مستودع البيانات الخاص بك بطريقة تجعل بياناتك متسقة وتقدم تنسيقًا مشتركًا أثناء المضي قدمًا.

سيتعاملون مع أشياء مثل المعلومات المفقودة ، لذلك إذا لم يكن لديك XYZ قادمًا من مصدر معين ، إذا كنت لا تعرف تعريف المنتج ، فأنت تعلم أن لديك تقنيات قياسية مثل سأقوم بإنشاء منتج مجال لذلك في الأقل تقرير مبيعاتي يضيف المنتج. قد لا أعرف معلومات المنتج ، لكنني أعرف أن لدي معلومات مقابل منتج يسمى الشحن. لا أعرف المزيد عن هذا المنتج ، لكن هذا كل ما أعرفه.

الأمر الثاني هو أنك تحتاج إلى قيادة الطريقة التي تعالج بها معلوماتك الخاصة بمحتوى البيانات [البيانات الوصفية] ، وليس كيفية معالجة البيانات أو الوصول إليها. لذلك ، هناك أشياء مثل ما إذا كنت تتلقى معاملات يوم الأحد يوم الاثنين ، فلا تفترض أنك تحصل على معاملات يوم الأحد. دفع كل شيء خارج التواريخ داخل البيانات. لذلك ، حاول دائمًا الحصول على أكبر عدد ممكن من التواريخ من البيانات ، حتى تعرف ما يحدث ومن ثم بهذه الطريقة ، يمكنك مطابقة الأشياء مرة أخرى مع بعضها البعض.

إذن ، ستحصل بعد ذلك على بعض التناقضات بين الأنظمة ، خاصةً [عندما يكون لديك] عشرات الأنظمة التي يتم تسليمها إلى مستودع البيانات الخاص بك ، دائمًا ما يكون أحدها معطلاً في وقت ما سيكون أحدها متاحًا. [و] سيحدث هذا على أساس متكرر. لتحقيق هذه الغاية ، قدم ما هو مفقود كجزء من الحل الخاص بك ، ولا تقدمه فقط ووضح أنه ليس لدينا بيانات مخزون يوم الاثنين لمركز التوزيع 27 [قل].

تعامل معها كجزء من معالجتك ؛ ستكون هذه تعليقاتي الرئيسية. لذلك ، استخدم البيانات لقيادتها ؛ Kimball هو الملك ، وتأكد من أن الشركة تعرف متى تحصل على أشياء لم تظهر.

أفنان: لقد اكتسب تخزين البيانات السحابية الكثير من القوة ، خاصة هذا العام سمعنا عنه في كل مكان. إذن ، ما هي في رأيك بعض الاعتبارات التي تحتاج فرق بيانات المؤسسة إلى وضعها في الاعتبار عند إنشاء خطوط أنابيب بيانات خصيصًا لمستودع بيانات سحابي؟

بول: حسنًا ، سأفترض أنه عندما نتحدث [عن] شراء خدمة سحابية من حيث استضافة وإدارة البنية التحتية لمخزن البيانات. لذلك ، من منظور تقني ، ليس هناك قدر كبير من الاختلاف حول الذهاب إلى السحابة.

[تتمثل] الاختلافات التقنية الرئيسية في أنك على الإنترنت كما كانت ، وربما تنقل كميات كبيرة من البيانات ، لذلك عليك التفكير كثيرًا في كيفية نقل هذه البيانات الكبيرة مجلدات حول. هل أنظمة المصدر والبنية الأساسية المستضافة على السحابة - من منظور الشبكة - قريبة بما يكفي من بعضها البعض بحيث يمكنك نقل هذه الأشياء؟ بالإضافة إلى ذلك ، هل هي قوية بما يكفي بين أنظمتك المختلفة بحيث يكون لديك موثوقية ، مرة أخرى ، في البيانات.

العنصر الآخر الذي يجب النظر إليه فقط هو في كثير من الأحيان مع حلول تخزين البيانات. هناك عناصر من نوع لوحة القيادة ، وغالبًا ما تتمتع عناصر من نوع لوحة المعلومات بسرعة اللياقة التفاعلية. إنهم يحتاجون إلى التفاعل بسرعة كبيرة مع المستخدمين من حيث النقر هنا وانتقل للحصول على المجموعة التالية.

الكمون مهم. إذا كان وقت اختبار الاتصال بين المستخدمين والبنية الأساسية السحابية منخفضًا ، فقد يؤدي ذلك إلى جعل لوحات المعلومات تبدو سيئة على الرغم من أنها ليست كذلك. ستكون معظم الاعتبارات حول التجارة أو التنظيم أو البنية التحتية. عندما تذهب إلى السحابة ، فأنت تختار عادةً بائعًا. لذلك ، أنت الآن لست معتمدا على التكنولوجيا. اعتمادك على بائع حتى تكون أنظمته جاهزة.

يتعلق الأمر كثيرًا بقياس البائع وقدراته بدلاً من التكنولوجيا. تتمثل بعض المشكلات التنظيمية المحتملة في أنه - إذا نظرت هنا حيث أقيم - لا يُسمح لك أساسًا بأخذ البيانات الصحية كمثال خارج البلد دون إذن خاص لأن هذه بيانات شخصية ، وهناك قواعد حول ما أنت تفعل مع البيانات الشخصية.

وبالمثل ، لديك بعض أمان البيانات الذي تحتاج إلى إلقاء نظرة عليه حيث يتم منحك الآن مسؤولية رعاية بياناتك إلى طرف ثالث. في الواقع ، من المحتمل أن يكونوا أفضل في أمان البيانات مما أنت عليه لأنه جزء من حياتهم ، ولكن لا يزال يتعين عليك التأكد من التحقق من ذلك. وفي الحقيقة ، أود أن أقول إن هذا على الأرجح أحد المجالات التي يمكنك أن تستريح فيها بشكل أسهل قليلاً.

أحد الأشياء المتعلقة بالانتقال إلى السحابة هو أنك تحصل على قدر أكبر بكثير [من حيث] قدرتك على التكيف. [هناك] عدد من الحالات التي كنت فيها مع العملاء وتم تعيين مستودع البيانات الخاص بهم بشكل أساسي على فن العمارة البالغ من العمر 10 سنوات والذي كان يئن تحت وطأته ، [مع] وصول الأحمال اليومية في وقت لاحق وبعد ذلك في الصباح. [إذن] ، لن تحصل على تقاريرك حتى الظهر ، لكن مهمة الانتقال كانت صعبة للغاية.

لقد واجهوا جميع أنواع المشكلات المتعلقة بمحاولة التوظيف وامتلاك الموارد القادرة على القيام بهذا النوع من العمل بحيث يمكنك التخلي عن الكثير من هذه المشكلة لشخص آخر. لا تفعل ذلك لأغراض التكلفة ، لأن التكلفة بشكل عام مماثلة ؛ على الرغم من اختلاف نموذج التكلفة ، فإنك تشتري المزيد [و] تتحسن. لذلك ستكون هذه بعض الاعتبارات للانتقال إلى السحابة.

أفنان: برأيك ، ما مكان الأتمتة في كل هذا؟ [باستخدام] الأتمتة والتنسيق ، كيف تعتقد أنه يمكنك جعل العملية الكاملة لبناء وصيانة خطوط أنابيب البيانات الخاصة بك أكثر كفاءة؟

بول: أولاً ، قدر الإمكان ، تجنب الحلول من نقطة إلى نقطة ، فلديك شيء يقوم برفع الأشياء الثقيلة نيابةً عنك. لذا ، فأنت تريد شيئًا يقوم بمراقبته نيابةً عنك. في كثير من الأحيان ، تحدث هذه الأحمال في منتصف الليل. تريد نوعًا قياسيًا من قدرات الكتابة الآلية مثل القدرة على إعادة التشغيل من نقطة زمنية معينة ، وتخطي النقاط ، وكل هذا النوع من عناصر التحكم في الوظائف وإدارة الوظائف.

تريد شيئًا يسهل بناؤه أساسًا. كلما كان من الأسهل تجميعهم [النظام] معًا ، زادت البيانات التي ستحصل عليها. كلما حصلت عليه بشكل أسرع و [أقل] الأخطاء التي ستواجهها عند إدخال تلك البيانات ، زادت احتمالية قيامك بذلك بالطريقة التي تريدها الشركة للقيام بذلك.

أعني ، في نقطة جانبية ، كثيرًا ما أعلق بأننا أسوأ عدو لأنفسنا. إذا نجحنا في حل ذكاء الأعمال ، فإننا نعلم ذلك عادةً لأننا مثقلون تمامًا بالطلب. حسنًا ، يجب أن تكون قادرًا على القيام بهذه الأشياء بأسهل طريقة ممكنة للتعامل مع هذا الطلب.

تاريخيًا ، كانت تكلفة نقل [و] إنشاء مستودعات البيانات في حدود ستين بالمائة ، وربما حتى الثلثين ، اعتمادًا على مقاييس الوقت الخاصة بك في جانب ELT. لذا ، فأنت تريد حقًا التأكد من حصولك على شيء يقوم بالكثير من المهام القابلة للتكرار قدر الإمكان من أجلك بطريقة بسيطة قدر الإمكان لأنه مبلغ كبير مما يمكن أن يكون تكلفة كبيرة.

Astera DW Builder: النظام الأساسي لمستودعات البيانات المؤتمتة

Astera DW Builder هو حل لتخزين البيانات من البداية إلى النهاية يسمح لك بتطوير خطوط أنابيب بيانات مؤتمتة في بيئة خالية من الأكواد. تأتي المنصة الموحدة مع بنية تعتمد على البيانات الوصفية وتبسط عمليات التصميم والهندسة لديك لتوفير رؤية دقيقة وذات صلة لتسهيل اتخاذ القرار بشكل أفضل.

يمكن للمؤسسات إنشاء خطوط أنابيب بيانات ذاتية التنظيم من خلال الاستفادة من إمكانات ETL و ELT المتقدمة مثل مكونات تنسيق سير العمل المضمنة وجدولة الوظائف في Astera DW Builder. جرّب Astera DW Builder اليوم لمعرفة كيف يمكن أن تضيف قيمة إلى مؤسستك.