المدونة

الصفحة الرئيسية / المدونة / جلسة أسئلة وأجوبة مباشرة مع جيمس سيرا حول أتمتة تصميم مستودع البيانات

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

جلسة أسئلة وأجوبة مباشرة مع جيمس سيرا حول أتمتة تصميم مستودع البيانات

عمار علي

إدارة المحتوى

20 فبراير، 2023

لقد أطلقنا نظامنا الأساسي لأتمتة مستودعات البيانات (DWA) من الجيل التالي ، Astera منشئ DW يعمل على تسريع عملية تطوير مستودع البيانات وتبسيطها. إنه حل موحد يعتمد على البيانات الوصفية يسمح للمؤسسات بتصميم مستودعات بيانات على مستوى المؤسسة وتطويرها ونشرها في أيام.

استضفنا مؤخرًا ملف الويبينار حيث حصلنا على فرصة للتواصل مع جيمس سيرا. جيمس هو رائد فكري مشهور في استخدام وتطبيق البيانات الضخمة والتحليلات المتقدمة. يعمل حاليًا في EY كمدير هندسة منصة البيانات وعمل سابقًا في Microsoft لمدة سبع سنوات كمهندس حلول متخصص في البيانات الضخمة وتخزين البيانات.

في مناقشتنا الأخيرة ، تحدثنا إلى جيمس للحصول على بعض الأفكار من الداخل تطوير مستودعات البيانات الحديثة. في جلسة الأسئلة والأجوبة المباشرة هذه ، بحثنا في مفهوم أتمتة تصميم مستودع البيانات.

ما رأيك في مفهوم نموذج بيانات المؤسسة؟ هل تعتقد أن الوقت قد حان للانتقال من فكرة إعداد جميع متطلباتك مقدمًا والانتقال إلى دورة التطوير؟ إذا لم يكن الأمر كذلك ، كيف ستنتقل من هذا النهج نحو أسلوب أكثر تكرارية لتخزين البيانات؟

أعتقد أن معظم العملاء قد انتقلوا من هذا النوع من نهج الشلال حيث يقضون الكثير من الوقت في جمع المتطلبات. لقد تحولوا إلى نوع شلال رشيق من التطوير ، ويتعلق الكثير منه بالأدوات التي ظهرت مؤخرًا. إذا نظرت إلى شيء مثل أدوات ذكاء الأعمال ، وجدت أن العملاء يستخدمون هذه الأداة الآن لتحديد متطلبات العمل بدلاً من أن يذهب شخص ما من قسم تكنولوجيا المعلومات إلى عميل ويقول ، "حسنًا ، ما هو مطلبك؟ دعنا ننزعها ، لنبني شيئًا ما "، نعود واكتشف أنه خطأ ، ونستمر في هذه الدورة. يقولون الآن ، "مرحبًا ، استخدم النموذج الأولي ، وسنستخدم ذلك كمتطلبات عمل."

تتيح لك أدوات إعداد تقارير ETL الحديثة وضع نموذج أولي لتلك المتطلبات وإنشاءها بسهولة. وإذا لم يكن الأمر كذلك ، فعادةً ما تكون "مرحبًا ، نحتاج إلى فوز سريع. دعنا نبدأ في بناء شيء ما ونظهر قيمة ما أنشأناه ونجعل الناس والمستخدمين النهائيين متحمسين ". في كثير من الوقت ، [يساعد] في فتح الميزانيات ، وبعد ذلك تقوم أيضًا بجلب هؤلاء المستخدمين النهائيين في وقت مبكر ، لذلك تشعر أنهم جزء مما تقوم ببنائه هناك ، ومن ثم يمكنهم الحصول على شيء ذات قيمة حتى تختار شيئًا يمكنك القيام به على المدى القصير وله قيمة كبيرة ، ثم تخرج بذلك.

الآن ، أقول دائمًا أنك تريد أن تضع هدفك النهائي في الاعتبار. إنه نوع من مثل بناء مدينة سوف تقسمها إلى مدن. يمكنك وضع مخطط لهذه المدينة مع جميع المدن هناك. ثم تذهب ، وتبني مدينة ، وتبني واحدة فوق الأخرى. لا تذهب وتبني كل شيء وتفتحه هناك.

لذا ، [يجب] أن يكون لديك تلك الرؤية طويلة المدى للمكان الذي تريد أن تذهب إليه ، لكنك تحصل على تلك المكاسب السريعة في وقت مبكر.         

ما رأيك في خزائن البيانات؟ هل تعتقد أن هذا سيتجاوز النمذجة الأبعاد قريبًا باعتباره الأسلوب المفضل ، أم أن كل شيء له مكانه؟ 

سأقول أنه لا توجد طريقة يمكن بها لخزن البيانات أن يتولى النمذجة ذات الأبعاد. لقد كانت موجودة منذ أكثر من 20 عامًا ، ولديها حالة استخدام رائعة. أجد عملاء يحتاجون إلى القيام بالكثير من عمليات التتبع والتدقيق التاريخية باستخدام مخزن البيانات ، ولكن لا يوجد الكثير من حالات الاستخدام تلك التي تتطلب شيئًا مثل ، على سبيل المثال ، معقد مثل مخزن البيانات الموجود هناك.

لذلك ، أعتقد أن لها مكانها. لكنني أرى 99 بالمائة من العملاء يستخدمون نوعًا من مخطط النجوم مع نموذج ثالث عادي هناك ، ويعتمد الكثير منه على [ما إذا كنت] تحصل على الأداء الذي تحتاجه في الشكل العادي الثالث. إذا انضممت إلى عشرات الجداول أو أكثر ، فقد أتمكن من الحصول على هذا الأداء ، وسأنتقل إلى مخطط النجوم. إنها طبقة إضافية من التفاصيل ، لكنك تحصل على الكثير من الفوائد من خلال وجود تلك الطبقة الإضافية هناك.

كما أنه يساعد عندما تبحث في ذكاء الأعمال ذاتية الخدمة. إذا لم يكن لدي مخطط نجمة ، فيجب أن أعرف العلاقة بين كل هذه الجداول ، والتي قد تكون صعبة للغاية بالنسبة للمستخدم النهائي. عادة ، لديك شخص واحد في الشركة يعرف كيف ينضم إلى كل شيء ، وأنت تعتمد على هذا الشخص.

بدلاً من ذلك ، تقوم بإنشاء مخطط النجوم هذا ومن ثم يكون ذكاء الأعمال ذاتية الخدمة. يمكنني فقط الانتقال إلى أداة إعداد التقارير وسحب الحقول إلى النموذج وإنشائها دون الحاجة إلى فهم عمل العلاقات بسبب مخطط النجوم. لذا ، فهو يمنحك ذلك ، لذلك هناك سبب وجيه للمخطط النجمي ، وأود أن أقول على الأرجح أن 75 بالمائة من الشركات التي أراها ستستخدم مخططًا نجميًا فوق نموذج ثالث عادي.

بالحديث قليلاً عن منظور النمذجة البعدية لنمذجة البيانات ، ما رأيك بالدور الذي يجب أن تلعبه البيانات الوصفية؟ هل تعتقد أن إطار العمل القائم على البيانات الوصفية يمكن أن يفيد تصميم مستودع البيانات؟ وإذا كان الأمر كذلك ، فكيف؟   

لقد رأيت الكثير من الجهد مؤخرًا في إنشاء كتالوجات بيانات للعملاء. الفكرة وراء ذلك هي أنهم يجمعون الكثير من البيانات ، وتريد تجنب تكرار البيانات.

نحن نقوم بذلك في EY على نطاق واسع لأنهم يجلبون كل بيانات الطرف الثالث هذه. يمكن أن يكون حرفياً عشرات الملايين من الدولارات من طرف ثالث ، ولا تريد أن يخرج شخص ما ويحصل على ترخيص لأنهم لم يدركوا أن البيانات موجودة بالفعل.

لذلك ، دعونا ننشئ كتالوج البيانات الوصفية ودعنا ننشئ أداة اكتشاف البيانات في سوق حيث يمكن لأي مستخدم نهائي أن يذهب ، "مرحبًا ، أحتاج إلى إنشاء شيء باستخدام هذا النوع المعين من البيانات. أتساءل عما إذا كان لدينا. دعنا نذهب إلى الكتالوج ونرى ما إذا كان هناك. " يمكننا [الآن] الوصول على الفور إلى تلك البيانات وتجنب الازدواجية.

أيضًا ، الشيء المهم مع العملاء مؤخرًا هو النسب. "لقد حصلت على هذه القيمة n هذه العملية الحسابية. كيف نصل إلى هناك؟ من أين أتت هناك؟ أريد أن أتأكد من أنه صحيح ". لذا ، فإنهم يعودون وينظرون. يعتبر تسلسل البيانات الوصفية مهمًا عندما تريد التأكد من أنك تقوم بإنشاء مخطط وأن المخطط هو أيضًا بيانات وصفية.

لذلك ، هذا شيء آخر أعتقد أنك ستبدأ في رؤيته أكثر من دفعة من الأشخاص يقومون بفهرسة ليس فقط البيانات ولكن مجموعات البيانات. أعتقد أنك سترى أن التكامل بشكل أكبر مع كتالوجات البيانات هو "مرحبًا ، قد يكون الأمر رائعًا بما يكفي لأرى أن لدينا بيانات العملاء وبيانات المنتج ، ولكن ربما يكون شخص ما قد أنشأ بالفعل مجموعة البيانات هذه. ربما أنشأ شخص ما بالفعل تقريرًا ولوحة تحكم على ذلك ، ويمكنني استخدام ذلك بسرعة بدلاً من إعادة اختراع العجلة ".

لذا ، تعد البيانات الوصفية مهمة جدًا الآن وبدونها عندما يكون لدينا هذا الانتشار من البيانات - وفي بعض الحالات - لدينا بيانات في بحيرة بيانات لا تحتوي على بيانات وصفية خاصة بها ، [ثم] يتعين علينا إنشاء ذلك [البيانات الوصفية]. لذا ، فأنت بحاجة إلى مثل هذا المنتج ، وهو حل يتناسب مع كل ذلك ، لذلك يسهل على الأشخاص اكتشاف البيانات.

النهج المتمحور حول نموذج البيانات

من الواضح أننا نعيش في عصر البيانات الضخمة. كيف تعتقد أن الانفجار في تنوع الحجم والسرعة قد أثر على قوس البيانات؟

نعم. إنه أمر أكثر صعوبة لأنه عليك الآن التفكير في حجم البيانات. و [على سبيل المثال ،] لا بد لي من إنشاء نموذج ، فقد لا يعمل إذا لم أفعله بشكل صحيح. لذلك ، فهي تضيف أهمية أكبر بكثير في التأكد من صحة التصميم. وأيضًا ، تعد حوكمة البيانات جزءًا كبيرًا منها.

[لنفترض] أن البيانات تدخل في نموذج. كيف يمكنني التأكد من تنظيفه وأنا أقوم بضم البيانات بشكل صحيح؟ السبب الأكبر الذي أراه لفشل مشاريع مستودعات البيانات الضخمة هو عدم توفر الوقت الكافي في إدارة البيانات.

لقد خرجوا بمجموعة بيانات ، وتقول فقط ، "رائع ، سأستخدم مجموعة البيانات هذه" ، ثم اذهب ، "انتظر دقيقة! هذه البيانات خاطئة ". إذا كان هذا هو انطباعك الأول ، فقد فقدت الثقة في البداية. لن يثقوا في أي شيء تخرج به ، لذلك عليك قضاء الكثير من الوقت قبل التحقق من صحة هذه البيانات ، والتأكد من صحة مجموعة البيانات.

قم بإحضار المستخدمين في وقت مبكر ، وأخبرهم أنك تختبر هذه الأشياء ، وتأكد من صحتها. إنها طريقة واحدة للقيام بذلك. ولكن من المهم للغاية كسب ثقتهم عند تطوير هذه الحلول ، لذا تأكد من أن لديك وقتًا كافيًا لإدارة البيانات.

ما هي أفكارك حول العبارة التي تفيد بأن نموذج مخطط مستودع بيانات قوي تم التحقق منه يساوي بنية مستودع بيانات عالية الجودة بشكل عام؟

سأتفق مع ذلك. مرة أخرى ، إذا كانت حوكمة البيانات في مكانها الصحيح ، فهذا يدخل في أكثر من مجرد تقنية ، ولقد أجريت الكثير من المناقشات مع العملاء [حول كيفية] [يمكنك] الحصول على أفضل تقنية في العالم ، ولكنك تحتاج حقًا أن يكون الناس والعملية في مكانها الصحيح.

نحتاج إلى حوكمة البيانات ، ربما مركز امتياز ، اجتماعات لتحديد من يملك البيانات ، وعملية تدقيق لتنظيف البيانات. إذا قمنا بتنظيف مخازن البيانات والبيانات ، فإننا نعيدها أيضًا إلى نظام المصدر - يجب مناقشة كل هذه الأشياء هناك.

لذلك ، من المهم جدًا أن يكون لديك هؤلاء الأشخاص المناسبون والمهارات المناسبة ، وهو أمر صعب للغاية ، لا سيما أننا رأينا مؤخرًا ندرة في المواهب هناك وإيجاد أشخاص لديهم مجموعات المهارات هذه يمثل تحديًا ، ولكن هناك أمثلة كافية من ذلك هناك يمكنك الذهاب والاطلاع على كيفية إنشاء الأشخاص لشركتهم ومجموعاتهم والأشخاص المشاركين في العملية لهذا النوع من الحلول التي نبنيها ونحاول اتباع أفضل الممارسات.

بالنظر إلى تقنية MPP والتخزين العمودي ، هل ترى اتجاهًا لاستخدام نموذج OBT ذو الجدول الكبير لإعداد التقارير والتحليلات أعلى نموذج الأبعاد؟

حسنًا ، MPP ، لأولئك الذين قد لا يعرفون ، هذه معالجة متوازية متعددة. لذا ، الفكرة هي أنه يمكنني تقديم استعلامات قد تستغرق ساعات لتشغيلها باعتبارها SMP [Symmetric Multi-Processing] أو حل نموذجي ووضعها على نظام MPP ، وستعمل في أي مكان من 20 إلى 100 مرة أسرع هناك. يمكن أن تفعل ذلك مع جداول النموذج العادي الثالث. يمكن أن يفعل ذلك بشكل أفضل مع مخطط النجوم ، لكنني رأيت نتائج هائلة للعديد من البيانات ، حتى مع العديد من الصلات المختلفة.

لذا ، فإن الشيء الجيد في تقنية MPP هو أنك لست مضطرًا للذهاب إلى أقصى الحدود لجعل هذه البيانات غير طبيعية. استنتاجي هو أنك تريد دائمًا الانتقال إلى مخطط النجوم لأسباب عديدة ، وفكرة أنك بحاجة إلى هذا الجدول الكبير ، لا يمكنك - باستخدام تقنية MPP - في معظم الحالات.

تطلب منك بعض منتجات الجهات الخارجية القيام بذلك - أو تحت التغطية ، نقوم بذلك - بسبب مشكلات الأداء. ولكن نظرًا لأن التكنولوجيا قد تقدمت كثيرًا ، فمن النادر أن أجد عميلًا يذهب إلى هذا الحد في إعداد طاولة كبيرة. بدلاً من ذلك ، يستخدمون مخطط النجوم.

ما هو الدور الذي يجب أن تلعبه الأتمتة حقًا؟ وما نوع المزايا التي تعتقد أن المؤسسات يمكن أن تراها من استخدام حل مبني لهذا الغرض لدفع عملية التحقق من نماذج البيانات والعمليات الأخرى؟

أنا كل شيء عن الاختصارات. لذلك ، عندما تحدثت إلى العملاء ، كان الأمر ، "حسنًا ، انتظر دقيقة هنا! ما تتحدث عنه ... أعتقد أنه يمكنك على الأرجح استخدام بعض أدوات التشغيل الآلي ومنتجات الجهات الخارجية هنا. نعم ، هناك نفقات إضافية ، لكن توفير الوقت والدقة التي قد تحصل عليها من ذلك قد يستحق كل هذا العناء ، لذلك نعم ، أنا جميعًا مع أدوات الطرف الثالث هذه.

بالطبع ، هناك مقايضات. يجب أن تحصل على مجموعة المهارات ، لذلك إذا كنت لا تعرفها ، فعليك أن تتعلمها. وهل هي أداة أتمتة تتطلب أداة الأتمتة هذه طوال الوقت من الآن فصاعدًا أم أنها تقوم فقط بإنشاء الكود الذي يمكنك التقاطه واستخدامه؟ لأنه إذا كان عليك دائمًا استخدام هذه الأداة ، فقد يكون هناك بعض التحديات مع ذلك.

بصفته المنتج ، فإنه يقوم بالبناء على التحديثات الخاصة بميزاته ، [يجب] على برنامج أتمتة مستودع البيانات [يجب] تحديثه أيضًا ، أو ربما لا يمكنك استخدام جميع الميزات. لذا ، عليك أن تنظر إليها عن كثب. ولكن هناك العديد من الأدوات الجيدة المتوفرة الآن والتي هي اختصار تلك العملية التي توفر الأتمتة.

خاصة في معظم الحالات ، لا يختلف ما يبنيه العملاء عما بناه آلاف العملاء الآخرين. حسنًا ، هناك أداة أتمتة لذلك. من النادر جدًا أن تقوم ببناء شيء فريد من نوعه أو على نطاق لا تساعد فيه أداة الطرف الثالث.

والأكثر من ذلك ، إذا كنت تعمل في مجال ما مشهور مثل الرعاية الصحية ، أو التمويل ، أو الخدمات المصرفية ، أو البيع بالتجزئة - فهذه جميعها لديها سيناريوهات متكررة جدًا يمكنك استخدام أداة التشغيل الآلي لها.

هل هناك كلمات فراق تريد أن تتركها لنا؟

أقول دائمًا ، إذا لم تكن قد قطعت هذا الطريق من قبل وكنت تبني حلاً حقيقيًا ، فاحصل على بعض الخبراء ، واعثر على بعض الأشخاص. مرة أخرى ، من الصعب العثور على الموهبة الآن ، ولكن ابحث عن شركة استشارية أو شركة خارجية كانت تسير على هذا الطريق من قبل ، في وقت مبكر من العملية.

لأن هذا ما أفعله ، في دوري في EY بصفتي رئيسًا للهندسة المعمارية [أعلم] أنك بحاجة إلى اتخاذ بعض القرارات الرئيسية حقًا في وقت مبكر ، وإذا اتخذت تلك القرارات الخاطئة في المستقبل ، فقد يكلفك ذلك الكثير من الوقت والمال.

لذا ، ابحث عن الأشخاص الذين يمكنهم مساعدتك في اتخاذ تلك القرارات الصحيحة في وقت مبكر لأن جميع المشاريع التي رأيتها فشلت - يمكن أن تكون [بسبب] جزء ، أو أشخاص ، أو عملية - من النادر أن تكون التكنولوجيا سيئة. إنه أنك اخترت التكنولوجيا الخاطئة. لقد أردت بعض قواعد البيانات العلائقية ، وحاولت جعلها تعمل بحيث يكون حل NoSQL ، على سبيل المثال ، أفضل بكثير.

لذا ، احصل على الكثير من المساعدة مبكرًا في اتخاذ تلك القرارات الرئيسية الكبيرة وافهم ما سيحدث في الطريق ، وفي المستقبل ، وخرائط الطريق لكثير من المنتجات. إذا كنت تستخدم منتجًا معينًا ، فتأكد من أنك تعرف ما هو قيد التطوير للأشهر الثلاثة إلى الستة المقبلة.

يستغرق إنشاء هذه المشاريع الكثير من الوقت ، ولا تريد أن تكون في غضون بضعة أشهر ، وتقول الشركات الأخرى أيضًا ، "لقد حصلنا على هذا المنتج الجديد وميزة جديدة" ، وتذهب ، "أوه ، يجب نعرف عن هذا؟ " وأنا أقول هذا لأن هذا جزء كبير من دوري في وظيفتي وهو التأكد من أن الناس قد تعلموا ما سيحدث على الطريق.

لأن مشاريع مستودع البيانات هي مسارات طويلة ، وأنك تقوم ببنائها لمدة ستة أشهر أو سنة. إنها لا تنتهي أبدًا ، حقًا ، لكن الكثير من تلك القرارات الكبيرة ستكون في وقت مبكر ، وتحتاج إلى معرفة خارطة الطريق ، لذلك ستكون هذه كلمات فراق لي.

أتمتة تصميم مستودع البيانات باستخدام Astera منشئ DW

Astera DW Builder هو حل لتخزين البيانات آليًا وشاملًا يسمح للمؤسسات بالانتقال من المصدر إلى الرؤى بسرعات البرق. تمكّن المنصة الرشيقة والقائمة على البيانات الوصفية الشركات من دمج البيانات المشتتة في نظام ذكاء الأعمال المرن وإنشاء بوابة مركزية لإجراء التحليلات على نطاق المؤسسة.

قم ببناء مستودع بيانات من الصفر باستخدام ADWB

Astera يوفر DW Builder بيئة تطوير متكاملة خالية من الكود لبناء مستودع البيانات الخاص بك على مستوى منطقي. يوفر الحل بيئة تطوير متكاملة تعمل على أتمتة جميع مهام نمذجة البيانات القياسية وصولاً إلى نشر مستودع البيانات الخاص بك. للحصول على تجربة أولية من Astera DW Builder ، انقر هنا.

ربما يعجبك أيضا
أفضل 7 أدوات لتجميع البيانات في عام 2024
إطار إدارة البيانات: ما هو؟ الأهمية والركائز وأفضل الممارسات
أفضل أدوات استيعاب البيانات في عام 2024
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال