جلسة أسئلة وأجوبة مباشرة مع دوجلاس لاني حول أتمتة استخراج البيانات

By |2022-07-29T11:18:09+00:008 يونيو، 2022|

تعمل الأتمتة على تغيير مشهد الشركات الحديث ، مما يساعد الشركات على أن تصبح أسرع وتحسين الأداء. ليس من المستغرب أن السوق العالمية للذكاء الاصطناعي (AI) من المتوقع أن تفعل ذلك كسر حاجز 500 مليار دولار في عام 2023. يمتلك الذكاء الاصطناعي القدرة على إحداث ثورة في كفاءات الأعمال وقد حان الوقت للمؤسسات التي لا تزال تعتمد على الأساليب اليدوية القديمة لمعالجة المستندات.

في برنامجنا التعليمي الأخير على الويب ، تشرفنا بالتحدث مع دوغلاس لاني. يتمتع السيد لاني بخبرة 35 عامًا في المجال ، وهو خبير رائد في البيانات والتحليلات. يعمل حاليًا كزميل ابتكار إستراتيجية البيانات والتحليلات في West Monroe ، حيث يستشير قادة الأعمال حول تصور وتنفيذ تدفقات قيمة جديدة تعتمد على البيانات.

شغل دوغلاس لاني سابقًا منصب نائب الرئيس ونائب الرئيس المتميز للمحلل في شركة Gartner وحصل على ثلاث مرات جائزة القيادة الفكرية من Gartner. كما أنشأ "مجال المعلوماتية" ، حيث طور طرقًا لتحديد القيمة الاقتصادية للمعلومات وتطبيق ممارسات إدارة الأصول على أصول المعلومات.

في الندوة عبر الويب ، تحدثنا إلى السيد لاني للحصول على رؤى أعمق حول محركات القيمة الرئيسية التي تصنعها استخراج البيانات من مستند غير منظم مصادر مهمة حيوية وكيف يمكن أن تساعد في تبسيط معالجة المستندات.

المضيف: تنتج المنظمات الحديثة المزيد والمزيد من البيانات مع مرور الوقت. لقد قيل مراراً وتكراراً أن البيانات هي عملة المستقبل ، فما رأيك في ذلك؟ ما القيمة التي تجلبها البيانات للمؤسسة؟

دوجلاس لاني: هذا سؤال جيد! من المثير للاهتمام أن المعلومات كانت دائمًا عملة من نوع ما. دفع الملوك مبالغ كبيرة للحصول على معلومات ، على سبيل المثال ، حول تحركات قوات أعدائهم. حتى مصطلح ذكاء الأعمال تم صياغته منذ ما يقرب من قرن ونصف من قبل ريتشارد ديفينس وسينكلير هاميلتون في كتابهما عام 1865 ، موسوعة الحكايات التجارية والتجارية ، حيث روا كيف تمت مكافأة رجل نبيل اسمه السير هنري فورنيس ، بما في ذلك كونه منحه الملك ويليام خاتمًا من الألماس لإحضاره أخبار المعارك في جميع أنحاء هولندا وفلاندرز وفرنسا. دفعت البنوك أموال مكاتب الائتمان الأولى في أوائل القرن العشرين لتجميع المعلومات والحكايات حول ميول رجال الأعمال إلى السداد.

اليوم ، ومع ذلك ، فقد ارتقينا بهذا إلى المستوى التالي. ترميز وأتمتة ، وحتى تنظيم ممارسة جمع البيانات وتحقيق الدخل منها. أفكر في القياس بين البيانات والعملة ، حيث تقصر هذه المقارنة في بعض الصفات الاقتصادية الفريدة للبيانات. بمجرد إنفاق دولار أو يورو ، لن تتمكن من إنفاقه مرة أخرى. يمكنك فقط إنفاقها بطريقة واحدة في كل مرة. البيانات ، من ناحية أخرى ، هي أكثر مما يسميه الاقتصاديون أصول مخاطر غير مستنفدة وغير منافسة. يمكنك إنفاقها مرات ومرات دون أن تنفد. يمكنك إنفاقها أو استخدامها بعدة طرق في وقت واحد. لذا ، فإن الشركات التي استفادت من خصائص البيانات هذه هي حقًا تلك التي تربح في الاقتصاد الرقمي اليوم.

المضيف: هل تقول أن البيانات تلعب دورًا رئيسيًا في عملية الإنتاج؟

دوجلاس لاني: نعم! في الواقع ، لقد توصلت إلى استنتاج مفاده أن البيانات هي العامل الخامس للإنتاج. تعلمون ، الاقتصاديون في مطلع القرن الماضي [أفكر في ذلك الوقت] حددوا أربعة عوامل رئيسية للإنتاج ؛ أصبحت الأرض والعمالة ورأس المال وريادة الأعمال ، وحتى البيانات المتزايدة بديلاً لجميع هذه [العوامل] تقريبًا.

على سبيل المثال ، لم تعد الشركات المصنعة بحاجة إلى مستودعات ضخمة لأن أنظمة إدارة المخزون في الوقت المناسب تحل محل معلومات سلسلة التوريد للمخزون في الموقع ، وبالطبع ، رأينا البيانات والتحليلات تحل محل معالجة الأرقام والعاملين الآخرين في مجال المعرفة ، و اليوم تدفع الشركات مقابل السلع والخدمات باستخدام البيانات.

لذلك ، ضع في اعتبارك تجربتك الخاصة في متجر البقالة. يتم استخدام البيانات والتحليلات للتوصل إلى نماذج أعمال ومنتجات وعقاقير جديدة وما إلى ذلك. لذا ، أؤكد أن البيانات يجب اعتبارها العامل الخامس للإنتاج.

المضيف: نحن نعلم أن الكثير من البيانات التي تتلقاها الشركات والمؤسسات هي بتنسيق غير منظم. لماذا تميل هذه البيانات غير المهيكلة إلى الاستغلال الكافي مقارنة بالبيانات المنظمة؟

دوجلاس لاني: أعتقد فقط لأنه غير منظم. بيانات غير منظمة توجد في مستندات مثل ملفات PDF ورسائل البريد الإلكتروني ووسائل التواصل الاجتماعي والوسائط المتعددة. إنها مجرد بيانات غير منظمة في صفوف وأعمدة صغيرة مرتبة. يجب معالجة البيانات غير المهيكلة لاستخراج المعلومات والرؤى المنفصلة. لقد قلت في كثير من الأحيان أنه لا يمكن مشاركة المحتوى غير المهيكل ، وتحريره ، وقراءته إلا حتى تستخرج أو تضيف نوعًا معينًا من القيمة أو البنية إليه.

هناك الكثير من اللحوم هناك ، وبسبب التقلبات والفروق الدقيقة وأشياء مثل اللغة والدلالات ، فإن هذا النوع من تمييز البيانات غير المهيكلة أو الاستخراج يصعب القيام به ، ناهيك عن القيام بذلك بكفاءة وثبات. ومع ذلك ، بما أن الناس يقولون إن ما بين 80 و 90 من البيانات اليوم غير منظمة ، أعتقد أنها أرض خصبة حقيقية لأولئك الذين يتطلعون إلى اكتساب ميزة تنافسية.

بالعودة إلى عقدين من الزمن أو نحو ذلك ، توصلت إلى مفهوم القيم الثلاثة للبيانات الضخمة: الحجم والسرعة والتنوع. لذلك ، غالبًا ما نتحدث أيضًا عن البيانات غير المهيكلة التي تحتوي على حجم كبير. حسنًا ، بالطبع ، إنها تفعل ذلك بطبيعتها ، ولكن لديها أيضًا مجموعة كبيرة ومتنوعة من مصادر البيانات بالإضافة إلى أنها غير منظمة لأي مؤسسة.

المضيف: لقد أثبتنا أن حوالي 90 بالمائة من بيانات المؤسسة ، كما قلت ، غير منظمة. هل لديك بعض الأفكار حول كيف يمكن للمؤسسات دمج هذه البيانات غير المهيكلة في خطوط أنابيب البيانات الحالية ومخازن البيانات؟

دوجلاس لاني: نعم. أنت تعلم أنه لا يكفي فقط إسقاط محتوى غير منظم في مستودعات البيانات أو بحيرات البيانات لدينا. أقترح عليك أولاً استخراج البيانات من هذا المحتوى أو وضع علامة عليها وربطها بطريقة تجعلها قابلة للاستعلام. أثبت حتى ربط المفاهيم عبر أجزاء من المحتوى لإنشاء رسم بياني معرفي أنه يوفر فوائد لبعض المؤسسات ، لا سيما تلك التي تتطلع إلى القيام بأشياء مثل تحديد السلوك الاحتيالي أو الجهات الفاعلة السيئة.

المضيف: نعلم أن الوثائق غير المهيكلة لها قيمة هائلة. ما هي أمثلة البيانات غير المهيكلة المستخدمة لتوليد تدفقات قيمة مبتكرة للمؤسسات؟

دوجلاس لاني: نعم. [هذا مثال]. أدركت شركة التأمين هذه أنها كانت جالسة في أرشيف تقارير الضابط. لذلك ، يقوم شخص ما بتقديم مطالبة ، وتحقق شركة التأمين في هذا الادعاء ، ويكتب المحقق تقريرًا ، ويستخدم هذا التقرير لمعالجة مطالبة فردية.

لكن ما أدركوه هو أنه يمكنهم إزالة المحتوى في تقارير الضبط هذه لتحديد ميل أو مؤشرات اللغة الشبيهة بالاحتيال التي تم استخدامها ، أو الحذف أو التناقضات. عندما قاموا بنشر خوارزمية التنقيب عن النصوص هذه ضد هذه البيانات ، كانوا قادرين على استبدال أو استرداد ملايين الدولارات من المطالبات الاحتيالية المدفوعة سابقًا وأيضًا إدخال هذا النموذج في نظام معالجة المطالبات الخاص بهم.

مثال آخر هو الشركة المصنعة Lockheed Martin التي تصنع الطائرات المقاتلة وأنواع المعدات العسكرية الأخرى. لقد أخذوا فكرة أعطيتهم إياهم لتحديد المؤشرات الرئيسية لقضايا المشروع مثل النطاق أو الميزانية أو الموظفين ، أو القضايا المتعلقة بالتكنولوجيا عن طريق التنقيب في اتصالات المشروع للموظفين في المشاريع بدلاً من مجرد استخدام طريقة الإبلاغ عن الحالة القديمة.

كانوا يبحثون عن مؤشرات رئيسية لقضايا المشروع ، وبذلك ، انتهى بهم الأمر إلى إضافة بصيرة أكبر بثلاث مرات إلى مشكلات المشروع عما كان لديهم من قبل ، كما أنهم وفروا مئات الملايين من الدولارات في التكاليف الزائدة. لقد تعلمت أيضًا بالأمس من خلال التحدث إلى مستشار في أوكرانيا كيف يستخدمون التعرف على الوجه لتحديد المخربين واستخدام الخرائط وصور الأقمار الصناعية للمساعدة في تحديد سلسلة التوريد وطرق الإخلاء المتغيرة والإعلان عنها.

المضيف: بينما نحن بصدد موضوع استخدام هذه البيانات غير المهيكلة ، هل يمكنك إخبارنا ببعض المشكلات الشائعة التي تواجهها المؤسسات عند استخراج البيانات من هذه المصادر غير المهيكلة؟

دوجلاس لاني: سؤال رائع! إنه لأمر رائع أن تكون على دراية بهذه الأمور وتواجهها. لقد ذكرت من قبل قضية تعدد اللغات ، وحتى الغموض داخل اللغة أمر صعب. يعد إنشاء المسارد والمرادفات وتحديد المشاعر من خلال تحليل المشاعر فنًا بقدر ما هو علم في بعض الأحيان. فهرسة المحتوى وتصنيفه ووضع علامات عليه ، وتحديد ما هو مناسب من عدمه. معالجة اللغة الطبيعية - نتعامل أيضًا مع حجم كبير من البيانات ، عادةً.

ما الذي نحتفظ به أو لا نحتفظ به؟ الاحتفاظ مهم. كيف ننسى شيئًا ما إذا تعلمنا شيئًا؟ في أي مرحلة ننقص قيمتها بمرور الوقت؟ من الصعب أيضًا قياس جودة المحتوى غير المنظم. من الأسهل بكثير تحديد جودة المحتوى المنظم. ثم ، بالطبع ، الأمان والخصوصية والموافقة وإخفاء معلومات التعريف الشخصية هي أيضًا قضايا رئيسية متعلقة بالتكنولوجيا.

المضيف: هل يمكنك إلقاء بعض الضوء على الأتمتة؟ الأتمتة هي المستقبل. لماذا يمثل هذا الجانب الرئيسي في هذه الرحلة؟

دوجلاس لاني: انظر إلى بعض التحديات التي ذكرتها من قبل. معظم أشكال المحتوى غير المهيكل ضخمة جدًا بحيث لا يمكن وضع علامة عليها أو فهرستها يدويًا أو استخراجها ، حتى باستخدام طرق التعهيد الجماعي. يميل [استخدام] العديد من البشر لتعهيد هذا النوع من الجهد إلى درجة عالية من التناقض أيضًا. نحن ننظر ، على سبيل المثال ، في كيفية وضع علامات Facebook على المشاركات التي لا تفي بمعاييرها.

الطريقة التي يفعلون بها ذلك ، كما تعلمون ، تميل إلى أن تكون غير متسقة. هناك أيضًا تأخير في القيام بذلك أيضًا. لذلك ، للحصول على رؤى قابلة للاستخدام في الوقت الفعلي أو شبه في الوقت الفعلي من محتوى غير منظم بأي حجم أو سرعة تقريبًا ، فأنت بحاجة حقًا إلى أتمتة ذلك

المضيف: ماذا تقول كنصيحة؟ هل تقترح على المنظمات الانضمام [بالأتمتة]؟ ما الفوائد التي يمكن أن يحصلوا عليها من أتمتة عملية الاستخراج؟

دوجلاس لاني: أود أن أقترح نوعًا من البداية الصغيرة. تحديد طرق تجريبها للاستفادة من المحتوى غير المنظم. ربما قم بتشغيل بعض ورش العمل لتحديد تدفقات القيمة المحتملة التي ينطوي عليها القيام بذلك. هذا شيء أفعله مع العملاء طوال الوقت - إدارة ورش عمل التفكير هذه. ونحن لا ننظر فقط إلى المحتوى المنظم ولكن أيضًا في المحتوى غير المنظم ، ثم ندرك تلك التحديات ونتأكد من استعدادك للتعامل مع كل تلك التحديات التي ذكرتها مع المحتوى غير المنظم.

حتى بعد قيامك بالتجريب وإدراك أنه إذا قمت بذلك يدويًا كجزء من البرنامج التجريبي ، فمن المحتمل ألا يتم توسيع نطاقه ، ولن يتم توسيع هذه الدرجة من الجهد اليدوي. لذلك ، يجب أن تجبرك حقًا على النظر طرق الأتمتة.

المضيف: إذن ، بالعودة إلى أول شيء ناقشناه ، [تلك] البيانات هي عملة المستقبل. أين ترى استخراج البيانات في المستقبل؟

دوجلاس لاني: أعتقد أننا قمنا بعمل رائع في بناء قدرات استخراج البيانات لأصول البيانات المنظمة. وأعتقد أنه في المستقبل ، من الواضح ، بسبب الحجم والقيمة المحتملة المتجسدة في البيانات غير المهيكلة ، أعتقد أننا سنبدأ في رؤية المزيد والمزيد من المؤسسات التي تجعل استخراج البيانات غير المنظمة ، ووضع العلامات ، [و] التصنيف جزءًا أساسيًا لقدراتهم في إدارة البيانات ومجموعة من الأدوات.

حل استخراج البيانات الآلي للمؤسسات الحديثة

Astera ReportMiner هو حل لاستخراج البيانات على مستوى المؤسسات يمكن للمستخدمين استخدامه لتبسيط معالجة المستندات وتبسيطها. من خلال الجمع بين قوة الأتمتة والمعالجة المتوازية واستخراج البيانات الذكية ، تسهل منصتنا الخالية من الرموز على المؤسسات تحويل حجم كبير من البيانات غير المهيكلة إلى رؤى قابلة للتنفيذ على الفور.

بإضافة إلى Astera ReportMiner، لا يتعين عليك الاعتماد على عمليات إدخال البيانات اليدوية. يمكنك تحميل الملفات تلقائيًا من موقع تم تكوينه ثم كتابة البيانات المستخرجة إلى الوجهة المفضلة. باستخدام حلنا ، تقضي وقتًا أقل في استخراج البيانات ووقتًا أطول في استخدامه. اتصل بفريقنا لتبدأ مع Astera ReportMiner اليوم.