Блог

Главная / Блог / Живая сессия вопросов и ответов с Дугласом Лэйни об автоматизации извлечения данных

Содержание
Автоматизированный, Без кода Стек данных

Научиться Astera Data Stack может упростить и оптимизировать управление данными вашего предприятия.

Прямая сессия вопросов и ответов с Дугласом Лейни об автоматизации извлечения данных

Аммар Али

Content Manager

Декабрь 20th, 2023

Автоматизация трансформирует современную корпоративную среду, помогая предприятиям работать быстрее и повышать производительность. Неудивительно, что ожидается, что мировой рынок искусственного интеллекта (ИИ) преодолеют отметку в 500 миллиардов долларов в 2023 году. ИИ способен произвести революцию в эффективности бизнеса, и организациям все еще пора полагаться на архаичные ручные методы обработки документов.

На нашем недавнем вебинаре нам выпала честь поговорить с Дугласом Лэни. Обладая 35-летним опытом работы в отрасли, г-н Лэйни является ведущим экспертом по данным и аналитике. В настоящее время он работает научным сотрудником по инновациям в области стратегии данных и аналитики в West Monroe, где консультирует бизнес-лидеров по разработке и внедрению новых потоков создания ценности, основанных на данных.

Дуглас Лэйни ранее занимал должности вице-президента и заслуженного вице-президента-аналитика в Gartner и является лауреатом трехкратной награды Gartner за интеллектуальное лидерство. Он также основал «Область инфономики», разрабатывая методы количественной оценки экономической ценности информации и применяя методы управления активами к информационным активам.

На вебинаре мы поговорили с г-ном Лейни, чтобы получить более глубокое представление о ключевых факторах создания ценности, которые делают извлечение данных из неструктурированного документа Источники жизненно важной задачи и то, как это может помочь оптимизировать обработку документов.

Ведущий: Современные организации со временем производят все больше и больше данных. Неоднократно утверждалось, что данные — это валюта будущего, что вы думаете по этому поводу? Какую ценность данные приносят предприятию?

Дуглас Лэйни: Это хороший вопрос! Знаете, что интересно, информация всегда была своего рода валютой. Короли щедро платили, например, за информацию о передвижениях войск своих врагов. Даже термин бизнес-аналитика был придуман почти полтора века назад Ричардом Девинсом и Синклером Гамильтоном в их книге 1865 года «Энциклопедия коммерческих и деловых анекдотов», в которой они рассказывают, как джентльмен по имени сэр Генри Фернесс был щедро вознагражден, в том числе король Вильгельм подарил ему кольцо с бриллиантом за то, что он сообщал ему новости о сражениях в Голландии, Фландрии и Франции. Первым кредитным бюро банки заплатили в начале 1900-х годов за сбор информации и анекдотов о платежеспособности бизнесменов.

Однако сегодня мы действительно подняли это на новый уровень. Кодификация, автоматизация и даже регулирование практики сбора и монетизации данных. Я думаю об аналогии между данными и валютой, но ее недостатки заключаются в некоторых уникальных экономических качествах данных. Потратив однажды доллар или евро, вы больше не сможете потратить их снова. Вы можете потратить их только одним способом за раз. С другой стороны, данные — это скорее то, что экономисты называют неистощающимся, неконкурентным рисковым активом. Вы можете тратить их снова и снова, при этом они не израсходуются. Вы можете потратить их или использовать несколькими способами одновременно. Таким образом, компании, которые извлекли выгоду из этих характеристик данных, действительно выигрывают в современной цифровой экономике.

Ведущий: Можете ли вы сказать, что данные играют ключевую роль в производственном процессе?

Дуглас Лэйни: Ага! Фактически, я пришел к выводу, что данные — это пятый фактор производства. Знаете, экономисты на рубеже прошлого века (думаю, примерно тогда) определили четыре ключевых фактора производства; земля, труд, капитал и предпринимательство, и все больше данных стали даже заменой почти всех этих [факторов].

Например, производителям больше не нужны огромные склады, потому что системы управления запасами «точно в срок» заменяют информацию о цепочке поставок вместо информации о цепочке поставок, и, конечно же, мы видели, как данные и аналитика заменяют подсчет чисел и других работников умственного труда, и сегодня компании платят за товары и услуги, используя данные.

Итак, рассмотрим собственный опыт посещения продуктового магазина. Данные и аналитика используются даже для разработки новых бизнес-моделей, продуктов, лекарств и т. д. Поэтому я утверждаю, что данные следует считать пятым фактором производства.

Ведущий: Мы знаем, что большая часть данных, которые получают предприятия и организации, имеет неструктурированный формат. Почему эти неструктурированные данные, как правило, используются недостаточно по сравнению со структурированными данными?

Дуглас Лэйни: Я думаю, просто потому, что оно неструктурировано. Неструктурированные данные встречается в таких документах, как PDF-файлы, электронные письма, социальные сети и мультимедиа. Это просто данные, которые не организованы в аккуратные маленькие строки и столбцы. Неструктурированные данные необходимо обрабатывать для извлечения дискретной информации и идей. Я часто говорил, что неструктурированным контентом можно делиться, редактировать и читать только до тех пор, пока вы действительно не извлечете или не добавите к нему определенное значение или структуру.

Там много мяса, и из-за капризов, нюансов и таких вещей, как язык и семантика, такой тип разметки неструктурированных данных или их извлечения трудно реализовать, не говоря уже о том, чтобы делать это эффективно и последовательно. Однако, поскольку люди говорят, что сегодня от 80 до 90 данных неструктурированы, я думаю, что это действительно благодатная территория для тех, кто хочет получить конкурентное преимущество.

Вернувшись примерно на пару десятилетий назад, я придумал концепцию трех «V» больших данных: объема, скорости и разнообразия. Итак, мы также часто говорим о неструктурированных данных, имеющих значительный объем. Ну, конечно, так оно и есть по своей природе, но оно также имеет большое разнообразие источников данных, которые неструктурированы для любой организации.

Ведущий: Мы установили, что около 90 процентов корпоративных данных, как вы сказали, неструктурированы. Есть ли у вас какие-либо идеи о том, как организации могут интегрировать эти неструктурированные данные в свои существующие конвейеры данных и хранилища данных?

Дуглас Лэйни: Ага. Вы знаете, что недостаточно просто поместить неструктурированный контент прямо в наши хранилища данных или озера данных. Я предлагаю вам сначала действительно извлечь данные из этого контента или пометить их и связать с ними каким-либо образом, чтобы сделать их доступными для запроса. Даже связывание концепций между частями контента для создания графа знаний приносит пользу некоторым организациям, особенно тем, которые хотят заниматься такими вещами, как выявление мошеннического поведения или злоумышленников.

Ведущий: Мы знаем, что неструктурированные документы имеют огромную ценность. Каковы примеры использования неструктурированных данных для создания инновационных потоков создания ценности для организаций?

Дуглас Лэйни: Да. [Вот пример]. Эта страховая компания поняла, что хранит архив отчетов аджастеров. Итак, кто-то подает претензию, страховая компания расследует эту претензию, следователь составляет отчет, и этот отчет используется для обработки индивидуального иска.

Но они поняли, что могут изучить содержание этих отчетов аджастеров, чтобы выявить склонность или признаки использования мошеннических формулировок, а также упущения или несоответствия. Когда они применили этот алгоритм анализа текста против этих данных, они смогли вернуть или вернуть миллионы долларов ранее выплаченных мошеннических претензий, а также внедрить эту модель в свою систему обработки претензий.

Другой пример — компания Lockheed Martin, производящая истребители и другие виды военной техники. Они воспользовались предложенной мной идеей, чтобы определить основные индикаторы проблем проекта, таких как объем, бюджет, персонал или проблемы, связанные с технологиями, путем анализа коммуникаций проекта для персонала проектов, а не просто с использованием старого метода отчетности о статусе.

Они искали опережающие индикаторы проблем проекта, и в результате они в три раза лучше предусмотрели проблемы проекта, чем когда-либо, и сэкономили сотни миллионов долларов на перерасходе средств. Я также только вчера узнал, общаясь с консультантом в Украине, как они используют распознавание лиц для идентификации диверсантов и используют карты и спутниковые изображения, чтобы помочь идентифицировать и публиковать постоянно меняющиеся цепочки поставок и маршруты эвакуации.

Ведущий: Раз уж мы заговорили об использовании неструктурированных данных, можете ли вы рассказать нам о некоторых распространенных проблемах, с которыми сталкиваются организации при извлечении данных из этих неструктурированных источников?

Дуглас Лэйни: Отличный вопрос! Приятно знать об этом и быть в курсе этих проблем. Ранее я упоминал о проблеме нескольких языков, и даже двусмысленности внутри языка сложны. Создание глоссариев и синонимов, а также определение настроений посредством анализа настроений — это иногда не только искусство, но и наука. Индексирование, классификация и маркировка контента, определение того, что актуально, а что нет. Обработка естественного языка — обычно мы также имеем дело с данными большого размера.

Что мы сохраняем или не сохраняем? Сохранение важно. Как мы можем что-то забыть, если мы чему-то научились? В какой момент мы уменьшаем его ценность с течением времени? Также сложно оценить качество неструктурированного контента. Гораздо проще определить качество структурированного контента. Кроме того, конечно, безопасность, конфиденциальность, согласие и сокрытие личной информации также являются ключевыми вопросами, связанными с технологиями.

Ведущий: Можете ли вы пролить свет на автоматизацию? Автоматизация как будущее. Почему это такой ключевой аспект в этом путешествии?

Дуглас Лэйни: Посмотрите на некоторые проблемы, о которых я упоминал ранее. Большинство форм неструктурированного контента слишком объемны, чтобы их можно было вручную пометить, индексировать или извлечь, даже используя методы краудсорсинга. [Использование] нескольких людей для краудсорсинга такого рода усилий также имеет тенденцию приводить к высокой степени несогласованности. Мы посмотрим, например, как Facebook помечает сообщения, которые не соответствуют их критериям и стандартам.

То, как они это делают, вы знаете, имеет тенденцию быть непоследовательным. В этом тоже есть задержка. Итак, чтобы получать полезную информацию в режиме реального времени или почти в реальном времени из неструктурированного контента практически любого объема и скорости, вам действительно необходимо его автоматизировать.

Ведущий: Что бы вы посоветовали? Можете ли вы предложить организациям заняться [автоматизацией]? Какие выгоды они могут получить от автоматизации процесса извлечения данных?

Дуглас Лэйни: Я бы предложил начать с малого. Определите и протестируйте способы использования неструктурированного контента. Возможно, проведете несколько семинаров, чтобы определить потенциальные потоки создания ценности, которые в этом участвуют. Это то, что я постоянно делаю с клиентами — провожу семинары по выработке идей. И мы рассматриваем не только структурированный контент, но и неструктурированный контент, а затем осознаем эти проблемы и убеждаемся, что вы готовы справиться со всеми теми проблемами, которые я упомянул, с неструктурированным контентом.

Даже после того, как вы начнете пилотировать и поймете, что если вы делали это вручную в рамках пилотного проекта, масштаб, вероятно, не будет масштабироваться, степень ручных усилий не будет масштабироваться. Итак, это действительно должно заставить вас взглянуть на способы автоматизации.

Ведущий: Итак, возвращаясь к первому вопросу, который мы обсудили: данные — это валюта будущего. Каким вы видите извлечение данных в будущем?

Дуглас Лэйни: Я думаю, что мы проделали большую работу по созданию возможностей извлечения данных из структурированных данных. И я думаю, что в будущем, очевидно, из-за объема и потенциальной ценности, воплощенной в неструктурированных данных, я думаю, мы увидим, что все больше и больше организаций сделают извлечение, маркировку и классификацию неструктурированных данных основной частью своих возможностей управления данными и портфеля инструментов.

Решение для автоматического извлечения данных для современных предприятий

Astera ReportMiner — это решение корпоративного уровня для извлечения данных, которое пользователи могут использовать для упрощения и оптимизации обработки документов. Сочетая возможности автоматизации, параллельной обработки и интеллектуального извлечения данных, наша платформа без кода позволяет организациям мгновенно преобразовывать большие объемы неструктурированных данных в полезную информацию.

Доступно Astera ReportMiner, вам не придется полагаться на процессы ручного ввода данных. Вы можете автоматически загружать файлы из настроенного местоположения, а затем записывать извлеченные данные в предпочтительное место назначения. Используя наше решение, вы тратите меньше времени на извлечение данных и больше времени на их использование. Свяжитесь с нашей командой начать с Astera ReportMiner прямо сейчас

Вам также может понравиться
7 лучших инструментов агрегирования данных в 2024 году
Структура управления данными: что это такое? Важность, основные принципы и передовой опыт
Управление данными: путь к успеху и подводные камни, которых следует избегать
принимая во внимание Astera Для ваших потребностей в управлении данными?

Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.

Давайте соединимся сейчас!
давайте соединимся