Blogs

Home page / Blogs / Sessão de perguntas e respostas ao vivo com Douglas Laney sobre automação de extração de dados

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

Sessão de perguntas e respostas ao vivo com Douglas Laney sobre automação de extração de dados

Ammar Ali

Gerenciador de conteúdo

20 de Dezembro de 2023

A automação está transformando o cenário corporativo moderno, ajudando as empresas a se tornarem mais rápidas e melhorarem o desempenho. Não é surpresa que se espere que o mercado global de inteligência artificial (IA) quebrar a marca de US $ 500 bilhões em 2023. A IA detém o poder de revolucionar a eficiência dos negócios e já é hora de as organizações ainda confiarem em métodos manuais e arcaicos para processar documentos.

Em nosso recente webinar, tivemos o privilégio de falar com Douglas Laney. Com 35 anos de experiência no setor, o Sr. Laney é um dos principais especialistas em dados e análises. Atualmente, ele atua como Data and Analytics Strategy Innovation Fellow em West Monroe, onde presta consultoria a líderes de negócios na concepção e implementação de novos fluxos de valor orientados por dados.

Douglas Laney atuou anteriormente como vice-presidente e analista de vice-presidente distinto do Gartner e recebeu três vezes o prêmio de liderança de pensamento do Gartner. Ele também originou o “Campo da Infonomia”, desenvolvendo métodos para quantificar o valor econômico da informação e aplicar práticas de gerenciamento de ativos aos ativos de informação.

No webinar, conversamos com o Sr. Laney para obter insights mais profundos sobre os principais impulsionadores de valor que tornam extração de dados de documento não estruturado fontes uma tarefa vital e como isso pode ajudar a simplificar o processamento de documentos.

Anfitrião: As organizações modernas estão produzindo cada vez mais dados com o tempo. Tem sido repetidamente afirmado que os dados são a moeda do futuro, então o que você pensa sobre isso? Que valor os dados trazem para uma empresa?

Douglas Lany: Esta é uma boa pergunta! Você sabe, curiosamente, a informação sempre foi uma espécie de moeda. Os reis pagavam caro por informações, por exemplo, sobre os movimentos das tropas de seus inimigos. Até mesmo o termo business intelligence foi cunhado há quase um século e meio por Richard Devins e Sinclair Hamilton em seu livro de 1865, The Encyclopedia of Commercial and Business Anecdotes, no qual relatam como um cavalheiro chamado Sir Henry Furness foi recompensado generosamente, inclusive sendo dado um anel de diamante pelo rei William por trazer-lhe as notícias sobre as batalhas em toda a Holanda e Flandres e França. As primeiras agências de crédito foram pagas pelos bancos no início de 1900 para compilar informações e anedotas sobre as propensões de pagamento dos empresários.

Hoje, no entanto, nós realmente levamos isso para o próximo nível. Codificando e automatizando, e até mesmo regendo a prática de coleta e monetização de dados. Penso na analogia entre dados e moeda, onde fica aquém em algumas das qualidades econômicas únicas dos dados. Depois de gastar um dólar ou um euro, você não pode mais gastá-lo novamente. Você só pode gastá-lo de uma maneira de cada vez. Os dados, por outro lado, são mais o que os economistas chamam de ativo de risco não-esgotável e não-rival. Você pode gastá-lo várias vezes sem que se acabe. Você pode gastá-lo ou usá-lo de várias maneiras simultaneamente. Portanto, as empresas que capitalizaram essas características dos dados são realmente as que estão ganhando na economia digital de hoje.

Anfitrião: Você diria que os dados desempenham um papel fundamental no processo de produção?

Douglas Lany: Sim! Na verdade, cheguei à conclusão de que os dados são o quinto fator de produção. Você sabe, os economistas na virada do século passado [acho que naquela época] identificaram quatro fatores-chave de produção; terra, trabalho, capital e empreendedorismo, e cada vez mais os dados tornaram-se até mesmo um substituto para quase todos esses [fatores].

Por exemplo, os fabricantes não precisam mais de grandes armazéns porque os sistemas de gerenciamento de estoque just-in-time substituem as informações da cadeia de suprimentos por estoque no local e, é claro, vimos dados e análises substituirem a análise de números e outros trabalhadores do conhecimento, e hoje as empresas estão pagando por bens e serviços usando dados.

Então, considere sua própria experiência no supermercado. Dados e análises são usados ​​até mesmo para criar novos modelos de negócios, produtos, medicamentos, etc. Então, eu defendo que os dados devem ser considerados o quinto fator de produção.

Anfitrião: Sabemos que muitos dos dados que as empresas e organizações recebem estão em um formato não estruturado. Por que esses dados não estruturados tendem a ser subutilizados em comparação com os dados estruturados?

Douglas Lany: Acho que só porque é desestruturado. Dados não estruturados é encontrado em documentos como PDFs, e-mails, mídias sociais e multimídia. São apenas dados que não estão organizados em pequenas linhas e colunas organizadas. Dados não estruturados precisam ser processados ​​para extrair informações e insights discretos. Costumo dizer que conteúdo não estruturado só pode ser compartilhado, editado e lido até que você realmente extraia ou adicione um certo tipo de valor ou estrutura a ele.

Há muita carne lá, e por causa de caprichos e nuances e coisas como linguagem e semântica, esse tipo de marcação de dados não estruturados ou extração é difícil de fazer, muito menos fazê-lo de forma eficiente e consistente. No entanto, como as pessoas dizem que entre 80 e 90 dos dados hoje não são estruturados, acho que é um território realmente fértil para quem busca obter uma vantagem competitiva.

Voltando algumas décadas atrás, criei o conceito dos três V's de big data: volume, velocidade e variedade. Portanto, também costumamos falar sobre dados não estruturados com um volume significativo. Bem, é claro, por sua natureza, mas também possui uma grande variedade de fontes de dados que não são estruturadas para qualquer organização.

Anfitrião: Estabelecemos que cerca de 90% dos dados corporativos são, como você disse, não estruturados. Você tem alguns insights sobre como as organizações podem integrar esses dados não estruturados em seus pipelines de dados e data warehouses existentes?

Douglas Lany: Sim. Você sabe que não basta colocar conteúdo não estruturado diretamente em nossos data warehouses ou data lakes. Sugiro que primeiro você realmente precise extrair dados desse conteúdo ou marcá-lo e vinculá-lo de alguma forma que o torne consultável. Até mesmo vincular conceitos entre partes de conteúdo para criar um gráfico de conhecimento provou fornecer benefícios para algumas organizações, especialmente aquelas que procuram fazer coisas como identificar comportamentos fraudulentos ou maus atores.

Anfitrião: Sabemos que documentos não estruturados têm um valor enorme. Quais são os exemplos de dados não estruturados sendo usados ​​para gerar fluxos de valor inovadores para as organizações?

Douglas Lany: Sim. [Aqui está um exemplo]. Esta companhia de seguros percebeu que estava em um arquivo de relatórios de peritos. Assim, alguém envia uma reclamação, a companhia de seguros investiga essa reclamação, o investigador escreve um relatório e esse relatório é usado para processar uma reclamação individual.

Mas o que eles perceberam foi que poderiam explorar o conteúdo desses relatórios de avaliadores para identificar a propensão ou indicações de linguagem fraudulenta que foi usada, ou omissões ou inconsistências. Quando eles implantaram esse algoritmo de mineração de texto contra esses dados, eles conseguiram sub-rogar ou recuperar milhões de dólares de reivindicações fraudulentas pagas anteriormente e também inserir esse modelo em seu sistema de processamento de reivindicações.

Outro exemplo é a fabricante Lockheed Martin, que fabrica caças e outros tipos de equipamentos militares. Eles pegaram uma ideia que eu lhes dei para identificar os principais indicadores de problemas do projeto, como escopo, orçamento ou pessoal, ou problemas relacionados à tecnologia, explorando as comunicações do projeto para o pessoal dos projetos, em vez de apenas usar o antigo método de relatório de status.

Eles estavam procurando por indicadores importantes de problemas do projeto e, ao fazê-lo, acabaram adicionando três vezes mais previsão aos problemas do projeto do que antes e estão economizando centenas de milhões de dólares em custos excedentes. Também aprendi ontem ao falar com um consultor na Ucrânia como eles estão usando o reconhecimento facial para identificar sabotadores e usando mapas e imagens de satélite para ajudar a identificar e divulgar a cadeia de suprimentos em constante mudança e as rotas de evacuação.

Anfitrião: Já que estamos falando sobre o uso desses dados não estruturados, você pode nos contar alguns problemas comuns que as organizações enfrentam ao extrair os dados dessas fontes não estruturadas?

Douglas Lany: Ótima pergunta! É ótimo estar ciente disso e ficar na frente dessas questões. Mencionei antes o problema com vários idiomas, e até mesmo ambiguidades dentro de um idioma são difíceis. Criar glossários e sinônimos e identificar sentimentos por meio de análises de sentimentos é, às vezes, tanto uma arte quanto uma ciência. Indexação e classificação e marcação de conteúdo, determinando o que é relevante ou não. Processamento de linguagem natural — também estamos lidando com dados de grande tamanho, normalmente.

O que retemos ou não retemos? A retenção é importante. Como podemos esquecer algo se aprendemos alguma coisa? Em que ponto diminuímos seu valor ao longo do tempo? Também é difícil avaliar a qualidade do conteúdo não estruturado. É muito mais fácil determinar a qualidade do conteúdo estruturado. Então, é claro, segurança, privacidade, consentimento e mascaramento de informações de identificação pessoal também são questões importantes relacionadas à tecnologia.

Anfitrião: Você pode lançar alguma luz sobre a automação? Automação como o futuro. Por que é uma faceta tão importante nesta jornada?

Douglas Lany: Veja alguns dos desafios que mencionei antes. A maioria das formas de conteúdo não estruturado é muito volumosa para marcar ou indexar manualmente ou extrair, mesmo usando métodos de crowdsourcing. [Usar] vários humanos para fazer crowdsourcing desse tipo de esforço também tende a resultar em um alto grau de inconsistência. Analisamos, por exemplo, como o Facebook marca as postagens que não atendem aos seus critérios e padrões.

A maneira como eles fazem isso é, você sabe, isso tende a ser inconsistente. Há também uma latência em fazer isso também. Portanto, para obter insights úteis em tempo real ou quase em tempo real a partir de conteúdo não estruturado de quase qualquer volume ou velocidade, você realmente precisa automatizá-lo

Anfitrião: O que você diria como conselho? Você sugeriria que as organizações aderissem [com automação]? Que benefícios eles podem obter ao automatizar seu processo de extração?

Douglas Lany: Eu sugeriria começar pequeno. Identifique e pilote maneiras de aproveitar o conteúdo não estruturado. Talvez faça alguns workshops para identificar os potenciais fluxos de valor envolvidos nisso. Isso é algo que eu faço com os clientes o tempo todo – fazer esses workshops de ideação. E estamos analisando não apenas o conteúdo estruturado, mas também o conteúdo não estruturado, e então esteja ciente desses desafios e certifique-se de estar preparado para lidar com todos os desafios que mencionei com conteúdo não estruturado.

Mesmo depois de pilotar e perceber que se você fez isso manualmente como parte do piloto, provavelmente não será dimensionado, esse grau de esforço manual não será dimensionado. Então, isso realmente deve obrigá-lo a olhar para maneiras de automatizar.

Anfitrião: Então, voltando à primeira coisa que discutimos, [que] os dados são a moeda do futuro. Onde você vê a extração de dados no futuro?

Douglas Lany: Acho que fizemos um ótimo trabalho ao criar recursos de extração de dados para ativos de dados estruturados. E acho que no futuro, obviamente, por causa do volume e do valor potencial incorporado em dados não estruturados, acho que começaremos a ver cada vez mais organizações tornando a extração, marcação e classificação de dados não estruturados uma parte essencial de seus recursos de gerenciamento de dados e portfólio de ferramentas.

Uma solução de extração de dados automatizada para empresas modernas

Astera ReportMiner é uma solução de extração de dados de nível empresarial que os usuários podem usar para simplificar e agilizar o processamento de documentos. Combinando o poder da automação, processamento paralelo e extração inteligente de dados, nossa plataforma sem código torna mais fácil para as organizações transformarem instantaneamente um grande volume de dados não estruturados em insights acionáveis.

Com o Astera ReportMiner, você não precisa depender de processos manuais de entrada de dados. Você pode carregar arquivos automaticamente de um local configurado e, em seguida, gravar os dados extraídos em um destino preferencial. Usando nossa solução, você gasta menos tempo na extração de dados e mais tempo usando-os. Entre em contato com nossa equipe para começar com Astera ReportMiner hoje mesmo.

Você pode gostar
Governança da Informação vs. Governança de Dados: Uma Análise Comparativa
Estrutura de qualidade de dados: o que é e como implementá-la
Considerando Astera Para suas necessidades de gerenciamento de dados?

Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

Vamos nos conectar agora!
vamos conectar