Blogs

INÍCIO / Blogs / Lidando com a variabilidade de layout na extração de dados usando IA

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

Lidando com a variabilidade de layout na extração de dados usando IA

25 de maio de 2023

A extração de dados é um componente crítico dos pipelines modernos de processamento de dados. Empresas de todos os setores dependem de informações valiosas de uma variedade de documentos para otimizar seus processos e tomar decisões informadas.

Um método comumente empregado para extração de dados é a abordagem tradicional baseada em modelo. Essa técnica envolve a criação de modelos ou regras predefinidos que definem a estrutura esperada e os campos de dados nos documentos. Esses modelos instruem o sistema de extração sobre onde e como localizar e extrair os campos de dados relevantes. O sistema de extração compara o documento com esses modelos e extrai os dados de acordo.

Ao usar a extração de dados baseada em modelo tradicional, vários aspectos precisam ser considerados para garantir a recuperação perfeita de dados de tais documentos, como:

  • Inconsistências na estrutura do documento que podem atrapalhar o processo de extração.
  • A natureza demorada da criação do modelo, que exige recursos significativos.
  • O potencial de erros durante o procedimento de extração, representando um risco à precisão dos dados.
  • Problemas de escalabilidade que podem limitar a capacidade de lidar eficientemente com um volume crescente de documentos.

Máxima precisão e eficiência: o impacto da extração automatizada de dados

Se considerarmos que a criação de um modelo para uma única fatura leva aproximadamente 20 a 30 minutos e existem 20 faturas com layouts variados, seriam necessários um total de 30 * 20 = 600 minutos, equivalente a 10 horas, para concluir o processo de criação do modelo . Esse processo demorado destaca a necessidade de técnicas de extração de dados mais avançadas e eficientes para gerenciar diversos layouts de documentos.

Portanto, as empresas modernas estão explorando uma abordagem híbrida que combina a eficiência da extração de dados baseada em modelo com o poder de modelos de linguagem avançados, como o GPT da OpenAI ou outros modelos de linguagem de grande escala (LLMs) semelhantes, para simplificar o processo de extração de dados e resolver o problema de criar modelos. A integração da IA ​​generativa ao pipeline de extração de dados pode reduzir significativamente o tempo e o esforço necessários para a criação do modelo.

Isso e onde Astera ReportMiner chega. Extração de dados com tecnologia de IA em ReportMiner pode extrair dados de vários tipos de documentos com rapidez e precisão. Esse recurso permite extrair dados de ordens de compra e faturas com layouts variados sem complicações.

Caso de uso: automatização da extração de dados de pedidos de compra com Astera ReportMiner

Vamos considerar um caso de uso. A SwiftFlow Services Inc. (SFS) deve gerenciar um fluxo diário de pedidos de compra de vários fornecedores recebidos por e-mail. Todos os dias, eles recebem cerca de 10 a 20 pedidos de compra, com cada fornecedor apresentando um layout de pedido de compra exclusivo.

O SFS visa extrair campos específicos dessas ordens de compra e armazenar os dados em um banco de dados para análise posterior, como avaliar o desempenho do fornecedor, identificar oportunidades de economia de custos e otimizar o gerenciamento da cadeia de suprimentos.

A SFS queria uma solução eficiente e simplificada que pudesse extrair sem esforço as informações necessárias sem exigir a criação manual de modelos. Portanto, eles escolheram Asterasolução de extração de dados com tecnologia AI. Os usuários devem especificar apenas o tipo de documento e o layout desejado para extração, e o sistema aproveita a capacidade de criação de contexto da IA ​​para extrair as informações e gerar modelos que consistem em regiões e campos usando heurística.

A ferramenta cria modelos automaticamente para todas as fontes dentro de uma pasta no nível do projeto. Reconhecendo a importância do feedback humano, o sistema armazena todos os modelos problemáticos (RMDs) que requerem ajustes do usuário em uma pasta designada.

Após a verificação e personalização do RMD por requisitos de negócios, os usuários podem criar um fluxo de trabalho para percorrer esses RMDs e gravar os dados extraídos em um destino. Um objeto Data Quality Rules aumenta ainda mais a eficiência, garantindo que os dados extraídos obedeçam às regras de negócios especificadas, resultando em uma recuperação de dados mais rápida e precisa.

Ao simplificar e automatizar o processo de extração de dados, o SFS pode reduzir o trabalho manual, melhorar a precisão dos dados extraídos e focar em tarefas mais críticas em seu pipeline de processamento de dados. Confira este vídeo para saber mais:

Se você quiser saber mais sobre ReportMiner, entre em contato com nossa equipe de vendas para agendar uma demonstração hoje mesmo.

Você pode gostar
As 7 principais ferramentas de agregação de dados em 2024
Estrutura de governança de dados: o que é? Importância, Pilares e Melhores Práticas
Governança de dados: roteiro para o sucesso e armadilhas a evitar
Considerando Astera Para suas necessidades de gerenciamento de dados?

Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

Vamos nos conectar agora!
vamos conectar