Blogs

INÍCIO / Blogs / Ingira dados atualizados em seu data warehouse quase em tempo real com o CDC

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

Ingerir dados atualizados em seu data warehouse quase em tempo real com o CDC

Março 8th, 2022

Cansado de lidar com dados redundantes em seu data warehouse? Carregue dados de forma incremental usando o change data capture para preencher seu data warehouse rapidamente, sem se preocupar com dados redundantes ou imprecisos. 

 

Já se foram os dias em que as empresas podiam se dar ao luxo de analisar seus dados no final de cada semana - ou mesmo todos os meses. O cenário de negócios em rápida evolução de hoje tornou necessário que as organizações usem data warehouses para processar e consultar seus dados quase em tempo real, a fim de extrair percepções rápidas e tomar decisões de negócios imediatas.

A necessidade de um tempo de percepção mais rápido significa que os dados geralmente precisam ser capturados diretamente dos sistemas transacionais à medida que são recebidos. Dito isso, mover bancos de dados inteiros sempre que precisar realizar análises em seus dados está fora de questão. Isso ocorre porque a cópia de todos os seus dados para cada consulta pode consumir muitos recursos e causar atrasos desnecessários, especialmente quando o banco de dados contém milhões de registros.extraia insights de dados rapidamente com a captura de dados alterados

Quando você precisa processar dados rapidamente, é importante copiar ou migrar apenas dados novos ou modificados para seu data warehouse. A tecnologia Change Data Capture (CDC) pode ajudá-lo a conseguir isso identificando alterações em seu conjunto de dados de origem, capturando essas alterações em tabelas de alterações temporárias e entregando-as ao data warehouse para relatórios e análises.

Por que os dados não podem ser analisados ​​e consultados no sistema de origem?

É importante replicar dados antes de analisá-los ou consultá-los por alguns motivos.

Os dados são geralmente armazenados inicialmente em bancos de dados transacionais. Como esses bancos de dados são operacionais por natureza e não foram criados especificamente para fins analíticos, pode levar um tempo considerável para consultar os dados diretamente neles, especialmente ao lidar com grandes volumes de dados.

Além do mais, esses bancos de dados operacionais também estão em uso regularmente, o que significa que consultar ou analisar diretamente na tabela de origem pode causar problemas relacionados ao fluxo de dados. No caso de os dados nesses bancos de dados serem transformados ou manipulados diretamente na fonte, provavelmente não haverá como reverter para a versão original dos dados. A realização de análises no banco de dados transacional de origem enquanto novos dados são inseridos nesses bancos de dados também pode causar interrupções e afetar potencialmente a qualidade dos insights que você extrairá.consultar dados na fonte pode afetar a velocidade

Ao replicar os dados de bancos de dados transacionais para analíticos, você pode reduzir o tempo para obtenção de valor processando dados em um sistema dedicado para consultas complexas e manter a originalidade dos dados de origem. O Change Data Capture facilita ainda mais o processamento de dados rápido e conveniente, replicando apenas os dados que ainda não estão disponíveis no banco de dados de destino.

Ao usar o CDC, você também não precisa esperar até ter uma quantidade significativa de novos dados em seu banco de dados de origem, uma vez que os dados não são transferidos em lotes. Em vez disso, você pode criar, agendar e orquestrar seus pipelines de dados para garantir que apenas dados novos ou modificados sejam migrados da origem para o destino assim que a mudança ocorrer, acelerando consideravelmente todo o processo de migração.

Como o Change Data Capture agiliza sua análise

Suponha que sua organização multinacional lide com milhares de clientes em várias localizações geográficas. Quando sua rede é tão vasta, você certamente precisa manter um banco de dados com as informações de contato de todos esses clientes e armazenar suas informações em um repositório centralizado para fácil acessibilidade. A menor alteração nas informações de até mesmo um único desses clientes precisa ser propagada para seu data warehouse para garantir que ele continue a servir como uma única fonte de verdade.

Copiar os dados de milhares de clientes apenas para propagar uma alteração em um registro exigirá muitos recursos e pode causar atrasos desnecessários na análise. Com o Change Data Capture, você pode garantir que apenas as novas informações sejam movidas do banco de dados de origem para o data warehouse, para que seus insights sejam baseados em dados precisos e atualizados.

Um dos maiores benefícios de usar o CDC para identificar, capturar e entregar alterações de seus sistemas de origem para seu data warehouse ou bancos de dados analíticos é a eficiência de recursos de todo o processo. Ele evita que você execute consultas de alta carga periodicamente. Para o seu negócio, isso se traduz diretamente em tempos de carregamento reduzidos e tempo de percepção mais rápido para uma melhor tomada de decisão.Simplifique a análise de dados com a captura de dados alterados

Com o Change Data Capture, você também pode escalar sem se preocupar com a falta de integridade ou integridade dos dados, pois o CDC garante que seu repositório central seja sempre preenchido com os dados corretos, sem atrasos.

Usar o CDC também garante que seus recursos não sejam sufocados em determinados momentos do dia ou da semana porque, em vez de carregar dados em seu data warehouse em grandes lotes e consultar grandes volumes de dados de uma só vez, você pode fazer isso como e quando é recebido. Como o processo não requer muitos recursos, você também pode economizar nos gastos com hardware específico para manter o processo de carregamento de dados em andamento.

Tipos de CDC

Existem algumas maneiras diferentes nas quais você pode implementar o CDC em seu data warehouse. Vamos dar uma olhada em cada um deles:

Captura de dados de alteração baseada em log

O Change Data Capture baseado em log é uma maneira confiável de garantir que as alterações no sistema de origem sejam transmitidas ao data warehouse. No CDC baseado em log, um log de transações é criado no qual todas as alterações, incluindo inserções, exclusões e modificações nos dados já presentes no sistema de origem, são registradas. Os dados na origem são comparados aos dados no log de transações para ver se há alguma mudança que precisa ser propagada para o data warehouse.

O cdc transacional envolve a criação de um log de transações de todas as mudanças e novos dados em seu banco de dados de origem

Os logs criados neste tipo de CDC também garantem que as transações normais no sistema de origem não sejam afetadas pelo processamento contínuo dos dados diretamente na origem. Este processo reduz a latência e pode ajudá-lo a criar um repositório centralizado sem sobrecarregar seus sistemas com processamento adicional para acompanhar quaisquer mudanças transacionais.

Captura de dados de mudança baseada em gatilho

Este tipo de Change Data Capture envolve a criação de funções específicas para capturar as alterações à medida que ocorrem no banco de dados de origem. Por exemplo, um gatilho AFTER DELETE SQL irá capturar o instância do seu banco de dados depois que um registro foi excluído.

Ao usar o CDC baseado em acionador, seu banco de dados criará outra tabela para registrar as alterações, além de manter um log transacional. Isso pode não apenas aumentar a latência, mas também aumentar o risco de perder algumas alterações caso os gatilhos não sejam definidos corretamente para determinados cenários ou se os gatilhos forem desligados acidentalmente.

Manter um conjunto adicional de alterações baseadas em gatilhos também coloca uma carga extra na arquitetura e pode consumir muitos recursos, caso você esteja lidando com grandes volumes de dados ou registrando alterações em várias tabelas simultaneamente.

Como esse geralmente é o cenário com grandes organizações, talvez seja necessário testar o CDC baseado em gatilhos fazendo algumas alterações em um banco de dados menor e ver se a latência e a carga são algo com que você pode trabalhar a longo prazo. Dito isso, o CDC baseado em gatilho é particularmente útil em arquiteturas baseadas em eventos, em que é absolutamente necessário atualizar o data warehouse quando certas alterações são feitas no banco de dados de origem.

Captura de dados de alteração baseada em provedor

Para a captura de dados alterados baseada em provedor, os scripts são disponibilizados por provedores de banco de dados para monitorar um ou mais campos de uma tabela de banco de dados. Esses scripts podem então identificar e registrar quaisquer alterações na tabela. Como o CDC baseado em acionador, o Change Data Capture baseado em provedor também envolve a recuperação de dados do banco de dados de origem conforme as alterações são feitas, colocando, portanto, alguma carga adicional no sistema.

Otimize sua arquitetura analítica com o Change Data Capture

Capturar mudanças em seus sistemas de origem e propagá-las para seu data warehouse é essencial para garantir que você possa extrair percepções rápidas e precisas. Com Astera Com o componente CDC integrado do DW Builder, você pode criar pipelines de dados elaborados e copiar todos os dados novos e modificados para seu data warehouse sem digitar uma única linha de código.

Astera O DW Builder vem completo com centenas de transformações integradas para maximizar o valor que você pode extrair de seus dados. Automatize seus pipelines de dados e aproveite os recursos integrados, como Change Data Capture, para garantir que seu data warehouse esteja sempre atualizado, sem qualquer intervenção manual.

Pronto para construir um data warehouse autorregulado que entrega dados atualizados para sua arquitetura de BI e relatórios quase em tempo real? Entre em contato para discutir seu caso de uso ou levar Astera DW Builder para um test drive hoje!

Você pode gostar
As 7 principais ferramentas de agregação de dados em 2024
Estrutura de governança de dados: o que é? Importância, Pilares e Melhores Práticas
As melhores ferramentas de ingestão de dados em 2024
Considerando Astera Para suas necessidades de gerenciamento de dados?

Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

Vamos nos conectar agora!
vamos conectar