Usos da construção de um Data Warehouse SCD em Astera Construtor de DW
Um SCD Data Warehouse é o ponto crucial para rastrear mudanças nos dados. A mudança está sempre presente em todos os negócios. Do ponto de vista de RH, os funcionários são promovidos e ganham novos títulos, enquanto as apólices de remuneração e de seguro são reescritas a cada ano que passa. Em Marketing, as linhas de produtos são renomeadas, mescladas ou lançadas com grande alarde. Em Vendas, novos clientes chegam e contas-chave são transferidas de um agente para outro.
A questão é: seus relatórios dão conta dessa evolução constante? Sua arquitetura de BI foi construída para fornecer uma visão atual e histórica de seus dados ou você obtém apenas instantâneos periódicos de cada sistema de origem?
Para alguém que está construindo um data warehouse, a melhor maneira de lidar com a mudança de atributos é por meio dimensões que mudam lentamente. Dimensões que mudam lentamente em um data warehouse armazenam informações atuais e anteriores ao longo do tempo. Essas tabelas refletem as alterações conforme elas ocorrem nos atributos selecionados em cada dimensão. Dependendo de seus requisitos, eles podem substituir entradas existentes ou criar campos adicionais para mostrar versões anteriores de um registro.
AsteraNovo construtor de data warehouse (ADWB) fornece um designer de modelo de dados completo que torna mais fácil configurar suas tabelas de dimensão e atribuir diferentes Tipos SCD aos atributos selecionados. Vamos dar uma olhada em alguns dos casos de uso que nosso produto pode ajudá-lo a enfrentar.
Corrigindo Registros Errôneos em um Data Warehouse SCD
Qualquer sistema de origem que dependa da entrada manual de dados está sujeito a erro humano. De nomes e endereços a cotações e estimativas, existem vários registros em seus sistemas de origem que podem precisar ser corrigidos para precisão. Nesses casos, manter uma versão anterior de um registro no data warehouse apenas adicionaria uma complexidade inútil aos seus dados. A melhor solução é tratar as entradas nesses campos como atributos SCD-1, onde os valores atuais sobrescrevem os dados anteriores.
Digamos que você tenha usado o DWB para projetar um modelo dimensional de seu sistema de vendas e tenha notado alguns nomes de clientes incorretos no último lote de atualizações. Basta abrir a dimensão Cliente no designer do modelo de dados e definir o Nome do Cliente como SCD1 - Atualizar no menu suspenso.
Agora, quando as correções forem feitas no banco de dados de origem, o registro correspondente será atualizado no data warehouse, conforme mostrado a seguir. Isso é chamado de dimensão tipo 1 em um data warehouse.
Tabela de dimensão do cliente antes da correção
Tabela de dimensão do cliente com SCD1 aplicado ao campo Nome do cliente
Comparação de dados atuais versus passados em um data warehouse dimensional
Uma das principais funções do data warehouse empresarial é o suporte à análise estratégica de longo prazo, que exige que as alterações em um atributo sejam preservadas e rastreadas ao longo do tempo.
Digamos que sua empresa recentemente fundiu várias filiais distritais e criou novas regiões para seus pontos de venda. Se quiser acompanhar como o desempenho das vendas é afetado pela reorganização, você pode tratar o campo Distrito como uma dimensão de tipo 2 que muda lentamente. Isso garantirá que as mudanças nos distritos de armazenamento sejam mostradas como novos registros na tabela.
No DWB, você pode aplicar a opção SCD2 - Atualizar e Inserir para o campo Distrito na tabela de dimensão Loja. Conforme as alterações são feitas no atributo de origem, novas versões do registro seriam criadas e inseridas na tabela de dimensão, com uma chave substituta exclusiva atribuída a cada uma. Com base no tipo de análise que a empresa deseja realizar, você também pode selecionar as opções Data Efetiva e Data de Expiração para que qualquer alteração nas regiões da loja possa ser rastreada para um período específico.
A tabela abaixo ilustra como essas configurações afetariam a saída de sua tabela de dimensões.
Mesa Existente
Tabela Atualizada - SCD2 (Data de Vigência e Data de Expiração)
Rastreando Mudanças de Status
Certos departamentos, como o RH, esperam mudanças frequentes nos registros em seus sistemas. Por exemplo, a designação de um funcionário pode mudar várias vezes por ano. Nesses casos, as empresas geralmente querem poder manter o histórico de dados enquanto ainda podem consultá-lo rapidamente com base no valor de atributo mais atual.
No DWB, você pode escolher lidar com essa situação configurando o Cargo como um campo SCD6. Isso significa que a tabela usaria elementos de SCD1, SCD2 e SCD3 para registrar as alterações neste atributo. Esses elementos são os seguintes:
- Uma linha é adicionada para rastrear as mudanças no atributo conforme elas ocorrem (SCD2)
- Uma coluna adicional mostra o valor atual do atributo (SCD3)
- O campo de valor atual será sobrescrito para mostrar o valor de atributo atualizado (SCD1)
O exemplo abaixo mostra como as alterações no campo Job_Title apareceriam se o SCD6 fosse implementado.
Tabela Atual
Tabela Atualizada - SCD6 (Sinalizador Ativo, Data Efetiva e Data de Expiração)
Automatize seu data warehouse empresarial SCD
AsteraO Data Warehouse Builder baseado em metadados pode ajudá-lo a projetar, construir e implantar seu projeto de data warehouse em poucos dias. Com uma gama completa de recursos de modelagem dimensional e uma plataforma ETL robusta para acelerar o mapeamento, carregamento e preparação de dados, oferecemos a você uma plataforma única com todas as ferramentas de que você precisa para tornar sua implementação de EDW um sucesso.
Dê uma olhada em como nosso produto pode ajudá-lo a resolver seu caso de uso hoje. Clique aqui para entrar em contato com nossa equipe técnica.
Existem seis tipos de dimensões de mudança lenta (SCD):
- Tipo 0 ou dimensão fixa: Nesta dimensão fixa, nenhuma alteração é permitida, pois a dimensão nunca muda
- Digite 1 ou sem histórico: Os registros são atualizados diretamente sem registros de valores históricos neste tipo.
- Tipo 2 ou controle de versão de linha: Novos registros adicionais podem ser criados neste tipo e os registros alterados podem ser rastreados com sinalizadores e dados operacionais.
- Tipo 3 ou coluna Valor anterior: Uma nova coluna pode ser adicionada neste tipo e as alterações podem ser rastreadas para um atributo específico.
- Tipo 4 ou Tabela de histórico: Ele usa uma tabela histórica para registrar todas as mudanças enquanto mostra o valor atual em uma tabela dimensional.
- Tipo 6 ou SCD híbrido: Ele combina técnicas de SCD (Slowly Changing Dimension) Tipos 1, 2 e 3 para rastrear a mudança
Alguns dos exemplos comuns de SCD e casos de uso em data warehouse são:
- Reparando Registros Errados
- Comparando o atual vs. Dados anteriores
- Rastreando Mudanças de Status