Blogs

INÍCIO / Blogs / Verificação do modelo de dados para melhorar a qualidade do seu esquema de data warehouse

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

Verificação do modelo de dados para melhorar a qualidade do esquema de data warehouse

29 de Novembro de 2022

O que é necessário para garantir a qualidade e a robustez da implementação do data warehouse? Um sistema de verificação de modelo de dados aprofundado que permite que você verifique completamente seus modelos de origem e destino e ajude a corrigi-los antes de serem implantados. Porque se o seu esquema de data warehouse for preciso, o carregamento de dados subsequente e os processos de relatório serão automaticamente simplificados e livres de erros.

Os modelos conceituais de dados servem como a base de qualquer arquitetura de data warehouse projetada para fornecer dados confiáveis ​​para relatórios e análises. Sendo o próprio núcleo de um maquinário tão incrível (data warehouse), só faz sentido garantir que os modelos de dados, quando colocados em uso, funcionem sem problemas, sem causar erros ou interromper o processo de desenvolvimento.

Como criar um modelo de dados estável

Créditos da imagem: Geek & Poke

Mas construir modelos de dados raramente é simples. Alguns diriam que seria um sonho tornado realidade para modeladores de dados que desejam que seus modelos funcionem perfeitamente na primeira vez que os desenvolvedores os usarem para processos de carregamento de dados. Então, como você pode, como modelador, atingir esse nirvana de total confiança e segurança em seus modelos de dados e pular os longos ciclos de teste?

A resposta está em realizar verificações de validação de modelo de dados abrangentes durante o tempo de design e logo antes de serem implantados.

Vamos mergulhar profundamente no que significa verificação do modelo de dados e como isso pode impactar o cronograma geral e a qualidade de seu projeto de data warehouse.

O que torna a verificação do modelo de dados um DW essencial

Identificar esses erros do modelo de dados em tempo de design é essencial

Identificar esses erros do modelo de dados em tempo de design é essencial

Ao criar o esquema de data warehouse, os modeladores de dados precisam ter cuidado com muitos detalhes mais sutis para que seus modelos de dados funcionem sem problemas nos processos subsequentes. Para ter uma ideia, vamos dar uma olhada em duas fases principais de modelagem de dados do sistema que se beneficiariam muito com verificações de verificação adequadas.

1. Verificações de verificação em tempo de design

Os modelos de dados são criados com referência aos bancos de dados de origem e destino. Você precisa ter certeza de que seus modelos atendem a certas regras, testes estatísticos e padrões desses bancos de dados e não têm lógico erros.

De perspectiva de modelagem de dados de origem, diferentes tipos de validações de verificação envolvem a procura de incompatibilidades em nível de campo entre o modelo e o banco de dados de origem. Eles variam de diferenças em tipos de dados, índices, aliases, nomes de colunas e tabelas, até comprimentos de caracteres, nulidade de colunas, chaves primárias e campos ausentes no banco de dados.

Em essência, se as tabelas de banco de dados e o modelo de dados de origem não estiverem sincronizados, você obterá erros em um estágio muito posterior ao usar os modelos de dados para construir pipelines de dados e campos de mapeamento.

Vamos falar sobre construindo o esquema de destino, que pode ser 3NF, modelo dimensional ou cofre de dados. Por causa desta discussão, usaremos a modelagem dimensional (por causa de sua popularidade entre as massas). Exige que você configure fatos e dimensões, definindo chaves substitutas e de negócios, chaves de data de transação, Funções SCD, identificadores de linha, verificações de valor nulo e algumas outras especificações.

Vamos dar o exemplo de um Empregado dimensão. Você deseja manter o histórico de vários aspectos dos funcionários, como quando foram promovidos, a mudança nos salários, a data em que foram recrutados e deixaram a empresa, etc. Para isso, você precisará usar SCD tipo 2 ou tipo 6 Além disso, você deve garantir que as chaves comerciais e substitutas sejam atribuídas, os relacionamentos sejam estabelecidos e um identificador de linha seja definido.

Erro de chave substituta ausente

Erro de chave substituta ausente na dimensão Funcionário com contexto completo

Então, o que acontecerá se uma ou mais peças do quebra-cabeça estiverem faltando? Digamos que a chave substituta não tenha sido definida.

Quando você executa o pipeline de dados pela primeira vez, ele insere os dados normalmente. Quando Para consertar isso, os desenvolvedores de ETL terão que comunicar esse problema à equipe de modelagem de dados, que então terá que ir e encontrar aquela dimensão específica com a chave substituta ausente para consertá-la. Novamente, todo esse retrabalho seria um longo processo.

2. Verificações de verificação para garantir a conformidade com o banco de dados de destino

Depois de construir o esquema do data warehouse, a próxima etapa é repetir no banco de dados de destino. Neste ponto, você precisa garantir que o script do seu esquema está em conformidade com o provedor de banco de dados de destino, que pode ser Snowflake, Oracle, Azure ou Teradata.

Para colocar isso em perspectiva, vamos pegar o exemplo do Snowflake e como ele não usa índices. Portanto, se o seu sistema de origem for o SQL Server, que oferece suporte a todos os diferentes tipos de opções de indexação (chave primária, cluster, não clusterizado, etc.), Snowflake apresentará um erro de que a indexação não é compatível no tempo de execução.

Com um módulo de validação de modelo de dados instalado, você pode validar facilmente um modelo e testar a qualidade e integridade dos modelos de dados antes de serem implantados no banco de dados de destino ou usados ​​para preencher o data warehouse. Isso economiza muitas horas de desenvolvimento para as equipes que, de outra forma, seriam gastas refazendo o design do modelo de dados e reconstruindo os pipelines de dados.

Sua equipe de modelagem de dados precisa de um sistema de verificação?

Certamente que sim.

Vamos falar sobre os benefícios absolutos que as equipes de data warehouse desfrutam com a implementação de um sistema de verificação de modelo de dados competente.

Identifica onde estão exatamente os erros e avisos

Considere que você tem cerca de 60 tabelas em seu banco de dados OLTP a partir das quais criou um modelo de dados de origem. Algumas tabelas podem ter bem mais de 30 campos. Agora, quando você está tentando carregar dados nessas tabelas, seu provedor de banco de dados apresenta o erro de que certos tipos de dados e comprimentos de caracteres não são suportados e devem ser alterados. É provável que você e seus colegas modeladores de dados tenham que gastar horas a fio para vasculhar os modelos, verificar cada entidade e corrigir todos esses erros.

Alguns erros comuns em modelos de dadosAlguns erros comuns em modelos de dados

Ter uma ferramenta de verificação de modelo de dados ajuda a identificar todos os erros e avisos instantaneamente e fornece um contexto completo de onde eles estão. Ele praticamente elimina as suposições de testar seus modelos de dados e direciona você exatamente para onde você precisa executar correções em seu esquema com um processo iterativo.

Salva ao voltar e avançar entre as equipes

Créditos da imagem: Blog de Rich Murnane

Em uma configuração típica, os projetos de data warehouse têm várias equipes lidando com vários aspectos do data warehouse. Haverá modeladores de dados, DBAs, desenvolvedores de ETL, arquitetos de dados e vários outros.

A equipe de modelagem de dados trabalha com os usuários de negócios para determinar suas necessidades de relatórios, consulta os DBAs para obter as especificações do provedor, cria e implanta os modelos e, finalmente, dá o sinal verde aos desenvolvedores de ETL para começar a criar pipelines para carregar dados.

Agora, mesmo com uma ferramenta de armazenamento de dados, é um processo que exige muita mão-de-obra. Mas os erros geralmente não aparecem até que você alcance o ponto de execução de pipelines de dados para preencher o data warehouse.

Um sistema de verificação de modelo de dados em profundidade evita que os usuários voltem à linha de partida, façam alterações no modelo de dados, entreguem-no para a próxima equipe e, em seguida, executem os fluxos de carregamento de dados para verificar se funciona bem. Fazendo as correções conforme projeta os modelos de dados, você pode agilizar o processo drasticamente, acelerando todo o ciclo de desenvolvimento em horas, se não em dias ou semanas.

Garante conformidade com as regras de script do provedor de banco de dados

Digamos que seu banco de dados OLTP esteja no SQL Server e você esteja construindo o data warehouse no Oracle. Ao implantar seu esquema em um banco de dados Oracle, é provável que você encontre problemas com restrições em tipos de dados e comprimentos e escala de caracteres, pois os dois provedores lidam com esses parâmetros de maneira diferente. Da mesma forma, você pode obter um erro ao ter um índice clusterizado em seu modelo de destino, o que, novamente, o Oracle não oferece suporte.

Com um sistema de verificação de modelo de dados instalado, você pode resolver facilmente esses problemas de conformidade antes de implantar o esquema no banco de dados Oracle. Isso economiza, tanto para modeladores de dados quanto para desenvolvedores de ETL, muitas horas de retrabalho de desenvolvimento que, de outra forma, seria necessário para identificar os problemas e resolvê-los em cada entidade de modelo de dados.

Acelera o processo geral de armazenamento de dados

“Cara, se ao menos houvesse um sistema para testar esses modelos de dados e me notificasse de seus erros imediatamente, teríamos economizado toneladas de horas de desenvolvimento para corrigi-los novamente.”

~ Modelador de dados anônimo e desejoso

Um sistema de verificação de modelo de dados eficaz pode ser o Santo Graal para as equipes de armazenamento de dados, pois executa centenas de verificações no momento do design e no momento da implantação para garantir que seus modelos de dados sejam estáveis. Ele permite testar a integridade e precisão dos modelos com base nos requisitos de relatório e garante que ele atenda aos padrões de script do respectivo provedor de banco de dados.

Com tudo em ordem antes que os modelos de dados sejam implantados e entregues à próxima equipe, as organizações podem se beneficiar de economias de tempo significativas, levando a um cronograma de projeto reduzido.

Aproveite a verificação do modelo de dados com um clique com Astera Construtor de DW

A discussão acima mostra que um sistema de verificação de modelo de dados é um núcleo vital para o processo de modelagem de dados e ajuda a otimizar os processos em todo o ciclo de vida do data warehouse.

Astera Construtor de DW é uma solução ágil orientada por metadados que permite projetar, implantar e testar modelos de dados e utilizá-los para construir pipelines de carregamento de dados, tudo a partir de uma única plataforma. Ele vem com um módulo de verificação de modelo de dados aprofundado que fica de guarda no momento da implantação e garante que nenhum erro ou aviso passe sem ser verificado pelo usuário.

Com apenas um clique, a plataforma fornece automaticamente uma imagem da integridade de seus modelos de dados. Da verificação de chaves de negócios ausentes, anomalias de relacionamento e tipos de dados incompatíveis para garantir a conformidade com os padrões de script do banco de dados de destino, você pode contar com Astera DW Builder para identificar e relatar todos os erros e avisos possíveis. Isso garante que seus modelos de dados estejam estáveis ​​e completos antes de passar para a próxima fase do projeto.

Intrigado e quer ver como você pode validar seus modelos de dados e agilizar todo o processo de armazenamento de dados? Verificação de saída a demonstração do produto, ou dê uma volta para ver por si mesmo com um Teste gratuito do dia 14.

 

Você pode gostar
As 7 principais ferramentas de agregação de dados em 2024
Estrutura de governança de dados: o que é? Importância, Pilares e Melhores Práticas
As melhores ferramentas de ingestão de dados em 2024
Considerando Astera Para suas necessidades de gerenciamento de dados?

Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

Vamos nos conectar agora!
vamos conectar