Blogs

Home page / Blogs / Comece o desenvolvimento de data warehouse com modelagem automatizada de dados corporativos

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

Impulsione o desenvolvimento de data warehouse com modelagem automatizada de dados corporativos

Julho 25th, 2022

E se você pudesse combinar o design e o desenvolvimento de data warehouse em um processo automatizado e contínuo que levasse você de relatórios básicos a análises avançadas de alto nível em apenas algumas semanas? Bem, acerte o processo de modelagem de dados e você poderá criar uma arquitetura de BI rápida, escalável e ágil. Continue lendo para ter uma visão interna de como fazer o desenvolvimento de modelos de dados corporativos funcionar para seus negócios.

Em sua essência, os data warehouses são construídos para responder a perguntas de negócios. Isso pode variar de simples consultas descritivas focadas na geração de relatórios periódicos a análises muito mais ambiciosas voltadas para a investigação de fatores por trás de um cenário para gerenciamento de dados eficaz. Para obter esse tipo de inteligência direcionada de seu sistema de BI, você deve garantir que os requisitos do usuário estejam intimamente interligados com os conceitos de negócios durante a fase de desenvolvimento do data warehouse.

A melhor maneira de conectar os objetivos do usuário final à sua arquitetura de dados é colocar a modelagem de dados corporativos na frente e no centro de seu data warehouse. Esses esquemas são diagramas de relacionamento de entidade visualizados e constituem sistemas de origem, organizando-os em uma estrutura otimizada adequada para consultas rápidas e usabilidade. Mais importante, eles mostram a lógica de negócios subjacente por trás de diferentes processos operacionais em um formato imediatamente compreensível para usuários não técnicos e desenvolvedores.

Se projetado corretamente, os benefícios de um modelo de dados corporativos podem ser percebidos para todo o seu data warehouse. Eles o ajudarão a identificar de onde os dados críticos precisam ser recuperados, as plataformas que podem oferecer melhor suporte ao seu modelo de dados físicos e banco de dados e como os pipelines de dados fluirão da origem ao destino.

Vamos dar uma olhada em algumas técnicas fundamentais de modelagem de dados que são essenciais para esse processo.

Comece na fonte

Modelos de dados em ADWBReplique seus sistemas de origem com precisão e você pode acabar com um esquema parecido com este

A primeira coisa que você precisa garantir durante a modelagem do esquema é que você pode replicar os sistemas de origem no nível lógico com precisão.

Para fazer isso, você deve identificar onde residem seus dados críticos - em um banco de dados local, um data lake em nuvem ou em uma plataforma de CRM como o Salesforce? Claro, apenas tabelas específicas dentro desses aplicativos serão relevantes para fins de BI. Se você já criou relatórios em seus sistemas transacionais, terá uma boa ideia sobre quais conjuntos de dados precisam ser integrados em seu data warehouse. Em última análise, você deseja ter certeza de que é capaz de executar todas as mesmas consultas de antes, sem interrupção.

Crie uma estrutura de metadados padronizada

Arquitetura de modelo de dados

À medida que você cria modelos de dados lógicos corporativos para abranger todas as suas fontes, metadados deve ser aplicado de forma consistente em cada um.

Na fase de design, você deseja:

  • Estabeleça relações entre entidades usando chaves primárias e chaves estrangeiras apropriadas
  • Certifique-se de que você está unindo as tabelas corretamente e que os tipos de relacionamento entre entidades estão definidos corretamente, muitos-para-muitos, um-para-muitos, pai-filho etc.
  • Tenha o aliasing adequado para garantir que o tipo / campo da entidade seja retornado quando uma consulta for realizada no data warehouse. Por exemplo, se você estabelecer que os clientes e os pedidos têm uma relação pai-filho, é fácil filtrar os clientes por pedido, mas se você tentar fazer o contrário, precisará garantir que os pedidos estejam vinculados a um cliente único, caso contrário, a consulta falhará. Este problema foi resolvido usando aliasing.
  • As convenções de nomenclatura para atributos também devem ser padronizadas em seu modelo de dados corporativos para garantir uma fácil compreensão.

Lembre-se de que você precisa garantir que não haja variações entre os metadados nas tabelas do sistema de origem e as entidades do data warehouse; caso contrário, ocorrerão incompatibilidades quando o data warehouse estiver sendo preenchido. Essas discrepâncias tornarão muito mais difícil criar mapeamento de dados para mover dados da origem ao destino.

Colocando um estrutura de metadados em vigor reduz significativamente o débito técnico criado por variações no modelo de dados e pipelines de dados subsequentes. Essas discrepâncias exigem mais atividades de manutenção e tornam muito mais difícil atualizar diferentes tipos de esquemas de forma consistente. Em vez disso, você testou e comprovou, e o mais importante, modelos adaptáveis ​​sem escrever nenhum código.

Os scripts podem então ser gerados com base nesses modelos de dados enriquecidos com metadados e elementos de dados propagados diretamente para um banco de dados físico.

Torne seu modelo de dados corporativo ágil

Como tornar seu modelo de dados ágil

Com ágil, você deve ser capaz de gerenciar dados e integrar mudanças em seu modelo de dados com muito mais facilidade do que isso.

É importante entender que a modelagem de dados não é uma atividade estática. Na empresa moderna, BI preciso e oportuno é essencial para quase todos os departamentos. Isso significa mais usuários acessando o data warehouse. Agora, à medida que esses requisitos evoluem, o consumidor de dados precisará atualizar a arquitetura existente para integrar novas fontes com velocidade. Esse recurso deve ser integrado em sua abordagem de design.

A modelagem de esquema deve se concentrar em fornecer entregas com base nos requisitos de negócios atuais, em vez de criar um modelo de dados corporativo aprovado antes do início do desenvolvimento. Criar um modelo de dados que represente a totalidade de suas operações de negócios levaria muito tempo e esforço inicial de design. Tanto que, quando o desenvolvimento realmente começar, o esquema pode estar desatualizado.

Em uma abordagem ágil, os modelos de dados seriam construídos de acordo com os requisitos atuais de BI em várias iterações. Digamos que seu gerente de vendas queira comparar o desempenho em várias unidades regionais após uma reestruturação organizacional. Sua equipe criaria um modelo de dados para refletir especificamente essas regras de negócios (também conhecidas como data mart) que seriam capazes de gerar os insights necessários em algumas semanas. Como resultado, o data warehouse cresce incrementalmente de uma maneira muito mais consistente. Em cada fase, é produzida uma nova saída que o usuário final pode verificar imediatamente quanto à precisão e relevância.

Na prática, vários aspectos precisam estar em vigor para permitir que essa abordagem floresça.

Primeiro, os usuários de negócios devem ser capazes de trabalhar em estreita colaboração com o modelador de dados em todo o processo de design para garantir a alta qualidade dos dados. Isso significa que o esquema deve ser projetado de uma maneira que seja prontamente entendido por ambas as equipes para que quaisquer falhas de comunicação sejam minimizadas.

Em segundo lugar, se o processo de design permitir que os usuários acessem os sistemas de origem, selecione as tabelas relevantes e as replique em um modelo de dados, o tempo de implantação será significativamente reduzido. Agora, os consumidores de dados terão as funcionalidades implementadas para garantir que os conjuntos de dados, que precisam ser relatados, estejam disponíveis no modelo de dados finalizado. Quando esses requisitos mudam, novas tabelas também podem ser adicionadas ao modelo inicial usando as mesmas técnicas.

Uma abordagem ágil de modelagem de dados corporativos também deve permitir que algum sistema de controle de versão seja implementado para que as atualizações do esquema original possam ser rastreadas e monitoradas. Com várias versões em vigor, você pode reverter quaisquer modificações, se necessário.

Exponha os dados com base na necessidade de saber

A segurança dos dados costuma ser uma preocupação ao projetar modelos de dados corporativosDados para mim, mas não para ti

A abordagem iterativa permite que você tenha uma visão muito mais granular dos dados fornecidos para fins de BI.

Em vez de expor todos os seus armazenamentos de dados em um modelo de dados corporativo que é aberto para acesso a todos os membros da organização, você projeta esquemas personalizados para atender aos requisitos de cada grupo de usuários. Essas equipes podem limitar suas consultas a conjuntos de dados relevantes e, assim, melhorar a eficiência de relatórios e análises. Ao mesmo tempo, do ponto de vista da segurança de dados, a organização garante que as informações confidenciais sejam expostas apenas a usuários autorizados.

Adote um esquema para seu modelo de dados corporativos - abordagem agnóstica

Abordagem agnóstica de esquema para modelagem de dados

Qual projeto de esquema você escolherá? Então, quando estamos falando sobre as melhores práticas de modelagem de dados, o esquema que vem à mente é Modelo dimensional de Kimball. Nesse esquema, as tabelas são organizadas em uma estrutura grosseira em forma de estrela com uma tabela de fatos central que fornece medidas de negócios e tabelas de dimensões vinculadas que fornecem contexto para esses números.

Essa estrutura é dominante no setor há mais de três décadas, por um bom motivo. O modelo dimensional é projetado principalmente para desempenho de consulta rápida e fornece muita flexibilidade ao adicionar novas fontes para fins de relatório. É também uma abordagem orientada a processos de negócios para design de data warehouse. Em outras palavras, ele organiza e apresenta os dados de uma maneira que os usuários finais podem entender facilmente.

No entanto, existem razões pelas quais os usuários finais podem considerar uma arquitetura alternativa. Por exemplo, um esquema tradicional em estrela incorpora muitas junções, o que pode prejudicar o desempenho da consulta em alguns casos. Em vez disso, eles podem preferir algumas tabelas largas (muitas colunas), pois esse design se adapta melhor a algumas ferramentas de visualização. Além disso, a abordagem permitiria aos usuários finais simplificar as consultas para uma única tabela em vez de aplicar várias junções, o que aumenta o risco de erros.

Um modelo conceitual alternativo que ganhou considerável popularidade nos últimos anos é a arquitetura de cofre de dados. Esse esquema resulta em uma arquitetura flexível que combina a abordagem de negócios do modelo dimensional com a escalabilidade do formato 3NF adotado por Bill Inmon. O DV consiste em hubs que representam os aspectos identificadores de um negócio, e cada um contém chaves naturais para esses processos. Há também links que servem como tabelas interseccionais definindo relacionamentos muitos-para-muitos entre os diferentes hubs na arquitetura. Finalmente, os satélites contêm os atributos descritivos para Hubs e Links.

Dependendo dos seus requisitos de BI, qualquer uma dessas arquiteturas pode ser preferida, mas as técnicas de modelagem de dados que você emprega devem permitir que você projete e propague diferentes tipos de esquema com facilidade, seja um modelo dimensional, 3NF ou cofre de dados.

Astera DW Builder – Uma ferramenta de modelagem de dados corporativos para desenvolvimento de DW

A modelagem automatizada de dados se instala na própria fundação do ADWB

A modelagem automatizada de dados se instala na própria fundação do ADWB

Astera O DW Builder é uma ferramenta de automação de data warehouse orientada por metadados que acelera radicalmente seu caminho para o desenvolvimento de data warehouse.

Este produto coloca a modelagem de dados no centro de seus recursos. Permitindo que você projete modelos de dados corporativos de melhores práticas a partir do zero ou faça engenharia reversa deles a partir de sistemas de origem existentes com a mesma facilidade por meio de comandos simples de arrastar e soltar.

A partir daí, você pode enriquecer seus esquemas com especificações adicionais para coisas como atributos de tabela, tipos de dados, chaves primárias, chaves estrangeiras. No nível do modelo dimensional, você pode definir os tipos de SCD para campos dinâmicos, datas efetivas / de validade e chaves substitutas para facilitar o carregamento e a consulta eficazes. O ADWB também oferece suporte a outras abordagens de design líderes, incluindo cofres de dados e modelos de dados 3NF. Essas descrições são então fornecidas a um mecanismo que cria automaticamente todo o esquema em um banco de dados físico.

Trabalhar logicamente em um processo unificado sobrecarrega o desenvolvimento do seu data warehouse, reduzindo o tempo de implantação de meses ou mesmo anos para apenas alguns dias.

Essa nova abordagem também incentiva a colaboração. As partes interessadas não técnicas podem compreender facilmente as definições lógicas e os elementos visuais usados ​​em um modelo de dados enriquecido com metadados. Esse conhecimento permite que eles participem das implementações desde o início até a conclusão, garantindo que as entregas estejam muito mais alinhadas com suas necessidades.

O modelo de dados agora serve essencialmente como uma camada de abstração, permitindo que os usuários finais visualizem os dados do sistema de origem sem acessá-los diretamente. Essa separação significa que você pode fornecer dados relevantes a usuários específicos sem se preocupar com problemas de governança de dados.

Quando chega a hora de analisar os dados entregues, os metadados podem ser propagados para qualquer plataforma de BI, onde são usados ​​para identificar os conjuntos de dados a serem importados por meio do modelo de dados.

Outro benefício significativo aqui é o agnosticismo de plataforma, porque o modelo de dados corporativos não é codificado em nenhum banco de dados específico, ele serve como um esquema que pode ser lido e facilmente replicado em qualquer banco de dados na nuvem ou no local.

Por fim, se você observar a natureza de flutuação rápida dos dados corporativos, a capacidade de atualizar e modificar elementos de metadados no modelo de dados é essencial, permitindo iterar com velocidade e, portanto, ajustar os pipelines de relatórios com base nas necessidades atuais dos usuários de negócios.

Quando você coloca todos esses elementos juntos, está falando sobre um processo rápido, ágil e verdadeiramente eficiente em termos de recursos para o desenvolvimento de data warehouse.

Quer ver em primeira mão como essas funcionalidades podem turbinar o desenvolvimento do seu data warehouse? Cadastre-se para nosso próximo webinar, onde especialistas em produtos e membros do setor demonstrarão o potencial dessa abordagem de práticas recomendadas. Você também pode entre em contato conosco diretamente para marcar uma consulta com base em seus requisitos atuais.

Você pode gostar
7 métricas de qualidade de dados para avaliar a integridade dos seus dados
Melhorando a governança e integração de dados de saúde com Astera
O que é governança de metadados?
Considerando Astera Para suas necessidades de gerenciamento de dados?

Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

Vamos nos conectar agora!
vamos conectar