Arquitetura de Data Warehouse: Tipos, Componentes e Conceitos

By |2022-05-13T09:45:36+00:00Maio 23rd, 2019|

Nas últimas décadas, a arquitetura de data warehouse tem sido o pilar dos ecossistemas de dados corporativos. E apesar das inúmeras alterações nos últimos cinco anos na área de Big Data, computação em nuvem, análise preditiva e tecnologias da informação, os data warehouses só ganharam mais importância. Hoje, a importância de armazenamento de dados não pode ser negado e há mais possibilidades disponíveis para armazenar, analisar e indexar dados do que nunca.

Este artigo discutirá os vários conceitos básicos de arquitetura de data warehouse, diferentes modelos de data warehouse empresarial (EDW), suas características e componentes significativos e explorará o objetivo principal de um data warehouse em indústrias modernas.

O que é um Data Warehouse?

Um data warehouse é um repositório centralizado que inclui informações passadas e comutativas de uma ou várias fontes. Os funcionários de uma organização podem usar este repositório para análises, percepções de desenho e previsões futuras.

O processo ETL é um conceito fundamental de data warehouse:

  • Extrair: Coletando dados de várias fontes heterogêneas
  • Transformar: Converter dados abaixo do padrão em dados limpos, estruturados e verificados que estão prontos para uso
  • Ver: Carregando os dados em um novo destino

Os EDWs simplificam os processos de relatórios e BI das empresas. Em vez de processar transações, um data warehouse funciona como um banco de dados relacional e realiza consultas e análises. A principal diferença entre bancos de dados transacionais e data warehouses é que os bancos de dados transacionais não resultam em análises, enquanto as análises são executadas com eficiência no data warehouse. Em suma, bancos de dados transacionais e data warehouses são semelhantes, exceto pelo aspecto analítico.

Um modelo de data warehouse normalmente inclui dados transacionais históricos. No entanto, ele também pode conter dados de outras fontes. Ele distingue a capacidade analítica da capacidade transacional, permitindo que as empresas coletem dados de várias fontes. Dessa forma, auxilia em:

  • Preservando registros
  • Avaliar os dados para melhor compreender e aprimorar as operações corporativas

Ferramentas e recursos de um data warehouse

Juntamente com um banco de dados relacional, um design de data warehouse pode conter um ferramenta de extração, transformação e carregamento (ETL), análise numérica, recursos de relatório, habilidades de mineração de dados e outros aplicativos. Essas ferramentas e recursos lidam com o procedimento de acumulação de dados, convertendo-os em informações valiosas e transmitindo-os a analistas de negócios e outros usuários. Esses recursos permitem vários aplicativos e usos de armazenamento de dados. Por exemplo, o setor bancário pode usar data warehouses para criar modelos financeiros que podem melhorar a eficiência de custos.

Outro exemplo de caso de uso de armazenamento de dados é o gerenciamento da cadeia de suprimentos, onde a análise e previsão de dados ajudam a reduzir os prazos de entrega e a simplificar as operações.

No entanto, o início de qualquer iniciativa de armazenamento de dados requer um processo de avaliação holístico e rigoroso. Os modelos de avaliação de data warehouse são frequentemente usados ​​para essa finalidade. Eles oferecem informações detalhadas sobre as necessidades de negócios, expectativas, aspectos técnicos da construção, planejamento e operação de um data warehouse.

Também é importante observar que a avaliação do data warehouse não é um evento único e geralmente depende das necessidades exclusivas de uma empresa. Essas avaliações são necessárias para saber quais são os principais problemas que uma organização pode enfrentar ao planejar a construção de um data warehouse a partir do zero.

Características do projeto do data warehouse

A seguir estão as principais características de design, desenvolvimento e práticas recomendadas de armazenamento de dados:

Focado no Tema

Um design de armazém de dados usa um tema específico. Ele fornece informações sobre um assunto e não as operações de uma empresa. Esses temas podem estar relacionados a vendas, publicidade, marketing e muito mais.

Em vez de se concentrar em operações ou transações de negócios, o data warehouse enfatiza a inteligência de negócios (BI), ou seja, a exibição e a análise de dados para a tomada de decisões. Ele também oferece uma interpretação direta e concisa de um tema específico, eliminando dados que podem não ser úteis para os tomadores de decisão.

unificado

Usando a modelagem de data warehouse, um design de data warehouse unifica e integra dados de diferentes bancos de dados de uma maneira coletivamente adequada. Ele incorpora dados de diversas fontes, como bancos de dados relacionais e não relacionais, arquivos simples, mainframes e sistemas baseados em nuvem. Além disso, um data warehouse deve manter classificação, layout e codificação consistentes para facilitar a análise de dados eficiente.

Variação de tempo

Ao contrário de outros sistemas operacionais, o data warehouse armazena dados centralizados de um determinado período de tempo. Portanto, os dados coletados são identificados dentro de um período de tempo específico e fornecem insights da perspectiva anterior. Além disso, os dados não podem ser estruturados ou alterados depois de entrarem no warehouse.

Não volatilidade

Outra característica importante de um data warehouse é a não volatilidade, o que significa que os dados primários não são removidos quando novas informações são carregadas no data warehouse. Além disso, os dados são apenas legíveis e podem ser atualizados de forma intermitente para fornecer uma imagem completa e atualizada ao usuário.

Automatizando Design de Data Warehouse 

Automatizar o projeto do data warehouse pode impulsione o desenvolvimento do seu data warehouse. É essencial acertar na abordagem. Primeiro, identifique onde residem seus dados críticos e quais dados são relevantes para suas iniciativas de BI.

Em seguida, crie uma estrutura de metadados padronizada que forneça um contexto crítico para esses dados no estágio de modelagem de dados. Essa estrutura seria capaz de corresponder seu modelo de data warehouse ao sistema de origem e garantir que os relacionamentos entre as entidades sejam construídos adequadamente com chaves primárias e estrangeiras definidas corretamente. Também estabeleceria que as tabelas são unidas corretamente e que os tipos de relacionamento de entidade são atribuídos com precisão.

Além disso, você precisa ter processos implementados que permitam integrar novas fontes e outras modificações em seu modelo de dados de origem e reimplantá-lo. Adotar uma abordagem iterativa fornecerá uma visão mais granular dos dados entregues para fins de BI e visualizações materializadas.

Você pode adotar um 3NF ou abordagem de modelagem dimensional, dependendo de seus requisitos de BI. O último é melhor, pois ajudará você a criar uma estrutura simplificada e desnormalizada para seu modelo de data warehouse.

Enquanto você faz isso, aqui estão algumas dicas essenciais que você deve ter em mente:

  • Manter uma granulação consistente em modelos de dados dimensionais
  • Aplique a técnica correta de manuseio de SCD aos seus atributos dimensionais
  • Simplifique o carregamento da tabela de fatos usando uma abordagem baseada em metadados
  • Implementar processos para lidar com fatos que chegam cedo

Por fim, os membros da equipe podem testar a qualidade e a integridade dos modelos de dados antes de serem implantados no banco de dados de destino. Ter um verificação automatizada do modelo de dados ferramenta pode fornecer economia de tempo significativa.

Seguir essas práticas recomendadas ao automatizar a modelagem de esquema o ajudará a atualizar perfeitamente seu modelo e propagar as mudanças em seus pipelines de dados.

A próxima etapa no processo de projeto de data warehouse é selecionar a arquitetura de data warehouse correta.

Tipos de arquitetura de data warehouse

Uma arquitetura de data warehouse define a organização dos dados em diferentes bancos de dados. Como os dados devem ser organizados e limpos para serem valiosos, uma estrutura moderna de data warehouse identifica a técnica mais eficaz de extrair informações de dados brutos. Usando um modelo dimensional, os dados brutos na área de preparação são extraídos e convertidos em uma estrutura de armazenamento consumível simples para fornecer inteligência de negócios valiosa. Além disso, ao contrário de um armazém de dados na nuvem, um modelo de data warehouse tradicional requer servidores locais para que todos os componentes do warehouse funcionem.

Ao projetar um data warehouse corporativo, existem três tipos diferentes de modelos a serem considerados:

Data warehouse de camada única

A estrutura de uma arquitetura de data warehouse de camada única produz um conjunto denso de dados e reduz o volume dos dados depositados. Embora seja benéfico para eliminar redundâncias, esse tipo de design de warehouse não é adequado para empresas com requisitos de dados complexos e numerosos fluxos de dados. É aqui que as arquiteturas de data warehouse multicamadas entram, pois lidam com fluxos de dados mais complexos.

Data warehouse de duas camadas

Em comparação, a estrutura de dados de um modelo de data warehouse de duas camadas divide as fontes de dados tangíveis do próprio warehouse. Ao contrário de uma única camada, o design de duas camadas usa um sistema e um servidor de banco de dados.

Pequenas organizações em que um servidor é usado como um data mart normalmente usam esse tipo de arquitetura de data warehouse. Embora seja mais eficiente no armazenamento e organização de dados, a estrutura de duas camadas não é escalável. Além disso, ele suporta apenas um número nominal de usuários.

Data warehouse de três camadas

O tipo de arquitetura de data warehouse de três camadas é o tipo mais comum de design DWH moderno, pois produz um fluxo de dados bem organizado de informações brutas a insights valiosos.

A camada inferior no modelo de data warehouse normalmente compreende o servidor de banco de dados que cria uma camada de abstração em dados de várias fontes, como bancos de dados transacionais utilizados para usos front-end.

A camada intermediária inclui um Processamento analítico online (OLAP) servidor. Este nível altera os dados em um arranjo mais adequado para análise e sondagem multifacetada da perspectiva do usuário. Uma vez que inclui um servidor OLAP pré-construído na arquitetura, também podemos chamá-lo de data warehouse focado em OLAP.

A terceira e mais alta camada é o nível do cliente, que inclui as ferramentas e a Interface de Programação de Aplicativos (API) usadas para análise de dados de alto nível, consultas e relatórios. No entanto, as pessoas mal incluem a 4ª camada na arquitetura do data warehouse, pois muitas vezes ela não é considerada tão integral quanto os outros três tipos.

O diagrama DW abaixo ilustra as três camadas de um data warehouse:

Projeto de Data Warehouse | ETL | Centro de Informações do Data Warehouse

Fonte: DatawarehouseInfo.com

Conforme ilustrado pelo diagrama de data warehouse, esses são os diferentes tipos de arquitetura de data warehouse tradicional. Agora, vamos aprender sobre os principais componentes de um data warehouse (DWH) e como eles ajudam a construir e dimensionar um data warehouse em detalhes.

Principais componentes de Arquitetura DWH

As diferentes camadas de um data warehouse ou os componentes de uma arquitetura DWH são:

  1. Banco de dados de data warehouse

O componente central de uma arquitetura DW é um banco de dados que armazena todos os dados corporativos e os torna gerenciáveis ​​para relatórios. Obviamente, isso significa que você precisa escolher que tipo de banco de dados usará para armazenar dados em seu warehouse.

A seguir estão os quatro tipos de banco de dados que você pode usar:

  • Bancos de dados relacionais típicos são os bancos de dados centralizados em linhas que você talvez use diariamente - por exemplo, Microsoft SQL Server, SAP, Oracle e IBM DB2.
  • Bancos de dados do Analytics são desenvolvidos com precisão para armazenamento de dados para sustentar e gerenciar análises, como Teradata e Greenplum.
  • Aplicativos de Data Warehouse não são exatamente bancos de dados de armazenamento, mas vários revendedores agora oferecem aplicativos que oferecem software para gerenciamento de dados, bem como hardware para armazenamento de dados. Por exemplo, SAP Hana, Oracle Exadata e IBM Netezza.
  • Bancos de dados baseados em nuvem pode ser hospedado e recuperado na nuvem para que você não precise adquirir nenhum hardware para configurar seu data warehouse - por exemplo, Amazon Redshift, Google BigQuery e Microsoft Azure SQL.

2. Ferramentas de extração, transformação e carregamento (ETL)

As ferramentas ETL são componentes centrais de um projeto de data warehouse empresarial. Essas ferramentas ajudam a extrair dados de diferentes fontes, transformá-los em um arranjo adequado e carregá-los em um data warehouse.

A ferramenta ETL que você escolher determinará:

  • O tempo gasto na extração de dados
  • Abordagens para extrair dados
  • Tipo de transformações aplicadas e a simplicidade de fazê-lo
  • Definição de regra de negócios para validação e limpeza de dados para melhorar a análise do produto final
  • Preenchendo dados perdidos
  • Delineando a distribuição de informações do depositário fundamental para seus aplicativos de BI

3. Metadados

Em uma arquitetura DW, os metadados descrevem o banco de dados do data warehouse e oferecem uma estrutura para os dados. Ele ajuda a construir, preservar, manipular e fazer uso do data warehouse.

Existem dois tipos de metadados no armazenamento de dados:

  • Metadados técnicos compreende informações que podem ser usadas por desenvolvedores e gerentes ao executar o desenvolvimento do warehouse e tarefas de administração.
  • Metadados de negócios inclui informações que oferecem um ponto de vista facilmente compreensível dos dados armazenados no warehouse.
Metadados e suas aplicações em uma arquitetura de data warehouse

Foto tirada de www.softwaretestinghelp.com/metadata-in-data-warehouse-etl/

Os metadados desempenham um papel importante para que as empresas e as equipes técnicas entendam os dados presentes no warehouse e os convertam em informações.

Seu data warehouse não é um projeto, é um processo. Para tornar sua implementação o mais eficaz possível, você precisa adotar uma abordagem verdadeiramente ágil, que requer um arquitetura de data warehouse orientada por metadados.

Esta é uma abordagem visual para armazenamento de dados que aproveita modelos de dados enriquecidos com metadados para conduzir todos os aspectos do processo de desenvolvimento, desde a documentação de sistemas de origem até a replicação de esquemas em um banco de dados físico e facilitando o mapeamento da origem ao destino.

 

O esquema do data warehouse é configurado no nível de metadados, o que significa que você não precisa se preocupar com a qualidade do código e como ele resistirá a grandes volumes de dados. Na verdade, você pode gerenciar e controlar seus dados sem entrar no código.

Além disso, você pode testar modelos de data warehouse simultaneamente antes da implantação e replique seu esquema em qualquer banco de dados principal. Uma abordagem orientada por metadados leva a uma cultura de desenvolvimento iterativa e torna a implantação do data warehouse à prova do futuro, para que você possa atualizar a infraestrutura existente com os novos requisitos sem interromper a integridade e a usabilidade do data warehouse.

Juntamente com recursos de automação, um design de data warehouse orientado a metadados pode simplificar design, desenvolvimento e implantação, levando a uma implementação robusta de data warehouse.

4. Ferramentas de acesso ao data warehouse

Um data warehouse usa um banco de dados ou grupo de bancos de dados como base. As corporações de data warehouse geralmente não podem trabalhar com bancos de dados sem o uso de ferramentas, a menos que tenham administradores de banco de dados disponíveis. No entanto, esse não é o caso com todas as unidades de negócios. É por isso que eles usam a assistência de várias ferramentas de armazenamento de dados sem código, como:

  • Ferramentas de consulta e relatório ajudam os usuários a produzir relatórios corporativos para análise que podem ser na forma de planilhas, cálculos ou recursos visuais interativos.
  • Ferramentas de desenvolvimento de aplicativos ajudar a criar relatórios personalizados e apresentá-los em interpretações destinadas a fins de relatório.
  • Ferramentas de mineração de dados para armazenamento de dados sistematizar o procedimento de identificação de arrays e links em grandes quantidades de dados usando métodos de modelagem estatística de ponta.
  • Ferramentas OLAP ajudam a construir um data warehouse multidimensional e permitem a análise de dados corporativos de vários pontos de vista.

5. Barramento de Data Warehouse

Ele define o fluxo de dados em uma arquitetura de barramento de data warehouse e inclui um data mart. Um data mart é um nível de acesso que permite aos usuários transferir dados. Ele também é usado para particionar dados produzidos para um determinado grupo de usuários.

6. Camada de relatórios de data warehouse

A camada de relatórios no data warehouse permite que os usuários finais acessem a interface de BI ou a arquitetura de banco de dados de BI. O objetivo da camada de relatório no data warehouse é atuar como um painel para visualização de dados, criar relatórios e retirar todas as informações necessárias.

Melhores práticas de arquitetura de data warehouse

  • Create modelos de data warehouse que são otimizados para recuperação de informações em abordagens dimensionais, desnormalizadas ou híbridas.
  • Selecione uma abordagem única para designs de data warehouse, como a abordagem de cima para baixo ou de baixo para cima, e mantenha-a.
  • Sempre limpe e transforme os dados usando uma ferramenta ETL antes de carregar os dados no data warehouse.
Os dados são limpos e transformados em ferramentas ETL antes de serem integrados à arquitetura de data warehouse

Foto tirada de medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632

  • Crie um processo de limpeza de dados automatizado onde todos os dados são limpos uniformemente antes do carregamento.
  • Permita o compartilhamento de metadados entre diferentes componentes do data warehouse para um processo de extração tranquilo.
  • Sempre certifique-se de que os dados estejam devidamente integrados e não apenas consolidados ao movê-los dos armazenamentos de dados para o data warehouse. Isso exigiria a normalização 3NF dos modelos de dados.

Construa seu data warehouse com Astera Construtor de DW

Astera Construtor de DW é uma solução de data warehouse de ponta a ponta que automatiza o projeto e a implantação de um data warehouse em um ambiente sem código. Ele usa uma abordagem orientada por meta que permite aos usuários manipular dados usando um conjunto abrangente de transformações integradas sem script ETL complexo ou script SQL.

Artigos Relacionados

Abordagem tradicional versus armazenamento de dados orientado por metadados

  De sistemas de informações de gerenciamento monolíticos a data warehouses e data lakes dimensionalmente modelados, vimos grandes mudanças em como...
leia mais

Abordagem orientada por metadados encontra automação de data warehouse – uma combinação feita...

Na parte anterior, esclarecemos por que a tecnologia de automação de data warehouse deve ser parte integrante do seu...
leia mais

Como as organizações colhem os benefícios da automação do data warehouse usando Astera DW ...

Os data warehouses permitem que as empresas visualizem seus dados de todos os endpoints em um local centralizado e os processem para obter insights....
leia mais