Nas últimas décadas, a arquitetura de data warehouse tem sido o pilar dos ecossistemas de dados corporativos. E apesar das inúmeras alterações nos últimos cinco anos na área de big data, computação em nuvem, análise preditiva e tecnologias de informação, armazéns de dados só ganharam mais significado.
Hoje, a importância armazenamento de dados não pode ser negado e há mais possibilidades disponíveis para armazenar, analisar e indexar dados do que nunca.
Este artigo discutirá os vários conceitos básicos de uma arquitetura de data warehouse corporativo, diferentes modelos de data warehouse corporativo (EDW), suas características e componentes significativos e explorará o objetivo principal de um data warehouse em indústrias modernas.
Teorias de arquitetura de data warehouse
Para entender a arquitetura de data warehouse, é importante conhecer Ralph Kimball e Bill Inmon, as duas figuras proeminentes na área de data warehousing. Esses dois propuseram diferentes se aproxima para projetar arquiteturas de armazenamento de dados.
Abordagem Kimball
Ralph Kimball é conhecido por seu modelagem dimensional abordagem, que se concentra na entrega de dados de uma forma otimizada para consultas e relatórios do usuário final. A abordagem Kimball concentra-se na criação de data warehouses usando estruturas de esquema em estrela, onde uma tabela de fatos central contém medidas quantitativas e tabelas de dimensões descrevem atributos relacionados. É uma abordagem de cima para baixo, iterativa e ágil que enfatiza a entrega rápida de valor de negócios através da construção de data marts específicos para atender às necessidades específicas de relatórios dos usuários.
Abordagem Inmon
A abordagem de Bill Inmon, por outro lado, enfatiza um ambiente de armazenamento de dados mais centralizado, abrangente e estruturado. Ela defende um modelo de dados normalizado onde os dados são organizados em tabelas separadas para eliminar redundância e manter integridade de dados. Ele usa um conceito de “barramento de data warehouse” para criar componentes padronizados e reutilizáveis e enfatiza integração de dados, transformação e governança para garantir a precisão e a consistência dos dados.
Componentes da arquitetura DWH
Antes de passarmos às especificidades da arquitetura, vamos entender os fundamentos do que constitui um data warehouse – o esqueleto por trás dessa estrutura.
As diferentes camadas de um data warehouse ou os componentes de uma arquitetura DWH são:
Banco de dados de data warehouse
O componente central de uma arquitetura típica de data warehouse é um banco de dados que armazena todos os dados corporativos e os torna gerenciáveis para geração de relatórios. Obviamente, isso significa que você precisa escolher que tipo de banco de dados usará para armazenar dados em seu warehouse.
A seguir estão os quatro tipos de banco de dados que você pode usar:
Bancos de dados relacionais típicos são os bancos de dados centralizados em linhas que você talvez use diariamente - por exemplo, Microsoft SQL Server, SAP, Oracle e IBM DB2.
Bancos de dados do Analytics são desenvolvidos com precisão para armazenamento de dados para sustentar e gerenciar análises, como Teradata e Greenplum.
Aplicativos de Data Warehouse não são exatamente bancos de dados de armazenamento, mas vários revendedores agora oferecem aplicativos que oferecem software para gerenciamento de dados bem como hardware para armazenamento de dados. Por exemplo, SAP Hana, Oracle Exadata e IBM Netezza.
Bancos de dados baseados em nuvem pode ser hospedado e recuperado na nuvem para que você não precise adquirir nenhum hardware para configurar seu data warehouse - por exemplo, Amazon Redshift, Google BigQuery e Microsoft Azure SQL.
2. Ferramentas de extração, transformação e carregamento (ETL)
Ferramentas ETL são componentes centrais de um data warehouse empresarial projeto. Essas ferramentas ajudam a extrair dados de diferentes fontes, transformá-los em um arranjo adequado e carregá-los em um data warehouse.
A ferramenta ETL que você escolher determinará o seguinte:
Tipo de transformações aplicadas e a simplicidade de fazê-lo
Definição de regra de negócios para data de validade e limpeza para melhorar a análise do produto final
Preenchendo dados perdidos
Delineando a distribuição de informações do depositário fundamental para seus aplicativos de BI
3. Metadados
Em uma arquitetura típica de data warehouse, os metadados descrevem o banco de dados do data warehouse e oferecem uma estrutura para os dados. Ele ajuda a construir, preservar, manipular e fazer uso do data warehouse.
Existem dois tipos de metadados no armazenamento de dados:
Metadados técnicos compreende informações que podem ser usadas por desenvolvedores e gerentes ao executar o desenvolvimento do warehouse e tarefas de administração.
Metadados de negócios inclui informações que oferecem um ponto de vista facilmente compreensível dos dados armazenados no warehouse.
Papel dos metadados em um data warehouse
Os metadados desempenham um papel importante para as empresas e equipes técnicas entenderem os dados presentes no warehouse e convertê-los em informações.
Seu data warehouse não é um projeto; é um processo. Para tornar sua implementação o mais eficaz possível, você precisa adotar uma abordagem verdadeiramente ágil, que exige uma arquitetura de data warehouse orientada por metadados.
Esta é uma abordagem visual para armazenamento de dados que aproveita modelos de dados enriquecidos com metadados para conduzir todos os aspectos do processo de desenvolvimento, desde a documentação de sistemas de origem até a replicação de esquemas em um banco de dados físico e facilitando mapeamento de dados da origem ao destino.
O esquema do data warehouse é configurado no nível de metadados, o que significa que você não precisa se preocupar com a qualidade do código e como ele resistirá a grandes volumes de dados. Na verdade, você pode gerenciar e controlar seus dados sem entrar no código.
Além disso, você pode testar modelos de data warehouse simultaneamente antes da implantação e replique seu esquema em qualquer banco de dados principal. Uma abordagem orientada por metadados leva a uma cultura de desenvolvimento iterativa e torna a implantação do data warehouse à prova do futuro, para que você possa atualizar a infraestrutura existente com os novos requisitos sem interromper a integridade e a usabilidade do data warehouse.
Juntamente com recursos de automação, um design de data warehouse orientado a metadados pode simplificar design, desenvolvimento e implantação, levando a uma implementação robusta de data warehouse.
4. Ferramentas de acesso ao data warehouse
Um data warehouse usa um banco de dados ou grupo de bancos de dados como base. Corporações de data warehouse geralmente não podem trabalhar com bancos de dados sem o uso de ferramentas, a menos que tenham administradores de banco de dados disponíveis. No entanto, isso não acontece com todas as unidades de negócios.
É por isso que eles usam a ajuda de várias ferramentas de armazenamento de dados sem código, como:
Ferramentas de consulta e relatório ajudam os usuários a produzir relatórios corporativos para análise que podem ser na forma de planilhas, cálculos ou recursos visuais interativos.
Ferramentas de desenvolvimento de aplicativos ajudar a criar relatórios personalizados e apresentá-los em interpretações destinadas a fins de relatório.
Ferramentas de mineração de dados para armazenamento de dados sistematizar o procedimento de identificação de arrays e links em grandes quantidades de dados usando métodos de modelagem estatística de ponta.
Ferramentas OLAP ajudam a construir um data warehouse multidimensional e permitem a análise de dados corporativos de vários pontos de vista.
5. Barramento de Data Warehouse
Ele define o fluxo de dados em uma arquitetura de barramento de data warehouse e inclui um data mart. Um data mart é um nível de acesso que permite aos usuários transferir dados. Ele também é usado para particionar dados produzidos para um determinado grupo de usuários.
6. Camada de relatórios de data warehouse
A camada de relatórios no data warehouse permite que os usuários finais acessem a interface de BI ou a arquitetura de banco de dados de BI. O objetivo da camada de relatório no data warehouse é atuar como um painel para visualização de dados, criar relatórios e retirar todas as informações necessárias.
Características do projeto do data warehouse
A seguir estão as principais características de design, desenvolvimento e práticas recomendadas de armazenamento de dados:
Focado no Tema
Um design de armazém de dados usa um tema específico. Ele fornece informações sobre um assunto e não as operações de uma empresa. Esses temas podem estar relacionados a vendas, publicidade, marketing e muito mais.
Em vez de focar em operações ou transações de negócios, o data warehouse enfatiza a inteligência de negócios (BI), ou seja, exibir e analisar dados para a tomada de decisões. Ele também oferece uma interpretação direta e concisa de um tema específico, eliminando dados que podem não ser úteis para os tomadores de decisão.
unificado
Usando a modelagem de data warehouse, um projeto de data warehouse unifica e integra dados de diferentes bancos de dados de maneira coletivamente adequada.
Ele incorpora dados de diversas fontes, como bancos de dados relacionais e não relacionais, arquivos simples, mainframes e sistemas baseados em nuvem. Além disso, um data warehouse deve manter classificação, layout e codificação consistentes para facilitar a análise de dados eficiente.
Variação de tempo
Ao contrário de outros sistemas operacionais, o data warehouse armazena dados centralizados de um determinado período de tempo. Portanto, o data warehouse identifica os dados coletados em um período de tempo específico e fornece insights da perspectiva anterior. Além disso, não permite a estrutura ou alteração dos dados após sua entrada no warehouse.
Não volatilidade
A não volatilidade é outra característica importante de um data warehouse, o que significa que ele não remove os dados primários quando novas informações são carregadas. Além disso, permite apenas a leitura de dados e atualização intermitente para fornecer uma imagem completa e atualizada ao usuário.
Tipos de arquitetura de data warehouse
A arquitetura de um data warehouse típico define a disposição dos dados em diferentes bancos de dados. Para extrair informações valiosas de dados brutos, uma estrutura moderna de data warehouse identifica a técnica mais eficaz para organizar e limpar os dados.
Usando um modelo dimensional, o data warehouse extrai e converte os dados brutos na área de preparação em uma estrutura de armazenamento de consumíveis simples para fornecer inteligência de negócios valiosa.
Além disso, ao contrário de um armazém de dados na nuvem, um modelo de data warehouse tradicional requer servidores locais para que todos os componentes do warehouse funcionem.
Ao projetar um data warehouse corporativo, existem três tipos diferentes de modelos a serem considerados:
A estrutura de uma arquitetura de data warehouse de camada única produz um conjunto denso de dados e reduz o volume dos dados depositados.
Embora seja benéfico para eliminar redundâncias, esse tipo de projeto de warehouse não é adequado para empresas com requisitos de dados complexos e numerosos fluxos de dados. É aqui que entram as arquiteturas de armazenamento de dados de várias camadas, pois lidam com fluxos de dados mais complexos.
Em comparação, a estrutura de dados de um modelo de data warehouse de duas camadas divide as fontes de dados tangíveis do próprio warehouse. Ao contrário de uma camada única, o design de duas camadas usa um sistema e um servidor de banco de dados.
Pequenas organizações em que um servidor é usado como um data mart normalmente usam esse tipo de arquitetura de data warehouse. Embora seja mais eficiente no armazenamento e organização de dados, a estrutura de duas camadas não é escalável. Além disso, ele suporta apenas um número nominal de usuários.
Data warehouse de três camadas
O tipo de arquitetura de data warehouse de três camadas é o tipo mais comum de design DWH moderno, pois produz um fluxo de dados bem organizado de informações brutas a insights valiosos.
A camada inferior no modelo de data warehouse normalmente compreende o servidor de banco de dados que cria uma camada de abstração em dados de várias fontes, como bancos de dados transacionais utilizados para usos de front-end.
A camada intermediária inclui um Processamento analítico online (OLAP) servidor. Este nível altera os dados em um arranjo mais adequado para análise e sondagem multifacetada da perspectiva do usuário. Uma vez que inclui um servidor OLAP pré-construído na arquitetura, também podemos chamá-lo de data warehouse focado em OLAP.
O terceiro e mais alto nível é o nível do cliente, que inclui as ferramentas e a API (Application Programming Interface) usada para análise de dados de alto nível, consulta e geração de relatórios.
No entanto, as pessoas mal incluem o 4º nível na arquitetura do data warehouse, pois geralmente não é considerado tão integral quanto os outros três tipos.
Agora, vamos aprender sobre os principais componentes de um data warehouse (DWH) e como eles ajudam a construir e dimensionar um data warehouse em detalhes.
Arquitetura de data warehouse baseada em nuvem
Uma arquitetura de data warehouse baseada em nuvem aproveita recursos de computação em nuvem para armazenar, gerenciar e analisar dados para inteligência de negócios e análises. A base deste data warehouse é a infraestrutura em nuvem fornecida por provedores de serviços em nuvem como AWS (Amazon Web Services), Azure ou Google Cloud. Esses provedores oferecem recursos sob demanda, como capacidade de computação, armazenamento e rede.
Aqui estão os principais componentes da arquitetura de data warehouse baseada em nuvem:
Ingestão de Dados: o primeiro componente é um mecanismo para ingestão de dados de diversas fontes, incluindo sistemas locais, bancos de dados, aplicativos de terceiros e feeds de dados externos.
Armazenamento de dados: os dados são armazenados no data warehouse em nuvem, que normalmente usa sistemas de armazenamento distribuídos e escaláveis. A escolha da tecnologia de armazenamento pode variar de acordo com o provedor de nuvem e a arquitetura, com opções como Amazon S3, Azure Data Lake Storage ou Google Cloud Storage.
Recursos de computação: os data warehouses baseados em nuvem fornecem recursos de computação flexíveis e escalonáveis para a execução de consultas analíticas. Esses recursos podem ser provisionados sob demanda, para que as empresas possam ajustar o poder de processamento com base nos requisitos da carga de trabalho.
Escala automática: os data warehouses baseados em nuvem geralmente oferecem suporte ao escalonamento automático, o que torna mais fácil para as empresas se ajustarem dinamicamente para atender às demandas da carga de trabalho.
Modelos de arquitetura de data warehouse tradicional versus em nuvem
Embora os data warehouses tradicionais ofereçam controle total sobre o hardware e a localização dos dados, eles geralmente acarretam custos iniciais mais elevados, escalabilidade limitada e tempos de implantação mais lentos. Os armazéns de dados na nuvem, por outro lado, oferecem vantagens em termos de escalabilidade, rentabilidade, acessibilidade global e facilidade de manutenção, com a contrapartida de um controlo potencialmente reduzido sobre a localização e residência dos dados.
A escolha entre as duas arquiteturas depende das necessidades, do orçamento e das preferências específicas de uma organização. Aqui está uma visão mais aprofundada das diferenças entre os dois:
Aspecto
Armazém de dados tradicional
Armazém de dados na nuvem
Localização e Infraestrutura
No local, com hardware dedicado
Baseado em nuvem, utilizando a infraestrutura do provedor de nuvem
AMPLIAR
Escalabilidade limitada, atualizações de hardware necessárias para o crescimento
Altamente escalável, com recursos sob demanda para aumentar ou diminuir
Despesas de capital
Altos custos de capital inicial para hardware e infraestrutura
Custos de capital iniciais mais baixos, modelo de precificação pré-pago
Despesas operacionais
Custos operacionais contínuos para manutenção, atualizações e energia/resfriamento
Custos operacionais reduzidos à medida que o provedor de nuvem cuida da manutenção da infraestrutura
Tempo de implantação
Tempos de implantação mais longos para aquisição e configuração de hardware
Implantação mais rápida devido aos recursos de nuvem prontamente disponíveis
Acessibilidade global
Acesso limitado a locais locais, pode exigir configurações complexas para acesso global
Facilmente acessível de qualquer lugar do mundo, com capacidade de distribuir dados globalmente
AMPLIAR
Escalabilidade limitada, atualizações de hardware necessárias para o crescimento
Altamente escalável, com recursos sob demanda para aumentar ou diminuir
Integração de Dados
A integração com fontes de dados externas pode ser complexa e consumir muitos recursos
Integração simplificada de dados com ferramentas e serviços ETL baseados em nuvem
Segurança de dados
A segurança e a conformidade são gerenciadas internamente, o que é potencialmente complexo
Os provedores de nuvem oferecem recursos de segurança robustos, com criptografia, controles de acesso e medidas de conformidade
Backup e recuperação de desastres
Envolve a configuração e o gerenciamento de soluções de backup e recuperação de desastres
Os provedores de nuvem oferecem opções integradas de backup e recuperação de desastres
Provisionamento de recursos
Provisionamento manual e planejamento de capacidade para recursos de hardware
Provisionamento, escalonamento e gerenciamento automáticos de recursos
Flexibilidade e Agilidade
Flexibilidade limitada, menos ágil na resposta às mudanças nas necessidades de negócios
Maior flexibilidade e agilidade, com capacidade de dimensionar recursos sob demanda
Modelo de Custo
Modelo de despesas de capital, onde os custos são iniciais e fixos
Modelo de despesas operacionais, com preços flexíveis de pagamento conforme o uso
Manutenção e Atualizações
Responsabilidade interna pela manutenção, atualizações e patches de hardware
O provedor de nuvem cuida da manutenção, atualizações e patches da infraestrutura
Integração com ferramentas de BI
A integração com ferramentas de BI pode exigir configuração e gerenciamento adicionais
Integração perfeita com uma ampla gama de ferramentas de BI e análise
Governança de dados
Requer processos e ferramentas de governança interna
Os data warehouses baseados em nuvem geralmente fornecem recursos e ferramentas de governança de dados
Controle de localização de dados
Controle total sobre localização e residência de dados
Os dados baseados em nuvem podem ser distribuídos entre regiões, com a residência dos dados sujeita às políticas do provedor de nuvem
Monitoramento de recursos
Requer a configuração de ferramentas e sistemas de monitoramento
Os provedores de nuvem oferecem monitoramento e análise integrados para uso de recursos
Personalização da arquitetura DW com área de preparação e data marts
Você pode personalizar sua arquitetura de data warehouse com uma área de preparação e data marts. Com essa personalização, você pode fornecer os dados certos aos usuários certos, o que os torna mais eficientes e eficazes para análise e inteligência de negócios.
Área de preparação:
Propósito: Uma área de preparação é um espaço de armazenamento intermediário dentro da arquitetura do data warehouse onde os dados brutos ou minimamente processados são armazenados temporariamente antes de serem carregados no data warehouse principal.
Personalização: você pode personalizar a área de preparação com base nas necessidades de integração de dados da sua organização. Por exemplo, você pode projetar a área de preparação para acomodar processos de transformação de dados, limpeza de dados e validação de dados que preparam os dados para análise.
Datamarts:
Objetivo: Data marts são subconjuntos de um data warehouse projetados especificamente para atender às necessidades analíticas de departamentos de negócios, funções ou grupos de usuários. Eles contêm dados pré-agregados e personalizados para tipos específicos de análise.
Personalização: Para personalizar a arquitetura do data warehouse com data marts, é necessário projetar e preencher esses data marts com base nos requisitos exclusivos de cada departamento ou grupo de usuários.
Melhores práticas de arquitetura de data warehouse
Crie modelos de data warehouse que são otimizados para recuperação de informações em abordagens dimensionais, desnormalizadas ou híbridas.
Decida entre um ETL ou ELT abordagem para integração de dados.
Selecione uma única abordagem para projetos de data warehouse, como a abordagem de cima para baixo ou de baixo para cima, e fique com ela.
Se estiver usando um ETL abordagem, sempre limpe e transforme os dados usando uma ferramenta ETL antes de carregá-los no data warehouse.
Foto tirada de medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632
Crie um processo de limpeza de dados automatizado onde todos os dados são limpos uniformemente antes do carregamento.
Permita o compartilhamento de metadados entre diferentes componentes do data warehouse para um processo de extração tranquilo.
Adote uma abordagem ágil em vez de uma abordagem fixa para criar seu data warehouse.
Certifique-se sempre de que os dados estejam devidamente integrados e não apenas consolidado ao movê-lo dos armazenamentos de dados para o data warehouse. Isso exigiria a normalização 3NF dos modelos de dados.
Primeiro, identifique onde residem seus dados críticos de negócios e quais dados são relevantes para suas iniciativas de BI. Em seguida, crie uma estrutura de metadados padronizada que forneça contexto crítico para esses dados no modelagem de dados palco.
Essa estrutura combinaria seu modelo de data warehouse com o sistema de origem, garantindo a construção apropriada de relacionamentos entre entidades com chaves primárias e estrangeiras corretamente definidas. Ele também estabeleceria junções de tabela corretas e atribuiria tipos de relacionamento de entidade com precisão.
Além disso, você precisa ter processos implementados que permitam integrar novas fontes e outras modificações em seu modelo de dados de origem e reimplantá-lo. Adotar uma abordagem iterativa fornecerá uma visão mais granular dos dados entregues para fins de BI e visualizações materializadas.
Você pode adotar um 3NF ou abordagem de modelagem dimensional, dependendo de seus requisitos de BI. O último é melhor, pois ajudará você a criar uma estrutura simplificada e desnormalizada para seu modelo de data warehouse.
Enquanto você faz isso, aqui estão algumas dicas essenciais que você deve ter em mente:
Manter uma granulação consistente em modelos de dados dimensionais
Aplique a técnica correta de manuseio de SCD aos seus atributos dimensionais
Simplifique o carregamento da tabela de fatos usando uma abordagem baseada em metadados
Implemente processos para lidar com fatos que chegam cedo
Finalmente, os membros da equipe podem testar qualidade de dados e a integridade dos modelos de dados antes de serem implantados no banco de dados de destino. Ter um verificação automatizada do modelo de dados ferramenta pode fornecer economia de tempo significativa.
Seguir essas práticas recomendadas ao automatizar a modelagem de esquema o ajudará a atualizar perfeitamente seu modelo e propagar as mudanças em seus pipelines de dados.
A próxima etapa no processo de projeto de data warehouse é selecionar a arquitetura de data warehouse correta.
Construa seu data warehouse com Astera Construtor de DW
Astera Construtor de DW é uma solução de armazenamento de dados de ponta a ponta que automatiza o design e a implantação de um armazenamento de dados em um ambiente sem código.
Ele usa uma abordagem meta-orientada que permite aos usuários manipular dados usando um conjunto abrangente de transformações integradas sem scripts ETL complexos ou scripts SQL.
Implementar uma arquitetura de dados moderna e integrada pode ajudar você a quebrar silos de dados, que fazem com que os tomadores de decisão da alta gerência percam 12...