À medida que as empresas lidam com volumes maiores e mais diversificados de dados, a gestão desses dados torna-se cada vez mais difícil. Apenas 5% das empresas sentem que têm o gerenciamento de dados sob controle, enquanto 77% dos líderes da indústria consideram o crescente volume de dados um dos maiores desafios.
O cofre de dados é uma tecnologia emergente que permite arquiteturas de dados transparentes, ágeis e flexíveis, tornando as organizações orientadas por dados sempre prontas para a evolução das necessidades de negócios.
O que é um cofre de dados?
Um cofre de dados é uma técnica de modelagem de dados que permite construir armazéns de dados para análises em escala empresarial. Ele permite que você se adapte aos requisitos de negócios em rápida mudança com uma abordagem ágil e incremental, evitando a necessidade de uma extensa reengenharia. Também garante rastreamento histórico e auditoria de dados, pois armazena todos os dados dos sistemas de origem sem quaisquer atualizações ou exclusões.
Arquitetura de cofre de dados
Um cofre de dados segue uma arquitetura de três camadas contendo o cofre bruto, de negócios e de informações. Esse design permite criar data warehouses ágeis e escaláveis, resilientes a mudanças nos sistemas de origem e nos requisitos de negócios.
Cofre Bruto
O vault bruto é o mais granular nível, e armazena dados o mais próximo possível do formato de origem. Ele também mantém controle de todas as informações de auditoria da fonte.
Como o vault bruto é somente de inserção, nenhum dado é excluído ou atualizado. Isso garante que o cofre bruto preserve o histórico completo e a rastreabilidade dos dados. O cofre bruto composto por hubs, links e satélites. Essas tabelas capturam chaves de negócios, relacionamentos e atributos de seus dados.
- Hubs representam conceitos centrais de negócios, como clientes, produtos ou veículos. Eles armazenam as chaves de negócios que identificam exclusivamente esses conceitos, juntamente com algumas informações de metadados, como data de carregamento e ID de sequência. Os usuários podem usar as chaves comerciais para consultar informações sobre um hub. Por exemplo, um Experiência e dinâmica de loja hub tem Identificação do Cliente como a chave do negócio e um Produto hub terá um ID do produto como a chave do negócio.
- Informações Úteis representam os relacionamentos entre hubs. Os links armazenam as combinações de chaves de negócios, mostrando como esses hubs estão conectados. Por exemplo, uma ligação entre Experiência e dinâmica de loja e Produto hubs podem ser um Transações de compra tabela de links. Ele conterá dados relevantes para ambos os centros, como Data de compra, Qtd., Preço total.
Para garantir que cada transação possa ser identificada de forma exclusiva, o cofre de dados concatenará os Identificação do Cliente e ID do produtoe gere uma chave hash com base na string concatenada. - Satélites loja da descritivo informações sobre hubs e links. Eles contêm os atributos que descrevem as características ou estados dos hubs e links ao longo do tempo. Por exemplo, o satélite da Experiência e dinâmica de loja hub pode armazenar o cliente Primeiro nome, Sobrenome, Endereço, Número de telefone, etc.
Da mesma forma, o satélite para o Transações de compra tabela de links pode armazenar informações como Forma de pagamento, Status de entrega, Data de carregamento, Fonte de registro. Nesta tabela, Forma de pagamento e Status de entrega fornecer informações adicionais sobre cada transação. Data de carregamento e Fonte de registro são campos de metadados.
Cofre de negócios
O cofre comercial é outra camada derivada do cofre bruto. Ele aplica regras de negócios selecionadas, cálculos, limpeza de dados e funções de qualidade de dados aos dados. O cofre comercial também pode conter hubs, links e satélites, mas geralmente são criados com base nas necessidades do negócio e geralmente não são uma cópia direta daqueles no cofre bruto. O cofre comercial é útil para fornecer assistência em consultas e facilitar o acesso do usuário aos dados.
Aqui estão algumas transformações de dados e regras de qualidade de dados que podem ser aplicadas no Business Vault em nosso exemplo:
- Transformação de dados – Cálculo do valor da vida do cliente: Você pode ter uma regra de transformação que calcule o valor da vida útil de cada cliente com base em seu histórico de compras. Isso poderia ser implementado como uma nova tabela satélite no Business Vault que associa cada Identificação do Cliente com um atributo LifetimeValue calculado. O Valor vitalício pode ser calculado como a soma de Preço total para todas as transações associadas a cada Identificação do Cliente.
- Transformação de Dados – Vendas por Categoria de Produto: Você pode querer acompanhar o total de vendas de cada categoria de produto. Isto poderia ser implementado como um novo Hub e Satélite no Business Vault que associa cada Categoria com um cálculo Vendas totais atributo.
- Regras de qualidade de dados: Você pode ter regras de negócios que imponham padrões de qualidade de dados. Por exemplo, você pode ter uma regra que sinaliza qualquer transação em que o Preço total for menor que zero, ou onde o Identificação do Cliente or ID do produto não existe nas respectivas tabelas Hub. Estas regras podem ser implementadas como verificações no processo de carregamento de dados ou como restrições no esquema do banco de dados.
Cofre de informações
O cofre de informações (também conhecido como Information Marts) é uma camada de apresentação construída a partir do cofre bruto e do cofre de negócios para dar suporte a relatórios e análises. É composto de estruturas fáceis de usar, como esquemas em estrela que representamor datamarts.
O cofre de informações pode aplicar outras transformações e agregações aos dados para torná-los prontos para consumo pelos usuários finais ou por ferramentas de business intelligence.
Arquitetura de cofre de dados
Aprenda como usar data marts para fornecer dados personalizados e relevantes aos seus usuários finais.
A combinação de cofre bruto, cofre de negócios e centros de informações permite melhor integridade de dados, carregamento quase em tempo real e melhor acomodação de novas necessidades de negócios sem afetar as estruturas existentes.
Benefícios do Cofre de Dados
Flexibilidade e adaptabilidade
O cofre de dados pode lidar com vários sistemas de origem e relacionamentos que mudam frequentemente, minimizando a carga de trabalho de manutenção. Isso significa que uma mudança em um sistema de origem que crie novos atributos pode ser facilmente implementada adicionando outro satélite ao modelo de cofre de dados.
Da mesma forma, relacionamentos novos e em mudança podem ser resolvidos fechando um link e criando outro. Esses exemplos mostram o alto nível de flexibilidade e adaptabilidade proporcionado pelo cofre de dados.
Escalabilidade
À medida que o volume de dados aumenta ou mais sistemas de origem são adicionados, o cofre de dados é facilmente dimensionado. Você pode introduzir novos hubs, links e satélites para incorporar fontes ou entidades de dados adicionais sem interromper a estrutura existente. O data warehouse permite acomodar mais dados e mais usuários sem comprometer o desempenho ou a qualidade.
Preservação de dados históricos
O uso de tabelas satélites no cofre de dados garante que os dados históricos sejam preservados. Isso é fundamental para monitorar mudanças ao longo do tempo, analisar tendências e atender aos requisitos de conformidade regulatória. Por exemplo, em um data warehouse clínico, é importante armazenar dados históricos para compreender como os diagnósticos dos pacientes ou as especialidades dos provedores evoluíram ao longo do tempo.
Linhagem de dados e auditabilidade
O cofre de dados incorpora a linhagem de dados e a auditabilidade no modelo de cofre de dados. Em outras palavras, o cofre de dados armazena a data de carregamento e a fonte de dados para cada novo registro, informando-nos quando e de onde vieram os dados. Além disso, você pode analisar chaves hash e diferenças de hash para comparar rapidamente os valores das linhas e identificar alterações. Esses recursos ajudam a garantir a qualidade, rastreabilidade e responsabilidade dos dados.
Consistência
O cofre de dados garante a consistência dos dados, capturando-os de maneira consistente, mesmo quando os dados de origem ou sua entrega são inconsistentes. Isso significa que o data warehouse pode fornecer informações confiáveis e precisas para decisões de negócios. Além disso, o cofre de dados permite o carregamento paralelo de dados com o uso de valores hash, o que melhora a velocidade de acesso aos dados e a satisfação do usuário.
Agilidade
O cofre de dados apoia o desenvolvimento ágil e a evolução dos requisitos de data warehouse, seguindo uma metodologia que inclui vários princípios de processos de trabalho ágeis. Isso significa que os projetos de cofre de dados têm ciclos de lançamento curtos e com escopo controlado, que permitem que a equipe de desenvolvimento trabalhe em estreita colaboração com as necessidades do negócio e crie uma solução melhor.
Cofre de dados versus técnicas tradicionais de data warehouse
O cofre de dados é uma técnica de modelagem para construir data warehouses, mas difere das técnicas tradicionais, como modelo dimensional e 3NF. Ele tem algumas diferenças importantes em termos de carregamento de dados, modelagem de dados e agilidade de dados.
Carregamento de dados
O cofre de dados carrega os dados de maneira diferente em comparação com as técnicas tradicionais de armazenamento de dados. Normalmente, os data warehouses seguem Extrair-Transformar-Carregar (ETL) fluxo de trabalho onde os dados são transformados e validados antes de serem carregados no warehouse. Nesta técnica, você deve atualizar ou excluir registros existentes no warehouse com base nas alterações nos sistemas de origem.
Por outro lado, o cofre de dados aproveita o fluxo de trabalho Extract-Load-Transform (ELT), onde os dados são armazenados diretamente no cofre bruto do sistema de origem. Regras de negócios, transformações ou validações são aplicadas posteriormente no processo, normalmente dentro do cofre de negócios.
Esta abordagem permite anexar novos registros ao vault sem atualizar ou excluir registros existentes. Você pode aplicar regras de negócios, transformações e validações somente quando precisar usar os dados para relatórios ou análises.
Modelagem de dados
Um data warehouse tradicional normalmente usa modelagem dimensional ou modelagem normalizada (3NF) para organizar os dados em fatos e dimensões ou entidades e relacionamentos., respeitosamente.
O Data Vault usa uma técnica de modelagem híbrida que combina as melhores práticas de modelagem dimensional e normalizada. Ele aproveita um esquema hub-and-spoke para representar os dados de maneira histórica e flexível. Se o cofre de dados é o modelagem de dados ideal para você depende de suas necessidades.
Agilidade de dados
Um Data Warehouse normalmente possui uma estrutura rígida e estável projetada para atender aos requisitos de negócios atuais e previstos. A estrutura do warehouse pode mudar ao longo do tempo devido a alterações nos requisitos de negócios, nos sistemas de origem ou nos padrões de qualidade dos dados. No entanto, tais mudanças podem exigir esforços e recursos significativos para modificar os processos ETL, esquemas de armazém e relatórios existentes.
O cofre de dados se adapta aos requisitos de negócios em rápida mudança, separando as partes estáveis e temporais de um modelo de dados. Isto significa que os principais conceitos de negócios e seus relacionamentos são armazenados em hubs e links, que raramente mudam. Em contrapartida, os atributos descritivos e suas alterações ao longo do tempo são armazenados em satélites, que podem ser facilmente adicionados ou modificados.
Dessa forma, o cofre de dados evita a necessidade de uma extensa reengenharia do data warehouse quando novas fontes ou atributos são introduzidos ou os existentes são modificados.
Capacidade para lidar com grandes volumes de dados
O cofre de dados suporta o carregamento paralelo de dados de diferentes fontes, o que aumenta a velocidade e a eficiência da integração de dados. O cofre de dados é baseado em metodologias e técnicas ágeis, permitindo entregar valor continuamente e iterativamentee colabore ativamente com usuários empresariais.
Práticas recomendadas para cofre de dados
O cofre de dados pode lidar com ambientes de dados complexos e dinâmicos. No entanto, para garantir uma implementação bem-sucedida do cofre de dados, é importante seguir as melhores práticas e evitar armadilhas comuns. Aqui estão algumas dicas e recomendações de especialistas na área:
- Planejamento e definir claramente o modelo de negócios e os requisitos antes de projetar o cofre de dados. Isso ajuda identifique o chave conceitos de negócios, relacionamentos e atributos que formarão a base de hubs, links e satélites.
- Use ferramentas de automação para acelerar e simplificar o desenvolvimento e a manutenção do cofre de dados. As ferramentas de automação podem ajudar a gerar código, modelos de dados, documentação e testes com base em padrões e metadados predefinidos.
- Siga o cofre de dados 2.0 padrões e práticas recomendadas para garantir consistência, qualidade e escalabilidade do cofre de dados. O Data Vault 2.0 é uma versão atualizada da metodologia original que incorpora novos recursos como chaves hash, carregamento paralelo, colunas de auditoria e Business Vault.
- Evite sobrecarregar o cofre de dados com dados desnecessários ou redundantes. DO ata vault foi projetado para armazenar dados brutos de sistemas de origem sem aplicar quaisquer transformações ou regras de negócios. No entanto, isso não significa que se deva carregar tudo no cofre de dados sem filtrar ou validar os dados. Os usuários devem carregar apenas os dados relevantes, precisos e úteis para suas necessidades de negócios.
- Monitore e teste os cofres de dados regularmente para garantir deles desempenho, confiabilidade e precisão. O cofre de dados é uma estrutura de dados dinâmica e em evolução que pode acomodar mudanças nas fontes de dados e nos requisitos de negócios. No entanto, isso também significa que os usuários devem acompanhar as mudanças e seu impactos no cofre de dados.
Construa um data warehouse com Astera
O cofre de dados oferece muitos benefícios, como escalabilidade, auditabilidade, paralelismo e adaptabilidade, tornando-o uma ótima opção para necessidades modernas de armazenamento de dados. Astera DW Builder é um projeto de data warehouse automatizado e sem código e ETL/ELT ferramenta que permite aos usuários construir cofres de dados em minutos.
Para saber mais sobre Astera DW Builder e seus recursos de cofre de dados, visite o site or solicite uma demonstração hoje mesmo.
autores:
- Fasih Khan