Blogs

Página inicial / Blogs / Conceitos de data warehouse: abordagem Kimball vs. Inmon

Tabela de conteúdo
O Automatizado, Nenhum código Pilha de dados

Saiba como Astera O Data Stack pode simplificar e agilizar o gerenciamento de dados da sua empresa.

    Conceitos de data warehouse: abordagem Kimball vs. Inmon

    Setembro 3rd, 2024

    Quando se trata de data warehouse (DWH), duas das abordagens de data warehouse mais amplamente discutidas e explicadas são as metodologias Inmon e Kimball. Durante anos, as pessoas debateram sobre qual abordagem de data warehouse é melhor e mais eficaz para as empresas. No entanto, ainda não há uma resposta definitiva, pois ambos os métodos têm vantagens e desvantagens.

    Neste blog, discutiremos os fundamentos de um data warehouse, suas características e compararemos as duas abordagens populares de data warehouse – Kimball vs. Inmon.

    O conceito principal de data warehouse permite que os usuários acessem uma versão unificada da verdade para a tomada de decisões, relatórios e previsões de negócios em tempo hábil. O DWH funciona como um sistema de informação com todos os dados passados ​​e comutativos armazenados de uma ou mais fontes.

    Modelos de data warehouse

    Modelos de data warehouse consulte o projetos arquitetônicos e estruturas usadas para organizar e gerenciar dados em um ambiente de armazenamento de dados. Esses modelos determinam como os dados são armazenados, acessados ​​e utilizados para fins analíticos. As seções principais incluem:

    • Armazém Virtual: Composto por bases de dados separadas que podem ser consultadas coletivamente, permitindo aos usuários acessar os dados como se estivessem armazenados em um único armazém.
    • DataMart: Focado em funções ou departamentos de negócios específicos, contendo subconjuntos de dados personalizados para análise.
    • Armazém de dados corporativos: Repositório abrangente que integra dados de diversas fontes em uma organização, oferecendo suporte a análises e relatórios em toda a empresa.

    Características de um Data Warehouse

    A seguir estão as quatro características de um Data Warehouse:

    • Orientado para o assunto: Um data warehouse usa um tema e fornece informações sobre um assunto específico em vez das operações atuais de uma empresa. Em outras palavras, o processo de armazenamento de dados está mais equipado para lidar com um tema específico. Exemplos de temas ou assuntos incluem vendas, distribuições, marketing, etc.
    • Integrado: A integração é definida como o estabelecimento de uma conexão entre uma grande quantidade de dados de vários bancos de dados ou fontes. No entanto, também é essencial que os dados sejam armazenados no data warehouse de forma unificada. O processo de armazenamento de dados integra dados de várias fontes, como mainframe, bancos de dados relacionais, arquivos simples, etc. Além disso, ajuda a manter códigos consistentes, medidas de atributos, convenções de nomenclatura e formatos.
    • Tempo variável: A variante de tempo em um DW é mais extensa em comparação com outros sistemas operacionais. Os dados armazenados em um data warehouse são recuperados com um período de tempo específico e fornecem informações de uma perspectiva histórica.
    • Não volátil: No data warehouse não volátil, os dados são permanentes, ou seja, quando novos dados são inseridos, os dados anteriores não são substituídos, omitidos ou excluídos. Nesse data warehouse, os dados são somente leitura e são atualizados apenas em determinados intervalos. As duas operações de dados realizadas no data warehouse são o acesso aos dados e o carregamento dos dados.
    Abordagens de data warehouse

    Características e funções do data warehouse (fonte: GeeksforGeeks)

    Funções de um Data Warehouse

    O data warehouse funciona como um repositório. Ajuda as organizações a evitar o custo de sistemas de armazenamento e dados de backup em nível corporativo. As funções proeminentes do data warehouse são:

    Normalização vs. Abordagem de Desnormalização

    A normalização é definida como uma forma de reorganização de dados. Isso ajuda a atender a dois requisitos principais em um data warehouse empresarial ou seja, eliminando a redundância de dados e protegendo a dependência de dados. Por outro lado, a desnormalização aumenta a funcionalidade da infraestrutura do sistema de banco de dados.

    Data Warehouse vs. Banco de Dados

    As principais diferenças entre data warehouse e banco de dados estão resumidas na tabela abaixo:

    banco de dados Armazém de dados
    Um banco de dados é um amálgama de dados relacionados. O data warehouse serve como um sistema de informação que contém dados históricos e comutativos de uma ou várias fontes.
    Um banco de dados é usado para registrar dados. Um data warehouse é usado para analisar dados.
    Um banco de dados é uma coleção de dados orientada a aplicativos. Data warehouse é a coleção de dados orientada por assunto.
    Um banco de dados usa OLTP (Online Transactional Processing). O data warehouse usa processamento analítico online (OLAP).
    As tabelas e junções do banco de dados são normalizadas, portanto, mais complicadas.  As tabelas e junções do data warehouse são desnormalizadas, portanto, mais simples.
    Técnicas de modelagem ER são usadas para projetar Técnicas de modelagem de dados são usadas para projetar.

    Os dois conceitos de data warehouse: Kimball vs. Inmon

    Ambas as metodologias de projeto de data warehouse têm seus próprios prós e contras. Vamos analisá-los em detalhes para descobrir qual é o melhor.

    A Metodologia Kimball

    Iniciado por Ralph Kimball, o modelo de dados Kimball segue uma abordagem ascendente para projeto de arquitetura de data warehouse em que os data marts são formados pela primeira vez com base nos requisitos de negócios.

    As fontes de dados primárias são então avaliadas e uma Ferramenta Extrair, Transformar e Carregar (ETL) é usado para buscar dados de diversas fontes e carregá-los em uma área de teste do servidor de banco de dados relacional. Depois que os dados são carregados na área de preparação do data warehouse, a próxima fase inclui o carregamento dos dados em um modelo dimensional de data warehouse que é desnormalizado por natureza. Este modelo particiona os dados na tabela de fatos, que são dados transacionais numéricos ou tabela de dimensões, que são as informações de referência que suportam os fatos.

    O esquema em estrela é o elemento fundamental do modelo de data warehouse dimensional. A combinação de uma tabela de fatos com várias tabelas dimensionais é frequentemente chamada de esquema em estrela. A modelagem dimensional Kimball permite que os usuários construam vários esquemas em estrela para atender a várias necessidades de relatórios. A vantagem do esquema em estrela é que pequenas consultas de tabela dimensional são executadas instantaneamente.

    Para integrar os dados, a abordagem de Kimball para o ciclo de vida do Data Warehouse sugere a ideia de dimensões de dados conformados. Ela existe como uma tabela de dimensão básica compartilhada em diferentes tabelas de fatos (como cliente e produto) dentro de um data warehouse ou como as mesmas tabelas de dimensão em vários data marts Kimball. Isso garante que um único item de dados seja usado de maneira semelhante em todos os fatos.

    Uma importante ferramenta de design na metodologia de data warehouse de Ralph Kimball é a matriz de barramento corporativo ou arquitetura de barramento Kimball que registra verticalmente os fatos e horizontalmente registra as dimensões conformadas. A matriz Kimball, que faz parte da arquitetura do barramento, mostra como os esquemas em estrela são construídos. É usado por equipes de gerenciamento de negócios como uma entrada para priorizar qual linha da matriz Kimball deve ser implementada primeiro.

    A abordagem Kimball para o ciclo de vida do data warehouse também é baseada em fatos conformados, ou seja, data marts que são implementados separadamente junto com uma arquitetura robusta.

    Arquitetura de data warehouse do método Kimball

    Figura 2. Arquitetura básica do Kimball Data Warehouse explicada (Fonte: Zentut)

    Vantagens da Metodologia Kimball

    Alguns dos principais benefícios do Kimball Data Warehousing Concept incluem:

    • A modelagem dimensional Kimball é rápida de construir, pois não envolve normalização, o que significa execução rápida da fase inicial do armazenamento de dados processo de design.
    • Uma vantagem do esquema em estrela é que a maioria dos operadores de dados pode facilmente compreendê-lo por causa de sua estrutura desnormalizada, o que simplifica a consulta e a análise.
    • A pegada do sistema de data warehouse é trivial porque se concentra em áreas e processos de negócios individuais, em vez de em toda a empresa. Assim, ocupa menos espaço no banco de dados, simplificando o gerenciamento do sistema.
    • Ele permite a recuperação rápida de dados do data warehouse, pois os dados são segregados em tabelas de fatos e dimensões. Por exemplo, a tabela de fatos e dimensões para o setor de seguros inclui transações de apólices e transações de sinistros.
    • Uma equipe menor de designers e planejadores é suficiente para o gerenciamento do data warehouse porque os sistemas de fonte de dados são estáveis ​​e o data warehouse é orientado ao processo. Além disso, a otimização da consulta é direta, previsível e controlável.
    • Estrutura dimensional conformada para qualidade de dados estrutura. A abordagem Kimball para o ciclo de vida do data warehouse também é conhecida como abordagem de estilo de vida dimensional de negócios porque permite que as ferramentas de business intelligence se aprofundem em vários esquemas em estrela e gere insights confiáveis.
    Metodologia de Ciclo de Vida Kimball DW / BI - Grupo Kimball

    Abordagem Kimball para o ciclo de vida do data warehouse (fonte: Grupo Kimball)

    Desvantagens da Metodologia Kimball

    Algumas das desvantagens do Kimball Data warehousing conceito de design incluem:

    • Os dados não são totalmente integrados antes do relatório; a ideia de uma 'única fonte de verdade está perdida'.
    • Irregularidades podem ocorrer quando os dados são atualizados na arquitetura Kimball DW. Isso ocorre porque na técnica de desnormalização, dados redundantes são adicionados às tabelas do banco de dados.
    • Na arquitetura Kimball DW, podem ocorrer problemas de desempenho devido à adição de colunas na tabela de fatos, pois essas tabelas são bastante detalhadas. A adição de novas colunas pode expandir as dimensões da tabela de fatos, afetando seu desempenho. Além disso, o modelo de data warehouse dimensional torna-se difícil de alterar com qualquer mudança nas necessidades de negócios.
    • Como o modelo Kimball é orientado para os processos de negócios, em vez de focar na empresa como um todo, ele não pode lidar com todos os requisitos de relatórios de BI.
    • O processo de incorporação de grandes quantidades de dados legados no data warehouse é complexo.

    O método Inmon

    Bill Inmon, o pai do data warehousing, surgiu com o conceito de desenvolver um data warehouse que identifica as principais áreas de assunto e entidades com as quais a empresa trabalha, como clientes, produtos, fornecedores e assim por diante. A definição de Bill Inmon de um data warehouse é que é uma “coleção de dados orientada por assunto, não volátil, integrada e variante no tempo para apoiar as decisões da administração”.

    O modelo então cria um modelo lógico completo para cada entidade primária. Por exemplo, um modelo lógico é construído para produtos com todos os atributos associados a essa entidade. Esse modelo lógico pode incluir dez entidades diversas sob o produto, incluindo todos os detalhes, como motivadores de negócios, aspectos, relacionamentos, dependências e afiliações.

    O Abordagem de design de Bill Inmon utiliza a forma normalizada para construir a estrutura da entidade, evitando ao máximo a redundância de dados. Isso resulta na identificação clara dos requisitos de negócios e na prevenção de quaisquer irregularidades na atualização de dados. Além disso, a vantagem desta abordagem de cima para baixo no design de banco de dados é que ele é robusto às mudanças de negócios e contém uma perspectiva dimensional dos dados no data mart.

    Em seguida, é construído o modelo físico, que segue a estrutura normalizada. Este modelo de Bill Inmon cria uma única fonte de verdade para todo o negócio. O carregamento de dados torna-se menos complexo devido à estrutura normalizada do modelo. No entanto, usar esse arranjo para consulta é desafiador, pois inclui várias tabelas e links.

    Essa metodologia de data warehouse do Inmon propõe a construção de data marts separadamente para cada divisão, como finanças, vendas de marketing, etc. Todos os dados que entram no data warehouse são integrados. O data warehouse atua como uma única fonte de dados para vários data marts para garantir integridade e consistência em toda a empresa.

    Conceitos de Data Warehouse: Kimball vs. Inmon Approach 2

    Figura 3. Arquitetura básica de armazenamento de dados Bill Inmon explicada (Fonte: Universidade de Stanford)

    Vantagens do Método Inmon

    A abordagem de design Bill Inmon oferece os seguintes benefícios:

    • O data warehouse atua como uma fonte unificada de verdade para todo o negócio, onde todos os dados são integrados.
    • Essa abordagem tem redundância de dados muito baixa. Assim, há menos possibilidade de irregularidades na atualização de dados, tornando o processo de data warehouse baseado no conceito ETL mais direto e menos suscetível a falhas.
    • Ele simplifica os processos de negócios, pois o modelo lógico representa objetos de negócios detalhados.
    • Essa abordagem oferece maior flexibilidade, pois é mais fácil atualizar o data warehouse caso haja alguma mudança nos requisitos de negócios ou nos dados de origem.
    • Ele pode lidar com diversos requisitos de relatórios em toda a empresa.

    Desvantagens do Método Inmon

    As possíveis desvantagens desta abordagem são as seguintes:

    • A complexidade aumenta à medida que várias tabelas são adicionadas ao modelo de dados com o tempo.
    • Recursos qualificados em modelagem de dados de data warehouse são necessários, o que pode ser caro e difícil de encontrar.
    • A instalação e a entrega preliminares são demoradas.
    • A operação adicional do processo ETL é necessária, pois os data marts são criados após a criação do data warehouse.
    • Essa abordagem requer especialistas para gerenciar um data warehouse de forma eficaz.

    Qual abordagem de data warehouse escolher?

    Agora que avaliamos a abordagem Kimball vs. Inmon e vimos as vantagens e desvantagens de ambos os métodos, surge a pergunta: Qual desses conceitos de data warehouse seria melhor para o seu negócio?

    Ambas as abordagens consideram data warehouse como um repositório central que suporta relatórios de negócios. Além disso, ambos os tipos de abordagens usam conceitos de ETL para carregamento de dados. No entanto, a principal diferença está em modelar dados e carregá-los no data warehouse.

    A abordagem usada na construção do data warehouse influencia o tempo de entrega preliminar do projeto de armazenamento e a capacidade de suportar variações prospectivas no design do ETL.

    Ainda não tem certeza sobre a conclusão do dilema Kimball vs. Inmon? Podemos ajudá-lo a decidir qual dessas abordagens de data warehouse ajudaria a melhorar seu gerenciamento de qualidade de dados estrutura da melhor maneira?

    Reduzimos alguns aspectos que podem ajudá-lo a decidir entre as duas abordagens.

    • Necessidades de relatório: Se você precisa de relatórios integrados e em toda a organização, a abordagem de Bill Inmon é mais adequada. Mas se você precisar de relatórios focados no processo de negócios ou na equipe, opte pelo método Kimball.
    • Prazo final do projeto: Projetar um modelo de dados normalizado é comparativamente mais complexo do que projetar um modelo desnormalizado. Isso torna a abordagem do Inmon um processo demorado. Portanto, se você tiver menos tempo para entrega, opte pelo método Kimball.
    • Plano de recrutamento prospectivo: A maior complexidade da criação do modelo de dados na abordagem de data warehouse do Inmon requer uma equipe maior de profissionais para o gerenciamento de data warehouse. Portanto, escolha de acordo.
    • Mudanças frequentes: Se suas necessidades de relatórios provavelmente mudarem mais rapidamente e você estiver lidando com sistemas de origem volátil, opte pelo método Inmon, pois ele oferece mais flexibilidade. No entanto, se as necessidades de relatórios e os sistemas de origem forem comparativamente estáveis, é melhor usar o método Kimball.
    • Princípios Organizacionais: Se as partes interessadas e os diretores corporativos de sua organização reconhecem a necessidade de armazenamento de dados e estão prontos para arcar com as despesas, o método de armazenamento de dados Bill Inmon seria uma aposta mais segura. Por outro lado, se os tomadores de decisão não estiverem preocupados com os detalhes da abordagem e estiverem apenas procurando uma solução para melhorar os relatórios, basta optar pelo método de data warehouse de Kimball.

    Linha inferior

    Ambos os conceitos de data warehouse Kimball e Inmon podem ser usados ​​para projetar modelos de data warehouse com sucesso. Na verdade, várias empresas usam uma combinação dessas duas abordagens (chamadas de modelo de dados híbridos).

    No modelo de dados híbrido, o método Inmon cria um modelo de data warehouse dimensional de um data warehouse. Em contraste, o método Kimball é seguido para desenvolver data marts usando o esquema em estrela.

    É impossível afirmar qual abordagem é a melhor, pois os dois métodos têm suas vantagens e desvantagens, funcionando bem em diferentes situações. Um designer de data warehouse deve escolher um método, dependendo dos vários fatores discutidos neste artigo.

    Por fim, para que qualquer método seja eficaz, ele deve ser bem pensado, explorado em profundidade e desenvolvido para gratificar sua empresa inteligência de negócios requisitos de relatórios.

    Astera Data Warehouse Builder – Uma solução automatizada de armazenamento de dados

    Astera Construtor de Data Warehouse oferece uma plataforma integrada para projetar, implantar e testar grandes volumes armazéns de dados e automatize os processos para alcançar insights significativos rapidamente, sem o incômodo de escrever códigos ETL.

    As organizações estão se movendo em direção a automação de data warehouse para economizar custos, maximizar a produtividade e obter insights acionáveis ​​mais rapidamente. A Automação de Data Warehousing permite que você crie rapidamente data marts de alta qualidade, construa pipelines de dados auto-regulados e forneça informações relevantes aos tomadores de decisão por meio de ferramentas de BI e análise.

    A Automação de Data Warehousing elimina a parte que consome mais tempo no preenchimento de um data warehouse: escrever código ETL/ELT. Como nenhuma codificação manual de SQL é necessária, os desenvolvedores podem concentrar sua energia em trabalhar em um nível lógico (nível de design) para criar fluxos de integração mais eficientes.

    Além disso, a automação ajuda a projetar um infraestrutura ágil de data warehouse. O resultado é um repositório de dados mais adaptável e responsivo que pode ser consultado de forma eficiente, produzindo insights valiosos em segundos e permitindo que você extraia insights valiosos.

    Em suma, remover a intervenção manual nas etapas de planejamento, modelagem e implantação permite que você construir um data warehouse de melhor qualidade com sucesso - isso também, em questão de semanas ou mesmo dias.

    autores:

    • Tehreem Naeem
    Você pode gostar
    Comportamento do modelo: por que sua empresa precisa de extração de dados LLM
    Extração de extrato bancário: software, benefícios e casos de uso
    Por que sua organização deve usar IA para melhorar a qualidade dos dados
    Considerando Astera Para suas necessidades de gerenciamento de dados?

    Estabeleça conectividade sem código com seus aplicativos corporativos, bancos de dados e aplicativos em nuvem para integrar todos os seus dados.

    Vamos nos conectar agora!
    vamos conectar