O que é um Esquema Estelar?
Introduzido em 1996 por Ralph Kimball, um esquema em estrela é uma técnica de modelagem de dados multidimensional. É o tipo de esquema mais simples que as empresas usam em armazenamento de dados.
Com base em seu nome, um esquema em estrela é como uma estrela quando visualizado. Ele tem uma tabela de fatos no meio e muitas tabelas de dimensão anexadas a ela. Essa estrutura simples e desnormalizada torna muito eficiente a consulta de dados.
Esquema em estrela com tabelas de fatos e dimensões
Estrutura do Esquema em Estrela: Tabelas de Fatos e Dimensões
Tabelas de fatos
Tabelas de fatos, ou entidades de fatos, servem como a peça central do esquema em estrela. Uma tabela de fatos típica contém dados quantitativos ou métricas que representam eventos de negócios, transações ou medições. Esses fatos são normalmente valores numéricos, como receita de vendas, lucro ou unidades vendidas.
Podemos ver um exemplo de tabela de fatos abaixo. Ele contém fatos mensuráveis, como o preço de uma unidade vendida e o imposto sobre vendas.
Data | Localização da loja | Tipo de produto | Qtd. | Preço unitário | Quantidade de vendas | Estoque | Imposto sobre vendas |
8/4/2023 | CA | Nylon | 5 | 100 | 500 | 30 | 7.75% |
8/4/2023 | CA | poliéster | 7 | 250 | 1750 | 50 | 7.75% |
8/4/2023 | PA | Nylon | 6 | 100 | 600 | 65 | 6.00% |
Tabelas Dimensionais
As tabelas de dimensões são as tabelas auxiliares que fornecem contexto e atributos descritivos para os dados na tabela de fatos. Eles ajudam a responder a perguntas como “quem”, “o quê”, “quando”, “onde” e “como” relacionados a eventos de negócios. As tabelas de dimensões contêm dados categóricos, como nomes de clientes, categorias de produtos, períodos de tempo e localizações geográficas.
Exemplo: as duas tabelas de dimensão abaixo fornecem detalhes sobre as informações do produto na tabela de fatos acima.
Dimensão de Data |
Chave de data | Data | Dia |
10201 | 8/4/2023 | Sábado |
10202 | 8/4/2023 | Sábado |
Tabela de dimensões para Data
Dimensão da Loja |
Chave da Loja | Nome da loja | Cidades | Estado |
151 | AngAngie'sparel | Los Angeles | Califórnia |
152 | AngAngie'sparel | Pittsburgh | Pennsylvania |
Tabela de dimensões para loja
Vantagens de usar esquemas em estrela
-
Consulta simplificada: Os esquemas em estrela são fáceis de entender e implementar. Sua estrutura desnormalizada reduz o número de junções necessárias para recuperar dados. Isso simplifica e leva a agregação de dados e relatórios mais rápidos.
- Desempenho mais rápido: A complexidade de junção reduzida e a indexação eficiente de tabelas de fatos e dimensões aprimoram a recuperação de dados. Isso é particularmente importante para tomadores de decisão que precisam de acesso rápido a insights.
- Análise intuitiva: Os esquemas em estrela permitem uma análise de dados intuitiva e direta. Os usuários podem entender facilmente as relações e hierarquias entre as dimensões.
- Suporte robusto: Os esquemas em estrela fornecem suporte para estruturas OLAP, como cubos de dados – matrizes multidimensionais usadas para melhorar a análise de dados.
Desvantagens do uso de esquemas em estrela
- Falta de integridade: A desnormalização pode causar redundância de dados. Os atributos dimensionais geralmente são repetidos em vários registros em uma tabela de dimensões, o que pode causar problemas de qualidade de dados. Como os dados são duplicados na desnormalização, alterações frequentes também podem fazer com que certas tabelas exibam informações desatualizadas.
- Aumento de custos: Adicionar dados redundantes aumenta os custos de computação e armazenamento. Isso pode ser especialmente problemático ao lidar com grandes conjuntos de dados.
- Flexibilidade limitada: Os esquemas em estrela são relativamente menos robustos do que as estruturas normalizadas, pois são construídos para casos de uso específicos. Outras abordagens podem ser mais eficazes para consultas complexas envolvendo várias uniões.
- Dificuldades de manutenção: Como os dados mudam ao longo do tempo, manter um esquema em estrela pode se tornar um desafio. As atualizações nos atributos de dimensão podem exigir alterações em vários locais.
Quando usar o esquema em estrela
Esta técnica de modelagem dimensional é a melhor opção quando:
- Os usuários têm uma compreensão clara dos dados necessários. Por exemplo: o número de produtos vendidos por estado.
- Os dados são estruturados e quantitativos com alguns atributos categóricos.
- Eles querem os dados de forma rápida e fácil, sem criar várias junções. O desempenho da consulta é a principal prioridade.
- A redundância de dados não será um problema.
Analistas e usuários de negócios que desejam maior rigidez de dados podem optar por uma abordagem mais normalizada. O esquema floco de neve é uma extensão do esquema em estrela – ele é composto por um modelo em estrela normal com tabelas de subdimensões adicionais.
Os esquemas Snowflake usam uma abordagem mais normalizada adequada para menos redundância e consultas mais complexas.
Saiba mais sobre os prós e contras de Esquema estrela vs. esquema floco de neve e quando usá-los.
Conclusão
Esquemas em estrela são apenas uma abordagem para modelagem dimensional. Outras abordagens, como floco de neve e 3NF, também são amplamente utilizadas na construção de data marts e data warehouses. A tarefa importante para as equipes de dados é encontrar a melhor abordagem com base em seu caso de uso e recursos.
Selecionar a técnica de modelagem correta é vital para automatizar o armazenamento de dados e as iniciativas de BI. Confira nosso guia de kit de ferramentas sobre como criar modelos de dados e pipelines eficazes para automação de data warehouse e melhorar seus relatórios e análises.