Un guide complet sur la modélisation dimensionnelle

By |2022-07-20T07:14:37+00:00Février 1st, 2021|

La modélisation dimensionnelle implique l'utilisation de tables de faits et de dimensions pour conserver un enregistrement des données historiques dans les entrepôts de données. Différents types de techniques de modélisation de données sont optimisés pour différentes applications. Les modèles entité-relation normalisés (modèles ER) sont conçus pour éliminer la redondance des données et effectuer rapidement les opérations d'insertion, de mise à jour et de suppression, et obtenir les données dans une base de données.

Contrairement à cela, les modèles dimensionnels ou modèles de données dimensionnels de Kimball - modèles de données basés sur la technique développée par Ralph Kimball - sont des structures dénormalisées conçues pour récupérer des données à partir d'un entrepôt de données. Ils sont optimisés pour effectuer le Choisir et sont utilisés dans le cadre de conception de base pour construire des entrepôts de données hautement optimisés et fonctionnels.

Dans cet article, nous aborderons les bases de la modélisation dimensionnelle et les concepts qui y sont liés. Nous discuterons également de différents outils et méthodes de mise en œuvre pour concevoir avec succès des modèles de données dimensionnels.

Avantages de la modélisation dimensionnelle

La modélisation dimensionnelle reste la technique de modélisation de données la plus couramment utilisée pour la conception d'entrepôts de données d'entreprise en raison des avantages qu'elle procure. Ceux-ci inclus:

Récupération plus rapide des données

La modélisation dimensionnelle des données fusionne les tables dans le modèle lui-même, ce qui permet aux utilisateurs de récupérer plus rapidement des données à partir de différentes sources de données en exécutant des requêtes de jointure. Le schéma dénormalisé d'un entrepôt de données de modèle dimensionnel, par opposition à un schéma normalisé en flocon de neige, est optimisé pour exécuter des requêtes ad hoc. En conséquence, il complète grandement les objectifs de Business Intelligence (BI) d'une organisation.

Meilleure compréhension des processus métier

Les principes de la modélisation dimensionnelle sont basés sur des tables de faits et de dimensions. Nous verrons quels sont les faits et les dimensions dans les sections suivantes. Cette catégorisation des données en faits et dimensions, et la structure entité-relation d'un modèle dimensionnel, présentent des processus métier complexes d'une manière facile à comprendre pour les analystes.

Flexible pour changer

Le cadre de modélisation dimensionnelle rend le processus d'entreposage de données extensible. La conception peut être facilement modifiée pour incorporer de nouvelles exigences commerciales ou apporter des ajustements au référentiel central. De nouvelles entités peuvent être ajoutées dans le modèle ou la disposition des entités existantes peut être modifiée pour refléter les processus métier modifiés.

Éléments impliqués dans la modélisation dimensionnelle

Tables de faits ou mesures commerciales

Les tables de faits stockent les informations numériques sur les mesures commerciales et les clés étrangères des tables dimensionnelles. Les faits commerciaux peuvent être additifs, semi-additifs ou non additifs. La table 1 explique les trois types de tables de faits.

Type de faits Description
Faits Additifs Mesures métier pouvant être agrégées sur toutes les dimensions
Faits semi-additifs Mesures métier pouvant être agrégées sur certaines dimensions et non sur d'autres (généralement les dimensions de date et d'heure)
Faits non additifs Mesures métier qui ne peuvent pas être agrégées dans n'importe quelle dimension

Table 1: Types de faits dans une table de faits

Types de faits expliqués avec un modèle de données dimensionnel

Un magasin de vêtements gère les données suivantes dans les lignes de table de faits pour une transaction de vente :

Date Emplacement Type de produit Quantité Prix ​​unitaire Montant des ventes Inventaire La taxe de vente
6/3/2018 CA Nylon 5 100 500 30 7.75 %
6/3/2018 CA polyester 7 250 1750 50 7.75 %
6/3/2018 PA Nylon 6 100 600 65 6.00 %
6/3/2018 PA polyester 3 250 750 25 6.00 %
6/4/2018 CA Nylon 7 100 700 36 7.75 %
6/4/2018 CA polyester 6 250 1500 17 7.75 %
/ 4 / 2018 PA Nylon 9 100 900 14 6.00 %
6/4/2018 PA polyester 10 250 2500 20 6.00 %

Table 2: Table transactionnelle maintenue par un magasin de vêtements

Les colonnes contenant des informations numériques sur le processus métier représentent nos faits commerciaux. Dans cet exemple, Quantité, Prix ​​unitaire, Montant des ventes, Inventaireet La taxe de vente sont des faits. Et le reste des entités (Date, Magasinet Type de produit) sont des dimensions.

Montant des ventes peut être ajouté à toutes les dimensions, c’est donc un fait additif. De plus, en ajoutant Inventaire informations sur Magasin La dimension fournit des informations commerciales utiles, mais comme il ne s’agit que d’un instantané de la quantité de marchandises à un moment donné, elle est ajoutée à Date La dimension ne donne aucune idée utile de l’entreprise. Puisque Inventaire est additif sur certaines dimensions et non additif sur d’autres, c’est un fait semi-additif. Considérons maintenant La taxe de vente. Ajouter La taxe de vente à travers n'importe quelle dimension posera des problèmes pendant le traitement analytique. La taxe de vente est donc un fait non additif.

Tables de dimensions

Les tables de dimension stockent des informations descriptives sur les faits métier afin de faciliter la compréhension et l'analyse des données. Dans l'exemple présenté dans le tableau 2, Date, Emplacementet Type de produit sont des entités de dimension, et ils donnent plus d'informations sur les faits commerciaux. Le montant total des ventes est une mesure importante à enregistrer, mais sans les dimensions, une entreprise ne peut pas déterminer quel magasin ou type de produit génère davantage de ventes.

Modélisation dimensionnelle - tables de faits et de dimensions

Figure 1: schéma en étoile avec tables de faits et de dimensions

Clé primaire

La clé primaire est une colonne dans les tables de dimension qui identifie des enregistrements uniques. Pour les dimensions qui changent lentement, la clé de substitution sera la clé primaire.

Clé étrangère

Les clés étrangères permettent de joindre deux tables (généralement des tables de faits et de dimension). La clé primaire dans une table de dimension est une clé étrangère dans la table de faits associée et est utilisée pour référencer cette dimension particulière.

Conception d'un modèle de données dimensionnel

Pour comprendre le processus de concevoir des modèles dimensionnels, prenons l'exemple d'une ligne de vêtements qui vend deux types de coupe-vent - Nylon et Polyester dans ses deux magasins en Californie et en Pennsylvanie. Les exemples de données pour l'exemple sont présentés dans le tableau 2.

Étape 1: Identifier les processus métier

Avant de modéliser les données, vous devez les types de modélisation dimensionnelle sont appropriés pour votre modèle de données. Le processus de modélisation dimensionnelle (ou tout type de modélisation de données) commence par l'identification du processus métier que vous souhaitez suivre. Dans ce cas, nous souhaitons suivre les ventes des deux types de coupe-vent.

Étape 2 : Identifiez les faits et les dimensions dans votre modèle de données dimensionnel

Les informations contenues dans un modèle dimensionnel sont classées en deux types de tableaux: Les faits et Dimensions. L'étape suivante consiste à identifier les faits commerciaux que vous souhaitez mesurer et leurs dimensions associées. Dans notre exemple, la vente de coupe-vent est le fait que nous voulons mesurer. La date, l'emplacement du magasin (Californie et Pennsylvanie) et le type de produit (coupe-vent en nylon et coupe-vent en polyester) sont les dimensions qui nous permettent de mieux comprendre le processus de vente.

Étape 3: Identifier les attributs pour les dimensions

Une fois que vous avez identifié les dimensions et les faits de votre processus métier, l'étape suivante consiste à identifier les attributs et à créer une table dimensionnelle distincte pour chacune des dimensions. Il existe différents types de tables dimensionnelles pour chaque type de données. Chaque enregistrement de la table de dimension doit avoir une clé unique. Cette clé sera utilisée pour identifier de manière unique les enregistrements dans la table de dimension et sera utilisée comme clé étrangère dans la table de faits pour référencer la dimension particulière et la joindre à la table de faits. Les tableaux 3 à 5 montrent les différents types de dimensions dans un entrepôt de données dans notre exemple de ligne de vêtements.

Date Dimension
Date clé Date journée
10201 6/3/2018 Dimanche
10202 6/4/2018 Lundi

Table 3: Table de dimension pour la date

Dimension magasin
Clé de magasin Nom du magasin Ville Région
151 Angie's Apparel Los Angeles Californie
152 Angie's Apparel Pittsburgh Pennsylvanie

Table 4: Table de dimension pour Store

Dimensions du produit
Code du produit Collection Matières Couleur
131620 Coupe-vent - Collection d'automne Nylon Orange
131571 Coupe-vent - Collection d'automne polyester Noir

Table 5: Table de dimension pour le produit

Étape 4: définition de la granularité pour les faits commerciaux

La granularité fait référence au niveau d'informations stockées dans une table. Par exemple, dans notre exemple, le montant des ventes est enregistré quotidiennement, donc la granularité, dans ce cas, est quotidienne. Les tables de faits dans un modèle dimensionnel doivent être cohérentes avec la granularité prédéfinie.

Étape 5: Stockage des informations historiques (dimensions changeant lentement)

Une caractéristique importante des modèles dimensionnels est que les attributs dimensionnels peuvent être facilement modifiés sans modifier les informations de transaction complètes. Par exemple, la ligne de vêtements décide de continuer le coupe-vent en nylon de la collection d’automne dans la collection du printemps et met à jour le nom dans le Collection attribut. Faire la mise à jour est un processus facile dans la table dimensionnelle, mais avec la mise à jour, nous perdrons nos données précédentes. Si l'objectif de votre modélisation de données et de votre entrepôt de données est de maintenir et de stocker l'historique, cela pourrait poser problème. Les dimensions qui changent lentement au fil du temps sont appelées dimensions à évolution lente. De plus, la table de dimension temporelle dans un entrepôt de données est générée automatiquement et capture l'heure à laquelle les différentes transactions se produisent. Vous pouvez conserver et stocker des données historiques en suivant les dimensions qui changent lentement.

En savoir plus sur différents cas d'utilisation de dimensions à évolution lente.

Automatisation - Un changeur de jeu pour la modélisation dimensionnelle

La conception de modèles dimensionnels est une étape essentielle dans la construction du cadre d’un entrepôt de données d'entreprise. Le processus peut être rationalisé à l’aide d’un outil robuste d’automatisation de l’entrepôt de données tel que Astera Constructeur d'entrepôt de données.

Avec Astera Constructeur DW, vous pouvez créer rapidement des modèles dimensionnels dans un environnement de développement intégré sans code visuel. Les entités peuvent être dénormalisées par simple glisser-déposer et fusionner. Les rôles d'entité (faits et dimensions) peuvent être attribués en bloc, ce qui peut vous faire gagner un temps précieux lorsque vous travaillez avec des centaines d'entités. De plus, le produit vous permet de gérer des dimensions à évolution lente grâce à la prise en charge intégrée des types SCD 1, 2, 3 et 6.

Astera DW Builder est une plate-forme d'automatisation d'entrepôt de données de bout en bout qui comprend des capacités de modélisation de données dimensionnelles intégrées, la prise en charge d'une large gamme de bases de données et d'applications CRM, des fonctionnalités de mappage et de chargement de données automatisés et une intégration native avec des plates-formes d'informatique décisionnelle. tels que Tableau et Power BI.

Découvrir l' Astera Démo de DW Builder ou inscrivez-vous à un essai gratuit de faire l'expérience de la puissance de l'automatisation de l'entrepôt de données.