Blogs

Accueil / Blogs / Modernisez votre architecture de données avec une approche fondée sur les meilleures pratiques en matière de modélisation de données dimensionnelles

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Modernisez votre architecture de données avec une approche des meilleures pratiques de la modélisation des données dimensionnelles

Juillet 25th, 2022

La modélisation des données dimensionnelles est le fondement d'une conception efficace d'entrepôt de données depuis des décennies. La méthodologie de Kimball promet des performances de requête optimisées et une structure rationalisée facilement compréhensible par les parties prenantes à tous les niveaux de l'entreprise. Lisez la suite pour découvrir comment notre approche automatisée vous aide à mettre en œuvre ce schéma pour une efficacité maximale dans votre entrepôt de données.

Pour créer une architecture d'analyse vraiment moderne qui permet des techniques avancées telles que l'apprentissage automatique, l'analyse prédictive, la prévision et la visualisation des données, vous devez implémenter la modélisation des données dimensionnelles dans votre entrepôt de données. Il y a quelques coches qu'un système de BI doit cocher avant de pouvoir se qualifier.

Premièrement, il doit être capable de collecter et de traiter de gros volumes de données provenant de sources transactionnelles disparates. Deuxièmement, il doit gérer à la fois les enregistrements actuels et historiques. Troisièmement, il doit prendre en charge une gamme d'opérations de requête complexes et en constante évolution. Enfin, il doit produire des données à jour et pertinentes pour vos utilisateurs finaux.

La clé pour répondre à ces attentes réside dans la phase de conception lors de la modélisation des données. Les décisions que vous prenez ici affecteront directement l'agilité, les performances et l'évolutivité de votre entrepôt de données.

Mais pourquoi la modélisation de données dimensionnelles ?

Esquisse d'un schéma en étoile

Le schéma en étoile classique

 

Supposons que vous optiez pour un schéma 3NF, qui minimise la redondance des données grâce à la normalisation. Le nombre de tables en magasin augmentera considérablement. Cela signifie que toute requête exécutée sur un schéma 3NF impliquerait de nombreuses jointures complexes.

Par comparaison, modélisation dimensionnelle Les techniques offrent une structure rationalisée et dénormalisée qui produit beaucoup moins de jointures et améliore ainsi les performances des requêtes. Les modèles de données dimensionnels prennent également en charge données changeant lentement et les dimensions spécifiques à la date et à l'heure, qui facilitent toutes deux l'analyse historique. Ce schéma est plus facilement compris par les utilisateurs finaux, leur permettant de collaborer avec leur équipe de développement en utilisant un langage commun. En conséquence, il devient beaucoup plus facile de créer un entrepôt de données autour de processus métier réels et de faire évoluer le modèle de données pour englober les besoins en constante évolution de votre entreprise.

Examinons quelques facteurs critiques qui feront de vos modèles dimensionnels un moteur clé pour le développement de votre entrepôt de données.

Attention au grain

Faites attention au grain lors de la création d'un modèle de données dimensionnel

Il est essentiel de trouver le bon grain pour votre table de faits (indice : le blé ne fonctionnera pas)

Il est essentiel de trouver le bon grain pour votre ligne de table de faits (indice : le blé ne fonctionnera pas)

En règle générale, vous souhaiterez créer des modèles dimensionnels individuels pour différents domaines d'activité au sein de votre entreprise. Chacun de ces processus aura un grain défini ; il s'agit du niveau de détail auquel les données sont stockées dans les tables de faits et les dimensions associées. Il est essentiel de maintenir un grain cohérent dans les modèles de données dimensionnelles pour garantir les meilleures performances et la meilleure utilisabilité pendant la phase de consommation. Sinon, vous pourriez vous retrouver avec des rapports et des analyses mal calculés.

Pour un excellent exemple de cela, disons que vous concevez un modèle de données dimensionnel pour votre processus de vente. Vous disposez de deux sources différentes dans lesquelles les données sont enregistrées, l'une suivant les factures nationales par transaction et l'autre suivant les commandes générées globalement par mois. Une table est bien mieux adaptée au découpage ultérieur des données, tandis que la seconde fournit essentiellement une vue récapitulative du processus de vente, qui ne sera utile que pour les rapports de haut niveau et l'intelligence d'affaires.

En général, lorsque les données se rapportent à différents processus métier, vous pouvez supposer que plusieurs modèles devront être construits. Vous devez donc être capable de concevoir ces schémas avec précision en fonction des relations d'entité identifiées au niveau du système source. Les faits et les tableaux de dimensions doivent être attribués correctement au niveau de détail approprié.

En déménageant dans un processus qui vous permet d'automatiser la modélisation initiale du schéma, vous pouvez vous assurer que ces concepts de base sont correctement appliqués à votre schéma. À partir de là, vous pouvez travailler pour l'adapter plus étroitement à vos exigences BI. Plus important encore, vous pouvez facilement mettre à jour vos modèles pour refléter les changements dans le système source ou les exigences de l'utilisateur final, puis propager ces changements dans vos pipelines de données sans remaniement manuel important.

Un autre détail essentiel pour adopter votre approche est de vous assurer que votre approche de modélisation dimensionnelle inclut des tables de dimension de date. Ces tableaux fournissent divers types de mesures spécifiques à une date, telles que quotidiennes, mensuelles, annuelles, trimestrielles ou jours fériés. À terme, cela aidera les utilisateurs finaux à filtrer et à regrouper leurs données plus efficacement pendant la phase de consommation.

Gérez automatiquement vos données à évolution lente

Expliquer les documents historiques à travers un exemple

Ces enregistrements historiques peuvent être utiles (https://xkcd.com/2075/)

Les processus métier sont en constante évolution. Les employés se joignent à l'organisation, sont promus et finissent par prendre leur retraite. Les clients déménagent à une nouvelle adresse ou modifient leurs coordonnées. Dans certains cas, des départements entiers sont absorbés, renommés ou restructurés. Par conséquent, vous devez vous assurer que votre modèle dimensionnel peut refléter cet environnement dynamique avec précision.

En appliquant le technique de manipulation correcte du SCD à vos modèles de données dimensionnelles, vous pouvez prendre en compte les modifications apportées aux enregistrements dans le système source et, si nécessaire, conserver les données historiques pour une analyse plus approfondie. Désormais, plusieurs types de SCD sont disponibles en fonction de vos besoins. Les techniques vont du SCD de type 1 pour écraser les valeurs passées au SCD de type 3 qui met à jour l'enregistrement actuel tout en ajoutant un nouveau champ pour afficher la valeur précédente de l'attribut.

La table de dimension peut également contenir des champs supplémentaires pour indiquer quand un changement particulier est entré en vigueur (date d'entrée en vigueur/date d'expiration) ou la devise d'un enregistrement spécifique (version) au cas où plusieurs modifications y auraient été apportées au fil des ans. Vous pouvez même avoir un indicateur d'indicateur actif pour indiquer quelle version d'un enregistrement est en cours d'utilisation au moment du rapport.

Une mise en garde ici est qu'il est fastidieux de faciliter ces insertions et mises à jour lors du chargement manuel de l'entrepôt de données. Après tout, nous parlons de mettre en œuvre des processus pour vérifier automatiquement les modifications apportées à l'enregistrement du système source, puis d'identifier si les enregistrements doivent être écrasés ou mis à jour. Dans ce dernier cas, plusieurs nouvelles clés de substitution peuvent devoir être générées, sans parler de plusieurs nouveaux champs. Vous devrez également créer un mappage de données pour toutes ces activités.

Si vous développez votre entrepôt de données à l'aide d'un outil de modélisation de données dimensionnelles qui suit une approche basée sur les métadonnées sans code, vous pouvez simplement affecter les types SCD pertinents aux attributs au niveau logique. Ensuite, ces détails seront propagés à un moteur ETL qui peut gérer automatiquement les insertions/mises à jour ultérieures, les jointures et les considérations de mappage de données sans aucun effort manuel.

Rationaliser le chargement de la table des faits

Rationalisez le chargement des tables de faits avec des modèles de données dimensionnels

Tous les pipelines de données mènent à des tables de faits et de dimensions

Le chargement de la table de faits est un autre domaine qui introduit beaucoup d'efforts manuels supplémentaires lors du développement du pipeline de données. Ce processus implique l'ingénierie de plusieurs jointures entre les tables de dimension. Étant donné que les tables de faits contiennent généralement des millions d'enregistrements, le coût élevé de cette opération est évident.

Chaque fois que la table de faits est remplie, les recherches dans le modèle de données dimensionnelles croisent chaque clé métier avec la table de dimension pertinente et la convertissent en clé de substitution. Supposons que la table de dimensions soit particulièrement volumineuse ou que plusieurs modifications aient été apportées aux enregistrements source (dans le cas de dimensions à évolution lente). Dans ce cas, la recherche peut devenir particulièrement longue et gourmande en ressources. Bien entendu, cette tâche sera répétée de manière cohérente car les données transactionnelles sont constamment mises à jour.

Dans de nombreux cas, vous devrez peut-être créer un table intermédiaire entre le système source et l'entrepôt de données pour stocker toutes ces données historiques et ainsi faciliter leur traitement ultérieur pendant le chargement.

Vous devrez peut-être également effectuer des mappages de données hiérarchiques avancées à partir des systèmes sources pour vous assurer que les données au bon grain sont chargées dans la table de faits.

Maintenant, si nous revenons au approche basée sur les métadonnées décrit précédemment, nous pouvons trouver un moyen d'accélérer radicalement ce processus. Si, à la place, vous configurez des attributs de faits dans le modèle de données dimensionnel, utilisez ces entités dans le pipeline de données, les jointures et les recherches requises pour le remplissage de l'entrepôt de données peuvent être effectuées automatiquement par le moteur ETL/ELT sous-jacent.

 

Mettre en place des processus pour faire face aux faits qui arrivent tôt

Les modèles de données dimensionnelles aident à stocker les données historiques

Parfois, la réalité de votre environnement commercial peut ne pas correspondre parfaitement aux exigences d'un schéma standard.

Par exemple, un identifiant d'employé peut être généré pour une recrue avant que l'organisation n'ait des informations sur qui ils sont ou même une date d'adhésion spécifique pour le candidat. Si vous avez construit un modèle de données dimensionnel pour refléter votre processus RH, ce scénario se traduira par un enregistrement de table de faits sans aucun attribut dimensionnel associé. Essentiellement, une recherche de clé étrangère échouée.

Maintenant, dans ce cas, il s'agit d'attendre que les informations souhaitées arrivent, donc la meilleure approche consiste à remplacer les données manquantes par une dimension d'espace réservé contenant des valeurs par défaut. Ensuite, une fois que les coordonnées de l'employé sont enregistrées dans leur intégralité, les attributs peuvent être mis à jour dans le tableau correspondant. Dans d'autres cas, il se peut que vous ne souhaitiez pas du tout traiter l'enregistrement, auquel cas vous voudriez que l'entrée soit marquée ou complètement omise lors du remplissage de l'entrepôt de données.

Quelle que soit la manière dont vous gérez ces situations, votre modèle de données dimensionnelles doit permettre des configurations dynamiques qui reflètent la nature de votre entreprise.

Concevez rapidement des modèles de données dimensionnelles enrichis en métadonnées avec Astera Constructeur DW

Astera Constructeur DW est un outil complet de modélisation de données dimensionnelles qui vous permet de concevoir des modèles de dimensions complets à partir d'un système transactionnel en quelques minutes.

Notre moteur intuitif peut développer automatiquement un schéma le mieux adapté en attribuant des faits et des dimensions en fonction des relations d'entités contenues dans la base de données source. Alternativement, vous pouvez utiliser la boîte à outils riche en fonctionnalités d'ADWB pour créer votre propre modèle dimensionnel à partir de zéro, avec des tables de dimension de fait, de dimension et de date. Ensuite, configurez simplement chaque entité avec les attributs nécessaires, y compris les types SCD, les clés de substitution, les clés commerciales et d'autres métadonnées d'identification.

Nous proposons également diverses fonctionnalités pour accélérer le processus de chargement de l'entrepôt de données, notamment des chargeurs de faits et de dimensions dédiés pour accélérer le transfert de données vers votre destination. ADWB fournit également un objet de requête de modèle de données spécialement conçu qui vous permet de joindre plusieurs tables système source pour créer une entité source hiérarchique que vous pouvez facilement mapper aux tables d'entrepôt de données pertinentes.

Pour voir de plus près Astera Les capacités de modélisation dimensionnelle et d'automatisation de l'entrepôt de données de DW Builder, entrez en contact avec nous maintenant. Ou consulter le produit pour vous-même.

Tu pourrais aussi aimer
ANSI X12 et EDIFACT : différences clés
Schéma en étoile contre. Schéma en flocon de neige : 4 différences clés
Les 7 meilleurs outils Python ETL en 2024
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous