Blogs

Accueil / Blogs / Data Vault 101 : Un guide complet sur l'entreposage de données évolutif

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Data Vault 101 : un guide complet sur l'entreposage de données évolutif

27 février 2024

À mesure que les entreprises traitent des volumes de données plus importants et plus diversifiés, la gestion de ces données devient de plus en plus difficile. Seulement 5% des entreprises ont le sentiment de maîtriser la gestion des données, tout en 77% des leaders de l'industrie considèrent l’augmentation du volume de données comme l’un des plus grands défis. 

Le coffre-fort de données est une technologie émergente qui permet des architectures de données transparentes, agiles et flexibles, rendant les organisations basées sur les données toujours prêtes à répondre à l'évolution des besoins commerciaux.  

Qu'est-ce qu'un coffre-fort de données ?  

Un coffre-fort de données est une technique de modélisation de données qui vous permet de créer entrepôts de données pour l'analyse à l'échelle de l'entreprise. Il vous permet de vous adapter aux exigences métier en évolution rapide grâce à une approche agile et incrémentale, évitant ainsi le besoin d’une réingénierie approfondie. Il garantit également le suivi historique et l'audit des données, car il stocke toutes les données des systèmes sources sans aucune mise à jour ni suppression.

 

Architecture du coffre-fort de données

Un coffre-fort de données suit une architecture à trois niveaux contenant le coffre-fort brut, commercial et d'informations. Cette conception vous permet de créer des entrepôts de données agiles et évolutifs, résilients aux changements dans les systèmes sources et aux exigences métier.  

Coffre brut 

Le coffre-fort brut est le plus granulaire niveau, et il stocke les données aussi près que possible du format source. Il conserve également une trace de toutes les informations d'audit depuis la source. 

Étant donné que le coffre-fort brut est en insertion uniquement, aucune donnée n'est jamais supprimée ou mise à jour. Cela garantit que le coffre-fort brut préserve l’historique complet et la traçabilité des données. Le coffre-fort brut composé de hubs, de liaisons et de satellites. Ces tableaux capturent les clés métier, les relations et les attributs de vos données. 

  • Moyeux représentent des concepts commerciaux fondamentaux, tels que des clients, des produits ou des véhicules. Ils stockent les clés métier qui identifient de manière unique ces concepts, ainsi que certaines informations de métadonnées, telles que la date de chargement et l'ID de séquence. Les utilisateurs peuvent utiliser les clés métier pour rechercher des informations sur un hub. Par exemple, un Témoignages le hub a N ° de client comme la clé de l'entreprise, et un Produit le hub aura un ID de produit comme la clé de l'entreprise. 
  • Liens représentent les relations entre les pôles. Les liens stockent les combinaisons de clés commerciales, montrant comment ces hubs sont connectés. Par exemple, un lien entre Témoignages ainsi que Produit les hubs peuvent être un AchatTransactions tableau des liens. Il contiendra des données pertinentes pour ces deux hubs, telles que  Date d'achat, Quantité, Prix ​​total.
    Pour garantir que chaque transaction puisse être identifiée de manière unique, le coffre-fort de données concatènera les N ° de client ainsi que ID de produit, puis générez une clé de hachage basée sur la chaîne concaténée.
  • Satellites Boutique le descriptif des informations sur les hubs et les liens. Ils contiennent les attributs qui décrivent les caractéristiques ou les états des hubs et des liaisons au fil du temps. Par exemple, le satellite du Témoignages le hub peut stocker les données du client Prénom, Nom de famille, Adresse, Numéro de téléphone, etc.
    De même, le satellite du AchatTransactions la table de liens peut stocker des informations telles que Mode de paiement, Statut de livraison, Date de chargement, Source d'enregistrement. Dans ce tableau, Mode de paiement ainsi que  Statut de livraison fournir des informations supplémentaires sur chaque transaction. Date de chargement ainsi que  Source d'enregistrement sont des champs de métadonnées.
      

Coffre-fort d'entreprise 

Le coffre-fort métier est une autre couche dérivée du coffre-fort brut. Il applique des règles métier, des calculs, des fonctions de nettoyage et de qualité des données sélectionnées aux données. Le coffre-fort professionnel peut également contenir des hubs, des liaisons et des satellites, mais ils sont généralement créés en fonction des besoins de l'entreprise et ne sont généralement pas une copie directe de ceux du coffre-fort brut. Le coffre-fort d'entreprise est utile pour fournir une assistance aux requêtes et faciliter l'accès des utilisateurs aux données. 

Voici quelques transformations de données et règles de qualité des données qui pourraient être appliquées dans Business Vault dans notre exemple :

  • Transformation des données – Calcul de la valeur à vie du client : Vous pouvez disposer d'une règle de transformation qui calcule la valeur à vie de chaque client en fonction de son historique d'achat. Cela pourrait être implémenté sous la forme d'une nouvelle table satellite dans Business Vault qui associe chaque N ° de client avec un attribut LifetimeValue calculé. Le Valeur à vie pourrait être calculé comme la somme de Prix ​​total pour toutes les transactions associées à chaque N ° de client.
  • Transformation des données – Ventes par catégorie de produits : Vous souhaiterez peut-être suivre les ventes totales pour chaque catégorie de produits. Cela pourrait être implémenté en tant que nouveau hub et satellite dans le Business Vault qui associe chacun Catégories avec un calculé Ventes totales attribuer.
  • Règles de qualité des données : Vous pouvez avoir des règles métier qui appliquent des normes de qualité des données. Par exemple, vous pouvez avoir une règle qui signale toutes les transactions pour lesquelles le Prix ​​total est inférieur à zéro, ou lorsque le N ° de client or ID de produit n'existe pas dans les tables Hub respectives. Ces règles peuvent être implémentées sous forme de contrôles dans le processus de chargement des données ou sous forme de contraintes dans le schéma de la base de données. 

Coffre-fort d'informations 

Le coffre-fort d'informations (également connu sous le nom de magasins d'informations) est une couche de présentation construite à partir du coffre-fort brut et du coffre-fort métier pour prendre en charge le reporting et l'analyse. Il est composé de structures conviviales comme des schémas en étoile qui représententor datamarts. 

Le coffre-fort d'informations peut appliquer d'autres transformations et agrégations aux données pour les rendre prêtes à être utilisées par les utilisateurs finaux ou les outils de business intelligence. 

Coffre-fort de données

Architecture du coffre-fort de données

Apprenez à utiliser les magasins d'informations pour fournir des données personnalisées et pertinentes à vos utilisateurs finaux.

La combinaison du coffre-fort brut, du coffre-fort d'entreprise et des magasins d'informations permet une meilleure intégrité des données, un chargement en temps quasi réel et une meilleure prise en compte des nouveaux besoins commerciaux sans affecter les structures existantes.  

Avantages du coffre-fort de données  

Flexibilité et adaptabilité 

Le coffre-fort de données peut gérer plusieurs systèmes sources et des relations qui changent fréquemment en minimisant la charge de travail de maintenance. Cela signifie qu'une modification dans un système source créant de nouveaux attributs peut être facilement mise en œuvre en ajoutant un autre satellite au modèle de coffre-fort de données. 

De même, des relations nouvelles et changeantes peuvent être gérées en fermant un lien et en en créant un autre. Ces exemples montrent le haut niveau de flexibilité et d’adaptabilité offert par le coffre-fort de données. 

Évolutivité 

À mesure que le volume de données augmente ou que davantage de systèmes sources sont ajoutés, le coffre-fort de données évolue facilement. Vous pouvez introduire de nouveaux hubs, liens et satellites pour incorporer des sources de données ou des entités supplémentaires sans perturber la structure existante. L'entrepôt de données vous permet d'héberger plus de données et plus d'utilisateurs sans compromettre les performances ou la qualité. 

Préservation des données historiques 

L'utilisation de tables satellites dans le coffre-fort de données garantit la préservation des données historiques. Ceci est essentiel pour suivre les changements au fil du temps, analyser les tendances et répondre aux exigences de conformité réglementaire. Par exemple, dans un entrepôt de données cliniques, il est important de stocker des données historiques sur la façon dont les diagnostics des patients ou les spécialités des prestataires ont évolué au fil du temps.

Traçabilité des données et auditabilité 

Le coffre-fort de données intègre le traçage et l’auditabilité des données dans le modèle du coffre-fort de données. En d'autres termes, le coffre-fort de données stocke la date de chargement et la source de données pour chaque nouvel enregistrement, nous indiquant quand et d'où proviennent les données. De plus, vous pouvez analyser les clés de hachage et les différences de hachage pour comparer rapidement les valeurs des lignes et identifier les modifications. Ces fonctionnalités contribuent à garantir la qualité, la traçabilité et la responsabilité des données. 

Cohérence 

Le coffre-fort de données garantit la cohérence des données en capturant les données de manière cohérente même lorsque les données sources, ou leur livraison, sont incohérentes. Cela signifie que l'entrepôt de données peut fournir des informations fiables et précises pour les décisions commerciales. De plus, le coffre-fort de données permet le chargement parallèle de données avec l'utilisation de valeurs de hachage, ce qui améliore la vitesse d'accès aux données et la satisfaction des utilisateurs. 

Agilité  

Data Vault prend en charge le développement agile et l'évolution des exigences de l'entrepôt de données en suivant une méthodologie qui inclut plusieurs principes de processus de travail agiles. Cela signifie que les projets de coffre-fort de données ont des cycles de publication courts et contrôlés qui permettent à l'équipe de développement de travailler en étroite collaboration avec les besoins de l'entreprise et de créer une meilleure solution. 

Data Vault vs techniques traditionnelles d'entrepôt de données 

Le coffre-fort de données est une technique de modélisation permettant de créer des entrepôts de données, mais diffère des techniques traditionnelles telles que le modèle dimensionnel et le 3NF. Il présente quelques différences clés en termes de chargement des données, de modélisation des données et d'agilité des données. 

Chargement des données  

Le coffre-fort de données charge les données différemment par rapport aux techniques traditionnelles d'entreposage de données. Généralement, les entrepôts de données suivent Extraire-Transformer-Charger (ETL) workflow où les données sont transformées et validées avant d'être chargées dans l'entrepôt. Dans cette technique, vous devez mettre à jour ou supprimer les enregistrements existants dans l'entrepôt en fonction des modifications apportées aux systèmes source. 

En revanche, le coffre-fort de données exploite le flux de travail Extract-Load-Transform (ELT) dans lequel les données sont directement stockées dans le coffre-fort brut à partir du système source. Les règles métier, les transformations ou les validations sont appliquées plus tard dans le processus, généralement dans le coffre-fort métier.  

Cette approche vous permet d'ajouter de nouveaux enregistrements au coffre-fort sans mettre à jour ni supprimer les enregistrements existants. Vous pouvez appliquer des règles métier, des transformations et des validations uniquement lorsque vous devez utiliser les données à des fins de reporting ou d'analyse. 

La modélisation des données 

Un entrepôt de données traditionnel utilise généralement une modélisation dimensionnelle ou une modélisation normalisée (3NF) pour organiser les données en faits et dimensions ou en entités et relations., avec respect 

Data Vault utilise une technique de modélisation hybride qui combine les meilleures pratiques de modélisation dimensionnelle et normalisée. Il exploite un schéma en étoile pour représenter les données de manière historique et flexible. Si le coffre-fort de données est le modélisation idéale des données pour vous, cela dépend de vos besoins. 

Agilité des données 

Un entrepôt de données possède généralement une structure rigide et stable conçue pour répondre aux exigences commerciales actuelles et anticipées. La structure de l'entrepôt peut changer au fil du temps en raison de changements dans les exigences commerciales, les systèmes sources ou les normes de qualité des données. Cependant, de tels changements peuvent nécessiter des efforts et des ressources importants pour modifier les processus ETL, les schémas d'entrepôt et les rapports existants. 

Le coffre-fort de données s'adapte aux exigences métier en évolution rapide en séparant les parties stables et temporelles d'un modèle de données. Cela signifie que les concepts métier fondamentaux et leurs relations sont stockés dans des hubs et des liens, qui changent rarement. En revanche, les attributs descriptifs et leurs évolutions au fil du temps sont stockés dans des satellites, qui peuvent être facilement ajoutés ou modifiés. 

De cette façon, le coffre-fort de données évite la nécessité d'une réingénierie approfondie de l'entrepôt de données lorsque de nouvelles sources ou attributs sont introduits ou que ceux existants sont modifiés. 

Capacité à gérer de gros volumes de données 

Le coffre-fort de données prend en charge le chargement parallèle de données provenant de différentes sources, ce qui augmente la vitesse et l'efficacité de l'intégration des données. Le coffre-fort de données est basé sur des méthodologies et des techniques agiles, vous permettant de fournir de la valeur en continu et itérativement, et collaborez activement avec les utilisateurs professionnels.

Meilleures pratiques du coffre-fort de données  

Le coffre-fort de données peut gérer des environnements de données complexes et dynamiques. Cependant, pour garantir une mise en œuvre réussie du coffre-fort de données, il est important de suivre les meilleures pratiques et d’éviter les pièges courants. Voici quelques conseils et recommandations d’experts en la matière : 

  • Plan et définissez clairement le modèle commercial et les exigences avant de concevoir le coffre-fort de données. CA aide identifier le key les concepts commerciaux, les relations et les attributs qui constitueront la base des hubs, des liaisons et des satellites.
  • Utilisez des outils d'automatisation pour accélérer et simplifier le développement et la maintenance du coffre-fort de données. Les outils d'automatisation peuvent aider à générer du code, des modèles de données, de la documentation et des tests basés sur des modèles et des métadonnées prédéfinis. 
  • Suivez l' coffre-fort de données 2.0 normes et meilleures pratiques pour garantir la cohérence, la qualité et l’évolutivité du coffre-fort de données. Data Vault 2.0 est une version mise à jour de la méthodologie d'origine intégrant de nouvelles fonctionnalités telles que les clés de hachage, le chargement parallèle, les colonnes d'audit et le coffre-fort métier.  
  • Évitez de surcharger le coffre-fort de données avec des données inutiles ou redondantes. DUn coffre-fort est conçu pour stocker les données brutes des systèmes sources sans appliquer de transformations ou de règles métier. Cependant, cela ne signifie pas qu’il faut tout charger dans le coffre-fort de données sans filtrer ni valider les données. Les utilisateurs ne doivent charger que les données pertinentes, précises et utiles pour leurs besoins professionnels. 
  • Surveillez et testez régulièrement les coffres-forts de données pour garantir leur performances, fiabilité et précision. Le coffre-fort de données est une structure de données dynamique et évolutive qui peut s'adapter aux changements dans les sources de données et aux exigences de l'entreprise. Cependant, cela signifie également que les utilisateurs doivent suivre les changements et leur impact.s sur le coffre-fort de données.  

Construisez un entrepôt de données avec Astera  

Le coffre-fort de données offre de nombreux avantages, tels que l'évolutivité, l'auditabilité, le parallélisme et l'adaptabilité, ce qui en fait un excellent choix pour les besoins modernes d'entreposage de données. Astera DW Builder est une conception d'entrepôt de données et ETL automatisée et sans code/ELT outil qui permet aux utilisateurs de créer des coffres-forts de données en quelques minutes.

Pour en apprendre plus sur Astera DW Builder et ses fonctionnalités de coffre-fort de données, visitez le site Web or demander une démo dès aujourd’hui. 

Tu pourrais aussi aimer
Les 7 meilleurs outils d'agrégation de données en 2024
Cadre de gouvernance des données : qu’est-ce que c’est ? Importance, piliers et meilleures pratiques
Gouvernance des données : feuille de route vers le succès et pièges à éviter
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous