Blogs

Accueil / Blogs / Vérification du modèle de données pour améliorer la qualité de votre schéma d'entrepôt de données

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Vérification du modèle de données pour améliorer la qualité de votre schéma d'entrepôt de données

Novembre 29th, 2022

Que faut-il pour assurer la qualité et la robustesse de la mise en œuvre de votre entrepôt de données ? Un système de vérification approfondi des modèles de données qui vous permet de vérifier minutieusement vos modèles source et de destination et de les corriger avant qu'ils ne soient déployés. Parce que si votre schéma d'entrepôt de données est précis, les processus de chargement de données et de création de rapports ultérieurs seront automatiquement rationalisés et sans erreur.

Les modèles conceptuels de données servent de base à toute architecture d'entrepôt de données conçue pour fournir des données fiables pour le reporting et l'analyse. Étant le cœur même de machines aussi incroyables (entrepôt de données), il est logique de s'assurer que les modèles de données, lorsqu'ils sont utilisés, fonctionnent correctement sans générer d'erreurs ni perturber le processus de développement.

Comment créer un modèle de données stable

Générique de l'illustration: Geek & Poke

Mais la construction de modèles de données est rarement simple. Certains diraient que ce serait un rêve devenu réalité pour les modélisateurs de données qui souhaitent que leurs modèles fonctionnent comme un charme la première fois que les développeurs les utilisent pour les processus de chargement de données. Alors, comment pouvez-vous, en tant que modélisateur, atteindre ce nirvana de confiance totale dans vos modèles de données et éviter les longs cycles de test ?

La réponse réside dans l'exécution de contrôles complets de validation des modèles de données pendant la conception et juste avant leur déploiement.

Examinons en profondeur ce que l'on entend par vérification de modèle de données et comment elle peut avoir un impact sur la chronologie globale et la qualité de votre projet d'entrepôt de données.

Qu'est-ce qui fait de la vérification du modèle de données un DW essentiel

Il est essentiel de détecter ces erreurs de modèle de données au moment de la conception

Il est essentiel de détecter ces erreurs de modèle de données au moment de la conception

Lors de la création du schéma de l'entrepôt de données, les modélisateurs de données doivent faire attention à de nombreux détails plus fins pour que leurs modèles de données s'exécutent sans problème dans les processus ultérieurs. Pour vous donner une idée, examinons deux phases majeures de modélisation des données système qui bénéficieraient grandement de contrôles de vérification appropriés.

1. Contrôles de vérification au moment de la conception

Les modèles de données sont construits en référence à vos bases de données source et de destination. Vous devez vous assurer que vos modèles répondent à certaines règles, tests statistiques et normes de ces bases de données et n'ont pas logique erreurs.

Extrait du perspective de modélisation des données sources, différents types de validations de vérification impliquent la recherche d'incohérences au niveau du champ entre le modèle et la base de données source. Celles-ci vont des différences dans les types de données, les index, les alias, les noms de colonne et de table, jusqu'à la longueur des caractères, la nullité des colonnes, les clés primaires et les champs manquants dans la base de données.

Essentiellement, si les tables de base de données et le modèle de données source ne sont pas synchronisés, vous obtiendrez des erreurs à un stade beaucoup plus avancé lorsque vous utiliserez les modèles de données pour créer des pipelines de données et des champs de mappage.

Parlons de construire le schéma de destination, qui peut être 3NF, un modèle dimensionnel ou un coffre-fort de données. Pour les besoins de cette discussion, nous utiliserons la modélisation dimensionnelle (en raison de sa popularité parmi les masses). Il vous oblige à configurer les faits et les dimensions en définissant des clés commerciales et de substitution, des clés de date de transaction, Rôles SCD, identificateurs de ligne, vérifications de valeurs nulles et quelques autres spécifications.

Prenons l'exemple d'un Employés dimension. Vous souhaitez conserver l'historique de divers aspects des employés, comme la date de leur promotion, l'évolution des salaires, la date à laquelle ils ont été recrutés et ont quitté l'entreprise, etc. Pour cela, vous devrez utiliser SCD Type 2 ou Type 6 En outre, vous devez vous assurer que les clés métier et de substitution sont affectées, que les relations sont établies et qu'un identifiant de ligne est défini.

Erreur de clé de substitution manquante

Erreur de clé de substitution manquante dans la dimension Employé avec contexte complet

Alors, que se passera-t-il si une ou plusieurs pièces du puzzle manquent ? Disons que la clé de substitution n'a pas été définie.

Lorsque vous exécutez le pipeline de données pour la première fois, il insère les données normalement. Quand Pour résoudre ce problème, les développeurs ETL devront communiquer ce problème à l'équipe de modélisation des données, qui devra ensuite rechercher cette dimension spécifique avec la clé de substitution manquante pour le résoudre. Encore une fois, tout ce remaniement serait un long processus.

2. Contrôles de vérification pour assurer la conformité avec la base de données de destination

Une fois que vous avez créé le schéma de l'entrepôt de données, l'étape suivante consiste à reproduire dans la base de données cible. À ce stade, vous devez vous assurer que le script de votre schéma est conforme au fournisseur de base de données de destination, qui peut être Snowflake, Oracle, Azure ou Teradata.

Pour mettre cela en perspective, prenons l'exemple de Snowflake et comment il n'utilise pas d'index. Ainsi, si votre système source est SQL Server, qui prend en charge tous les types d'options d'indexation (clé primaire, cluster, non cluster, etc.), Snowflake affichera une erreur indiquant que l'indexation n'est pas prise en charge au moment de l'exécution.

Avec un module de validation de modèle de données en place, vous pouvez facilement valider un modèle et tester la qualité et l'intégrité des modèles de données avant qu'ils ne soient déployés sur la base de données cible ou utilisés pour remplir l'entrepôt de données. Cela permet aux équipes d'économiser de nombreuses heures de développement qui seraient autrement consacrées à refaire la conception du modèle de données et à reconstruire les pipelines de données.

Votre équipe de modélisation de données a-t-elle besoin d'un système de vérification ?

Ils le font très certainement.

Parlons des avantages que les équipes d'entreposage de données profitent de la mise en place d'un système de vérification de modèle de données compétent.

Identifie exactement où se trouvent les erreurs et les avertissements

Considérez que vous avez environ 60 tables dans votre base de données OLTP à partir desquelles vous avez créé un modèle de données source. Certaines tables peuvent avoir plus de 30 champs. Désormais, lorsque vous essayez de charger des données dans ces tables, votre fournisseur de base de données renvoie l'erreur selon laquelle certains types de données et longueurs de caractères ne sont pas pris en charge et doivent être modifiés. Il est probable que vous et vos collègues modélisateurs de données devez passer des heures à parcourir les modèles, à vérifier chaque entité et à corriger toutes ces erreurs.

Quelques erreurs courantes dans les modèles de donnéesQuelques erreurs courantes dans les modèles de données

Le fait de disposer d'un outil de vérification du modèle de données permet d'identifier instantanément toutes les erreurs et tous les avertissements et fournit un contexte complet de leur localisation. Il élimine pratiquement les conjectures lors du test de vos modèles de données et vous dirige là où vous devez effectuer des corrections dans votre schéma avec un processus itératif.

Économise des allers-retours entre les équipes

Générique de l'illustration: Le blog de Rich Murnane

Dans un cadre typique, les projets d'entreposage de données ont plusieurs équipes qui gèrent divers aspects de l'entrepôt de données. Il y aura des modélisateurs de données, des DBA, des développeurs ETL, des architectes de données et plusieurs autres.

L'équipe de modélisation des données travaille avec les utilisateurs professionnels pour déterminer leurs besoins en matière de rapports, consulte les DBA pour obtenir les spécifications des fournisseurs, construit et déploie les modèles, et donne enfin le signal vert aux développeurs ETL pour commencer à créer des pipelines pour le chargement des données.

Maintenant, même avec un outil d'entreposage de données, c'est un processus à forte intensité de main-d'œuvre. Mais les erreurs n'apparaissent généralement pas jusqu'à ce que vous atteigniez le point d'exécuter des pipelines de données pour remplir l'entrepôt de données.

Un système de vérification approfondie du modèle de données évite aux utilisateurs de revenir à la ligne de départ, d'apporter des modifications au modèle de données, de le transmettre à l'équipe suivante, puis d'exécuter les flux de chargement de données pour vérifier s'il fonctionne correctement. En apportant les correctifs au fur et à mesure que vous concevez les modèles de données, vous pouvez rationaliser considérablement le processus, en accélérant l'ensemble du cycle de développement en heures, voire en jours ou en semaines.

Assure la conformité avec les règles de script du fournisseur de base de données

Supposons que votre base de données OLTP se trouve dans SQL Server et que vous construisez l'entrepôt de données dans Oracle. Lors du déploiement de votre schéma sur une base de données Oracle, vous risquez de rencontrer des problèmes de restrictions de types de données, de longueurs de caractères et d'échelle, car les deux fournisseurs gèrent ces paramètres différemment. De même, vous pouvez obtenir une erreur si vous avez un index clusterisé dans votre modèle de destination, ce que, encore une fois, Oracle ne prend pas en charge.

Avec un système de vérification du modèle de données en place, vous pouvez facilement résoudre ces problèmes de conformité bien avant de déployer le schéma sur la base de données Oracle. Cela permet aux modélisateurs de données et aux développeurs ETL d'économiser de nombreuses heures de travail de développement qui, autrement, permettraient d'identifier les problèmes et de les résoudre dans chaque entité de modèle de données.

Accélère le processus global d'entreposage des données

« Mec, si seulement il y avait un système pour tester ces modèles de données et m'avertir immédiatement de ses erreurs, nous aurions économisé des tonnes d'heures de développement en les corrigeant encore et encore. »

~Modélisateur de données anonyme et souhaité

Un système de vérification de modèle de données efficace peut être le Saint Graal pour les équipes d'entreposage de données car il exécute des centaines de vérifications à la fois au moment de la conception et au moment du déploiement pour s'assurer que vos modèles de données sont stables. Il permet de tester l'intégrité et l'exactitude des modèles en fonction des exigences de reporting et garantit qu'il répond aux normes de script du fournisseur de base de données respectif.

Une fois que tout est en ordre avant que les modèles de données ne soient déployés et transférés à l'équipe suivante, les organisations peuvent bénéficier d'un gain de temps significatif, ce qui se traduit par un calendrier de projet réduit.

Tirez parti de la vérification du modèle de données en un clic avec Astera Constructeur DW

La discussion ci-dessus montre qu'un système de vérification de modèle de données est un élément essentiel pour la processus de modélisation des données et aide à rationaliser les processus tout au long du cycle de vie de l'entrepôt de données.

Astera Constructeur DW est une solution agile basée sur les métadonnées qui vous permet de concevoir, déployer et tester des modèles de données et de les utiliser pour créer des pipelines de chargement de données, le tout à partir d'une seule plate-forme. Il est livré avec un module de vérification approfondie du modèle de données qui monte la garde au moment du déploiement et garantit qu'aucune erreur ni aucun avertissement ne passe inaperçu par l'utilisateur.

D'un simple clic, la plateforme vous fournit automatiquement une image de la santé de vos modèles de données. De la vérification des clés métier manquantes, des anomalies de relation et des types de données non concordants à la garantie de la conformité aux normes de script de la base de données cible, vous pouvez compter sur Astera DW Builder pour identifier et signaler toutes les erreurs et avertissements possibles. Cela garantit que vos modèles de données sont stables et complets avant de passer à la phase suivante du projet.

Vous êtes intrigué et souhaitez voir comment valider vos modèles de données et rationaliser l'ensemble du processus d'entreposage de données ? Vérifier la démo du produit, ou faites-le faire un tour pour voir par vous-même avec un essai 14-day gratuit.

 

Tu pourrais aussi aimer
AsteraGuide sur la qualité et la gouvernance des données d'assurance
Gouvernance de l’information et gouvernance des données : une analyse comparative
Cadre de qualité des données : qu'est-ce que c'est et comment le mettre en œuvre
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous