Depuis quelques décennies, l’architecture des entrepôts de données constitue le pilier des écosystèmes de données d’entreprise. Et malgré de nombreuses évolutions au cours des cinq dernières années dans le domaine du big data, du cloud computing, de l'analyse prédictive et des technologies de l'information, entrepôts de données n’ont fait que gagner en importance.
Aujourd'hui, l'importance de entreposage de données ne peut être nié, et il y a plus de possibilités disponibles pour stocker, analyser et indexer les données que jamais.
Cet article abordera les différents concepts de base d'une architecture d'entrepôt de données d'entreprise, les différents modèles d'entrepôt de données d'entreprise (EDW), leurs caractéristiques et leurs composants importants, et explorera l'objectif principal d'un entrepôt de données dans les industries modernes.
Théories de l'architecture de l'entrepôt de données
Pour comprendre l'architecture de l'entrepôt de données, il est important de connaître Ralph Kimball et Bill Inmon, les deux personnalités du domaine de l'entreposage de données. Ces deux propositions différentes approches à la conception d'architectures d'entreposage de données.
Approche Kimball
Ralph Kimball est connu pour son modélisation dimensionnelle approche, qui se concentre sur la fourniture de données d'une manière optimisée pour les requêtes et les rapports des utilisateurs finaux. L'approche Kimball se concentre sur la création d'entrepôts de données à l'aide de structures de schéma en étoile, dans lesquelles une table de faits centrale contient des mesures quantitatives et des tables de dimensions décrivent les attributs associés. Il s'agit d'une approche descendante, itérative et agile qui met l'accent sur la fourniture rapide de valeur commerciale en créant des datamarts spécifiques à un sujet pour répondre aux besoins spécifiques des utilisateurs en matière de reporting.
Approche Inmon
L’approche de Bill Inmon, quant à elle, met l’accent sur un environnement d’entreposage de données plus centralisé, complet et structuré. Il préconise un modèle de données normalisé dans lequel les données sont organisées en tables distinctes pour éliminer la redondance et maintenir intégrité des données. Il utilise un concept de « bus d'entrepôt de données » pour créer des composants standardisés et réutilisables et met l'accent sur intégration de données, la transformation et la gouvernance pour garantir l’exactitude et la cohérence des données.
Composants de l'architecture DWH
Avant de passer aux détails de l'architecture, comprenons les bases de ce qui constitue un entrepôt de données : le squelette derrière cette structure.
Les différentes couches d'un entrepôt de données ou les composants d'une architecture DWH sont :
- Base de données de l'entrepôt de données
Le composant central d'une architecture d'entrepôt de données typique est une base de données qui stocke toutes les données de l'entreprise et les rend gérables pour les rapports. Évidemment, cela signifie que vous devez choisir le type de base de données que vous utiliserez pour stocker les données dans votre entrepôt.
Voici les quatre types de base de données que vous pouvez utiliser:
- Bases de données relationnelles typiques sont les bases de données centrées sur les lignes que vous utilisez peut-être au quotidien, par exemple Microsoft SQL Server, SAP, Oracle et IBM DB2.
- Bases de données analytiques sont précisément développés pour le stockage de données afin de soutenir et de gérer les analyses, telles que Teradata et Greenplum.
- Applications d'entrepôt de données ne sont pas exactement des bases de données de stockage, mais plusieurs revendeurs proposent désormais des applications qui offrent logiciel de gestion de données ainsi que du matériel pour stocker les données. Par exemple, SAP Hana, Oracle Exadata et IBM Netezza.
- Bases de données en nuage peuvent être hébergés et récupérés sur le cloud afin que vous n'ayez pas à vous procurer de matériel pour configurer votre entrepôt de données, par exemple Amazon Redshift, Google BigQuery et Microsoft Azure SQL.
2. Outils d'extraction, de transformation et de chargement (ETL)
Outils ETL sont des éléments centraux d'un entrepôt de données d'entreprise conception. Ces outils aident à extraire des données de différentes sources, à les transformer en un arrangement approprié et à les charger dans un entrepôt de données.
L'outil ETL que vous choisissez déterminera les éléments suivants :
- Le temps passé à extraction de données
- Approches d'extraction de données
- Type de transformations appliquées et simplicité de le faire
- Définition de règle de gestion pour la validation des données et nettoyage pour améliorer l'analyse du produit final
- Remplir des données égarées
- Décrivant la distribution des informations du dépositaire fondamental à vos applications de BI
3. Métadonnées
Dans une architecture d'entrepôt de données typique, les métadonnées décrivent la base de données de l'entrepôt de données et offrent un cadre pour les données. Il aide à construire, préserver, gérer et utiliser l'entrepôt de données.
Il existe deux types de métadonnées dans l'entreposage de données :
- Les métadonnées techniques comprend des informations qui peuvent être utilisées par les développeurs et les gestionnaires lors de l'exécution des tâches de développement et d'administration de l'entrepôt.
- Métadonnées commerciales comprend des informations qui offrent un point de vue facilement compréhensible des données stockées dans l'entrepôt.
Rôle des métadonnées dans un entrepôt de données
Les métadonnées jouent un rôle important pour les entreprises et les équipes techniques pour comprendre les données présentes dans l'entrepôt et les convertir en informations.
Votre entrepôt de données n'est pas un projet ; c'est un processus. Pour que votre mise en œuvre soit la plus efficace possible, vous devez adopter une approche vraiment agile, ce qui nécessite une architecture d'entrepôt de données basée sur les métadonnées.
Il s'agit d'une approche visuelle de l'entreposage de données qui exploite des modèles de données enrichis en métadonnées pour piloter chaque aspect du processus de développement, de la documentation des systèmes sources à la réplication des schémas dans une base de données physique et à la facilitation cartographie des données de la source à la destination.
Le schéma de l'entrepôt de données est mis en place au niveau des métadonnées, ce qui signifie que vous n'avez pas à vous soucier de la qualité du code et de la façon dont il résistera à de gros volumes de données. En fait, vous pouvez gérer et contrôler vos données sans entrer dans le code.
En outre, vous pouvez tester les modèles d'entrepôt de données simultanément avant le déploiement et répliquez votre schéma dans n'importe quelle base de données principale. Une approche axée sur les métadonnées conduit à une culture de développement itérative et assure la pérennité du déploiement de votre entrepôt de données, afin que vous puissiez mettre à jour l'infrastructure existante avec les nouvelles exigences sans perturber l'intégrité et la convivialité de votre entrepôt de données.
Associée à des capacités d'automatisation, une conception d'entrepôt de données basée sur les métadonnées peut rationaliser la conception, le développement et le déploiement, conduisant à une mise en œuvre robuste d'entrepôt de données.
4. Outils d'accès à l'entrepôt de données
Un entrepôt 0data utilise une base de données ou un groupe de bases de données comme base. Les sociétés d'entrepôt de données ne peuvent généralement pas travailler avec des bases de données sans utiliser d'outils, à moins qu'elles ne disposent d'administrateurs de base de données. Cependant, ce n'est pas le cas de toutes les unités d'affaires.
C'est pourquoi ils utilisent l'assistance de plusieurs outils d'entreposage de données sans code, tels que :
- Outils de requête et de reporting aider les utilisateurs à produire des rapports d'entreprise pour analyse qui peuvent être sous la forme de feuilles de calcul, de calculs ou de visuels interactifs.
- Outils de développement d'applications aider à créer des rapports personnalisés et les présenter dans des interprétations destinées à des fins de rapport.
- Outils d'exploration de données pour l'entreposage de données systématiser la procédure d'identification des tableaux et des liens dans d'énormes quantités de données en utilisant des méthodes de modélisation statistique de pointe.
- Outils OLAP aider à construire un entrepôt de données multidimensionnel et permettre l'analyse des données d'entreprise à partir de nombreux points de vue.
5. Bus d'entrepôt de données
Il définit le flux de données au sein d'une architecture de bus d'entrepôt de données et comprend un data mart. Un data mart est un niveau d'accès qui permet aux utilisateurs de transférer des données. Il est également utilisé pour partitionner les données produites pour un groupe d'utilisateurs particulier.
6. Couche de rapport de l'entrepôt de données
La couche de reporting dans l'entrepôt de données permet aux utilisateurs finaux d'accéder à l'interface BI ou à l'architecture de base de données BI. Le but de la couche de reporting dans l'entrepôt de données est d'agir comme un tableau de bord pour la visualisation des données, de créer des rapports et de retirer toutes les informations requises.
Caractéristiques de la conception d'entrepôts de données
Voici les principales caractéristiques de la conception, du développement et des meilleures pratiques d'entreposage de données:
Axé sur le thème
Une conception d'entrepôt de données utilise un thème particulier. Il fournit des informations sur un sujet plutôt que sur les opérations d'une entreprise. Ces thèmes peuvent être liés aux ventes, à la publicité, au marketing, etc.
Au lieu de se concentrer sur les opérations ou les transactions commerciales, l'entreposage de données met l'accent sur l'intelligence d'affaires (BI), c'est-à-dire l'affichage et l'analyse des données pour la prise de décision. Il offre également une interprétation simple et concise d'un thème particulier en éliminant les données qui peuvent ne pas être utiles pour les décideurs.
Sécurité
À l'aide de la modélisation d'entrepôt de données, une conception d'entrepôt de données unifie et intègre les données de différentes bases de données d'une manière collectivement appropriée.
Il intègre des données provenant de diverses sources, telles que des bases de données relationnelles et non relationnelles, des fichiers plats, des mainframes et des systèmes basés sur le cloud. En outre, un entrepôt de données doit maintenir une classification, une disposition et un codage cohérents pour faciliter une analyse efficace des données.
Variance temporelle
Contrairement à d'autres systèmes opérationnels, l'entrepôt de données stocke les données centralisées d'une certaine période de temps. Par conséquent, l'entrepôt de données identifie les données collectées dans un délai spécifique et fournit des informations du point de vue passé. De plus, il ne permet pas la structure ou la modification des données après leur entrée dans l'entrepôt.
Non-volatilité
La non-volatilité est une autre caractéristique importante d'un entrepôt de données, ce qui signifie qu'il ne supprime pas les données primaires lorsque de nouvelles informations sont chargées. De plus, il ne permet que la lecture des données et le rafraîchissement intermittent pour fournir une image complète et mise à jour à l'utilisateur.
Types d'architecture d'entrepôt de données
L'architecture d'un entrepôt de données type définit la disposition des données dans différentes bases de données. Pour extraire des informations précieuses des données brutes, une structure d'entrepôt de données moderne identifie la technique la plus efficace pour organiser et nettoyer les données.
À l'aide d'un modèle dimensionnel, l'entrepôt de données extrait et convertit les données brutes de la zone de préparation en une structure d'entreposage de consommables simple pour fournir une intelligence économique précieuse.
De plus, contrairement à un entrepôt de données cloud, un modèle d'entrepôt de données traditionnel nécessite des serveurs sur site pour que tous les composants de l'entrepôt fonctionnent.
Lors de la conception d'un entrepôt de données d'entreprise, il existe trois types de modèles différents à prendre en compte :
Entrepôt de données à un niveau
La structure d'une architecture d'entrepôt de données à un niveau produit un ensemble dense de données et réduit le volume des données déposées.
Bien qu'il soit bénéfique pour éliminer les redondances, ce type de conception d'entrepôt ne convient pas aux entreprises ayant des besoins en données complexes et de nombreux flux de données. C'est là qu'interviennent les architectures d'entrepôt de données à plusieurs niveaux, car elles traitent des flux de données plus complexes.
Entrepôt de données à deux niveaux
En comparaison, la structure de données d'un modèle d'entrepôt de données à deux niveaux sépare les sources de données tangibles de l'entrepôt lui-même. Contrairement à une conception à un seul niveau, la conception à deux niveaux utilise un système et un serveur de base de données.
Les petites organisations où un serveur est utilisé comme magasin de données utilisent généralement ce type d'architecture d'entrepôt de données. Bien qu'elle soit plus efficace au niveau du stockage et de l'organisation des données, la structure à deux niveaux n'est pas évolutive. De plus, il ne prend en charge qu'un nombre nominal d'utilisateurs.
Entrepôt de données à trois niveaux
Le type d'architecture d'entrepôt de données à trois niveaux est le type le plus courant de conception DWH moderne car il produit un flux de données bien organisé allant des informations brutes aux informations précieuses.
Le niveau inférieur du modèle d'entrepôt de données comprend généralement le serveur de banque de données qui crée une couche d'abstraction sur les données provenant de nombreuses sources, comme les banques de données transactionnelles utilisées pour les utilisations frontales.
Le niveau intermédiaire comprend un Traitement analytique en ligne (OLAP) serveur. Ce niveau modifie les données dans un arrangement plus approprié pour l'analyse et le sondage à multiples facettes du point de vue de l'utilisateur. Puisqu'il inclut un serveur OLAP pré-construit dans l'architecture, nous pouvons également l'appeler l'entrepôt de données axé sur OLAP.
Le troisième et le plus haut niveau est le niveau client qui comprend les outils et l'interface de programmation d'application (API) utilisés pour l'analyse de données de haut niveau, les requêtes et les rapports.
Cependant, les gens incluent à peine le 4e niveau dans l'architecture de l'entrepôt de données car il n'est souvent pas considéré comme faisant partie intégrante des trois autres types.
Découvrons maintenant les principaux composants d'un entrepôt de données (DWH) et comment ils aident à créer et à faire évoluer un entrepôt de données en détail.
Architecture d'entrepôt de données basée sur le cloud
Une architecture d'entrepôt de données basée sur le cloud exploite les ressources du cloud computing pour stocker, gérer et analyser les données à des fins de business intelligence et d'analyse. La base de cet entrepôt de données est l'infrastructure cloud fournie par des fournisseurs de services cloud comme AWS (Amazon Web Services), Azure ou Google Cloud. Ces fournisseurs proposent des ressources à la demande telles que la puissance de calcul, le stockage et la mise en réseau.
Voici les principaux composants de l’architecture d’entrepôt de données basée sur le cloud :
- Ingestion de données: Le premier composant est un mécanisme permettant d'ingérer des données provenant de diverses sources, notamment des systèmes sur site, des bases de données, des applications tierces et des flux de données externes.
- Stockage de données: Les données sont stockées dans l'entrepôt de données cloud, qui utilise généralement des systèmes de stockage distribués et évolutifs. Le choix de la technologie de stockage peut varier en fonction du fournisseur de cloud et de l'architecture, avec des options telles qu'Amazon S3, Azure Data Lake Storage ou Google Cloud Storage.
- Ressources de calcul: Les entrepôts de données basés sur le cloud fournissent des ressources de calcul flexibles et évolutives pour exécuter des requêtes analytiques. Ces ressources peuvent être mises à disposition à la demande, afin que les entreprises puissent ajuster la puissance de traitement en fonction des exigences de la charge de travail.
- Mise à l'échelle automatique: Les entrepôts de données basés sur le cloud prennent souvent en charge la mise à l'échelle automatique, ce qui permet aux entreprises de s'adapter plus facilement de manière dynamique pour répondre aux exigences de la charge de travail.
Modèles d'architecture d'entrepôt de données traditionnels et cloud
Bien que les entrepôts de données traditionnels offrent un contrôle total sur le matériel et l'emplacement des données, ils s'accompagnent souvent de coûts initiaux plus élevés, d'une évolutivité limitée et de délais de déploiement plus lents. Les entrepôts de données cloud, en revanche, offrent des avantages en termes d'évolutivité, de rentabilité, d'accessibilité mondiale et de facilité de maintenance, avec en contrepartie un contrôle potentiellement réduit sur l'emplacement et la résidence des données.
Le choix entre les deux architectures dépend des besoins spécifiques, du budget et des préférences d'une organisation. Voici un aperçu plus approfondi des différences entre les deux :
Aspect | Entrepôt de données traditionnel | Entrepôt de données cloud |
Emplacement et infrastructure | Sur site, avec du matériel dédié | Basé sur le cloud, utilisant l'infrastructure du fournisseur de cloud |
Évolutivité | Évolutivité limitée, mises à niveau matérielles requises pour la croissance | Hautement évolutif, avec des ressources à la demande pour augmenter ou réduire |
Les dépenses en capital | Coûts d’investissement initiaux élevés pour le matériel et l’infrastructure | Coûts d'investissement initiaux réduits, modèle de tarification par répartition |
Dépenses opérationnelles | Coûts opérationnels continus pour la maintenance, les mises à niveau et l'alimentation/refroidissement | Coûts opérationnels réduits car le fournisseur de cloud gère la maintenance de l'infrastructure |
Temps de déploiement | Délais de déploiement plus longs pour l'achat et la configuration du matériel | Déploiement plus rapide grâce aux ressources cloud facilement disponibles |
Accessibilité globale | Accès limité aux emplacements sur site, peut nécessiter des configurations complexes pour un accès mondial | Facilement accessible depuis n'importe où dans le monde, avec la possibilité de distribuer les données à l'échelle mondiale |
Évolutivité | Évolutivité limitée, mises à niveau matérielles requises pour la croissance | Hautement évolutif, avec des ressources à la demande pour augmenter ou réduire |
Intégration Des Données | L'intégration avec des sources de données externes peut être complexe et gourmande en ressources | Intégration rationalisée des données avec les outils et services ETL basés sur le cloud |
Sécurité des données | La sécurité et la conformité sont gérées en interne, ce qui est potentiellement complexe | Les fournisseurs de cloud offrent des fonctionnalités de sécurité robustes, avec un cryptage, des contrôles d'accès et des mesures de conformité |
Sauvegarde et reprise après sinistre | Implique la mise en place et la gestion de solutions de sauvegarde et de reprise après sinistre | Les fournisseurs de cloud proposent des options intégrées de sauvegarde et de reprise après sinistre |
Approvisionnement en ressources | Provisionnement manuel et planification de la capacité pour les ressources matérielles | Approvisionnement, mise à l'échelle et gestion automatiques des ressources |
Flexibilité et Agilité | Flexibilité limitée, moins agile pour répondre aux besoins changeants de l'entreprise | Une plus grande flexibilité et agilité, avec la possibilité de faire évoluer les ressources à la demande |
Modèle de coût | Modèle de dépenses en capital, où les coûts sont initiaux et fixes | Modèle de dépenses de fonctionnement, avec une tarification flexible à l'utilisation |
Entretien et mises à jour | Responsabilité interne de la maintenance du matériel, des mises à jour et des correctifs | Le fournisseur de cloud gère la maintenance, les mises à jour et les correctifs de l'infrastructure |
Intégration avec les outils BI | L'intégration avec les outils BI peut nécessiter une configuration et une gestion supplémentaires | Intégration transparente avec une large gamme d'outils de BI et d'analyse |
Gouvernance des données | Nécessite des processus et des outils de gouvernance internes | Les entrepôts de données basés sur le cloud fournissent souvent des fonctionnalités et des outils de gouvernance des données |
Contrôle de l'emplacement des données | Contrôle total sur l'emplacement et la résidence des données | Les données basées sur le cloud peuvent être distribuées entre les régions, la résidence des données étant soumise aux politiques du fournisseur de cloud. |
Surveillance des ressources | Nécessite la mise en place d’outils et de systèmes de surveillance | Les fournisseurs de cloud offrent une surveillance et des analyses intégrées pour l'utilisation des ressources |
Personnalisation de l'architecture DW avec zone de préparation et Data Marts
Vous pouvez personnaliser l'architecture de votre entrepôt de données avec une zone de préparation et des datamarts. Grâce à cette personnalisation, vous pouvez fournir les bonnes données aux bons utilisateurs, ce qui les rend plus efficaces pour la business intelligence et l'analyse.
Zone de transit:
- Objectif: Une zone de préparation est un espace de stockage intermédiaire au sein de l'architecture de l'entrepôt de données où les données brutes ou peu traitées sont temporairement stockées avant d'être chargées dans l'entrepôt de données principal.
- Personnalisation: vous pouvez personnaliser la zone de préparation en fonction des besoins d'intégration de données de votre organisation. Par exemple, vous pouvez concevoir la zone de préparation pour prendre en charge les processus de transformation des données, de nettoyage des données et de validation des données qui préparent les données à l'analyse.
Datamarts:
- Objectif : Les datamarts sont des sous-ensembles d'un entrepôt de données spécialement conçus pour répondre aux besoins analytiques des départements métiers, des fonctions ou des groupes d'utilisateurs. Ils contiennent des données pré-agrégées et personnalisées pour des types d'analyse spécifiques.
- Personnalisation: Pour personnaliser l'architecture de l'entrepôt de données avec des data marts, vous devez concevoir et remplir ces data marts en fonction des exigences uniques de chaque service ou groupe d'utilisateurs.
Meilleures pratiques d'architecture d'entrepôt de données
- Créez modèles d'entrepôt de données qui sont optimisés pour la recherche d'informations dans des approches à la fois dimensionnelles, dénormalisées ou hybrides.
- Choisissez entre un ETL ou un ELT approche de l’intégration des données.
- Sélectionnez une approche unique pour les conceptions d'entrepôt de données, telle que l'approche descendante ou ascendante, et respectez-la.
- Si vous utilisez un ETL approche, nettoyez et transformez toujours les données à l’aide d’un outil ETL avant de charger les données dans l’entrepôt de données.
Photo tirée de medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632
- Créez un processus de nettoyage automatisé des données où toutes les données sont nettoyées uniformément avant le chargement.
- Autorisez le partage des métadonnées entre les différents composants de l'entrepôt de données pour un processus d'extraction fluide.
- Adoptez une approche agile au lieu d'une approche fixe pour créer votre entrepôt de données.
- Assurez-vous toujours que les données sont correctement intégrées et pas seulement consolidé lors du déplacement des magasins de données vers l'entrepôt de données. Cela nécessiterait la normalisation 3NF des modèles de données.
Automatiser la conception de l'entrepôt de données
L'automatisation de la conception des entrepôts de données peut démarrer le développement de votre entrepôt de données. Il est essentiel d'avoir une bonne approche.
Tout d'abord, identifiez où résident vos données commerciales critiques et quelles données sont pertinentes pour vos initiatives de BI. Ensuite, créez un cadre de métadonnées standardisé qui fournit un contexte critique pour ces données au niveau la modélisation des données étape.
Un tel cadre ferait correspondre votre modèle d'entrepôt de données au système source, garantissant une construction appropriée des relations entre les entités avec des clés primaires et étrangères correctement définies. Il établirait également des jointures de table correctes et attribuerait avec précision les types de relation d'entité.
En outre, vous devez disposer de processus en place qui vous permettent d'intégrer de nouvelles sources et d'autres modifications dans votre modèle de données source et de le redéployer. L'adoption d'une approche itérative fournira une vision plus granulaire des données fournies à des fins de BI et des vues matérialisées.
Vous pouvez adopter un 3NF ou approche de modélisation dimensionnelle, en fonction de vos exigences BI. Ce dernier est meilleur car il vous aidera à créer une structure rationalisée et dénormalisée pour votre modèle d'entrepôt de données.
Pendant que vous y êtes, voici quelques conseils essentiels que vous devriez garder à l'esprit :
- Maintenir un grain cohérent dans les modèles de données dimensionnels
- Appliquez la bonne technique de gestion SCD à vos attributs dimensionnels
- Rationalisez le chargement des tables de faits à l'aide d'une approche basée sur les métadonnées
- Mettre en place des processus pour traiter les faits précoces
Enfin, les membres de l'équipe peuvent tester qualité des données et l'intégrité des modèles de données avant leur déploiement sur la base de données cible. Avoir un vérification automatisée du modèle de données l'outil peut permettre un gain de temps considérable.
Le respect de ces bonnes pratiques lors de l'automatisation de la modélisation de schéma vous aidera à mettre à jour votre modèle de manière transparente et à propager les modifications dans vos pipelines de données.
La prochaine étape du processus de conception de l'entrepôt de données consiste à sélectionner la bonne architecture d'entreposage de données.
Construisez votre entrepôt de données avec Astera Constructeur DW
Astera Constructeur DW est une solution d'entreposage de données de bout en bout qui automatise la conception et le déploiement d'un entrepôt de données dans un environnement sans code.
Il utilise une approche méta-pilotée qui permet aux utilisateurs de manipuler des données à l'aide d'un ensemble complet de transformations intégrées sans scripts ETL complexes ou scripts SQL.
En savoir plus sur la meilleure architecture d'entrepôt de données pour les rapports.
Auteurs:
- Nida Fatima