Architecture de l'entrepôt de données: types, composants et concepts

By |2022-05-13T09:45:36+00:00Mai 23rd, 2019|

Au cours des dernières décennies, l'architecture de l'entrepôt de données a été le pilier des écosystèmes de données d'entreprise. Et malgré de nombreuses modifications au cours des cinq dernières années dans le domaine du Big Data, du cloud computing, de l'analyse prédictive et des technologies de l'information, les entrepôts de données n'ont fait que gagner en importance. Aujourd'hui, l'importance de entreposage de données ne peut être nié, et il y a plus de possibilités disponibles pour stocker, analyser et indexer les données que jamais.

Cet article abordera les différents concepts de base de l'architecture d'entrepôt de données, les différents modèles d'entrepôt de données d'entreprise (EDW), leurs caractéristiques et leurs composants importants, et explorera l'objectif principal d'un entrepôt de données dans les industries modernes.

Qu'est-ce qu'un entrepôt de données?

Un entrepôt de données est un référentiel centralisé qui comprend des informations passées et commutatives provenant d'une ou plusieurs sources. Les employés d'une organisation peuvent utiliser ce référentiel pour l'analyse, l'obtention d'informations et les prévisions futures.

Le processus ETL est un concept fondamental de l'entrepôt de données :

  • Extraction: Collecte de données provenant de diverses sources hétérogènes
  • Transformer: Conversion de données inférieures aux normes en données propres, structurées et vérifiées prêtes à l'emploi
  • Charge: Chargement des données sur une nouvelle destination

Les EDW rationalisent les processus de reporting et de BI des entreprises. Au lieu de traiter des transactions, un entrepôt de données fonctionne comme une base de données relationnelle et effectue des requêtes et des analyses. La principale différence entre les bases de données transactionnelles et les entrepôts de données est que les bases de données transactionnelles ne donnent pas lieu à des analyses, tandis que les analyses sont efficacement effectuées dans l'entrepôt de données. En bref, les bases de données transactionnelles et les entrepôts de données sont similaires à l'exception de l'aspect analytique.

Un modèle d'entrepôt de données comprend généralement des données transactionnelles historiques. Cependant, il peut également contenir des données provenant d'autres sources. Il distingue la capacité analytique de la capacité transactionnelle, permettant aux entreprises de collecter des données à partir de nombreuses sources. De cette façon, il aide à :

  • Conservation des enregistrements
  • Évaluer les données pour mieux comprendre et améliorer les opérations de l'entreprise

Outils et fonctionnalités d'un entrepôt de données

Avec une base de données relationnelle, une conception d’entrepôt de données peut contenir un outil d'extraction, de transformation et de chargement (ETL), l'analyse numérique, les capacités de création de rapports, les capacités d'exploration de données et d'autres applications. Ces outils et fonctionnalités gèrent la procédure d'accumulation de données, de conversion en informations précieuses et de transmission aux analystes commerciaux et autres utilisateurs. Ces capacités permettent de multiples applications et utilisations de l'entreposage de données. Par exemple, le secteur bancaire peut utiliser des entrepôts de données pour créer des modèles financiers susceptibles d'améliorer la rentabilité.

Une autre exemple de cas d'utilisation de l'entreposage de données est la gestion de la chaîne d'approvisionnement, où l'analyse et la prévision des données aident à réduire les délais et à rationaliser les opérations.

Cependant, le début de toute initiative d'entreposage de données nécessite un processus d'évaluation holistique et rigoureux. Des modèles d'évaluation d'entrepôt de données sont souvent utilisés à cette fin. Ils offrent des informations détaillées sur les besoins de l'entreprise, les attentes, les aspects techniques de la construction, de la planification et de l'exploitation d'un entrepôt de données.

Il est également important de noter que l'évaluation de l'entrepôt de données n'est pas un événement ponctuel et dépend souvent des besoins uniques d'une entreprise. Ces évaluations sont nécessaires pour connaître les principaux problèmes auxquels une organisation peut être confrontée lors de la planification de la création d'un entrepôt de données à partir de zéro.

Caractéristiques de la conception d'entrepôts de données

Voici les principales caractéristiques de la conception, du développement et des meilleures pratiques d'entreposage de données:

Axé sur le thème

Une conception d'entrepôt de données utilise un thème particulier. Il fournit des informations sur un sujet plutôt que sur les opérations d'une entreprise. Ces thèmes peuvent être liés aux ventes, à la publicité, au marketing, etc.

Au lieu de se concentrer sur les opérations ou les transactions commerciales, l'entreposage de données met l'accent sur l'intelligence d'affaires (BI), c'est-à-dire l'affichage et l'analyse des données pour la prise de décision. Il offre également une interprétation simple et concise d'un thème particulier en éliminant les données qui peuvent ne pas être utiles pour les décideurs.

Unifier

En utilisant la modélisation d'entrepôt de données, une conception d'entrepôt de données unifie et intègre les données de différentes bases de données d'une manière collectivement appropriée. Il intègre des données provenant de diverses sources, telles que des bases de données relationnelles et non relationnelles, des fichiers plats, des mainframes et des systèmes basés sur le cloud. En outre, un entrepôt de données doit maintenir une classification, une mise en page et un codage cohérents pour faciliter une analyse efficace des données.

Variance temporelle

Contrairement à d'autres systèmes opérationnels, l'entrepôt de données stocke les données centralisées d'une certaine période. Par conséquent, les données recueillies sont identifiées dans une durée spécifique et fournissent des informations du point de vue du passé. De plus, les données ne peuvent pas être structurées ou modifiées après leur entrée dans l'entrepôt.

Non-volatilité

Une autre caractéristique importante d'un entrepôt de données est la non-volatilité, ce qui signifie que les données primaires ne sont pas supprimées lorsque de nouvelles informations sont chargées dans l'entrepôt de données. De plus, les données sont uniquement lisibles et peuvent être actualisées par intermittence pour fournir une image complète et mise à jour à l'utilisateur.

Automatiser la conception de l'entrepôt de données 

L'automatisation de la conception des entrepôts de données peut démarrer le développement de votre entrepôt de données. Il est essentiel d'avoir une bonne approche. Tout d'abord, identifiez où résident vos données critiques et quelles données sont pertinentes pour vos initiatives de BI.

Ensuite, créez un cadre de métadonnées standardisé qui fournit un contexte critique pour ces données au stade de la modélisation des données. Un tel cadre serait capable de faire correspondre votre modèle d'entrepôt de données au système source et de garantir que les relations entre les entités sont correctement construites avec des clés primaires et étrangères correctement définies. Cela permettrait également d'établir que les tables sont jointes correctement et que les types d'entité-relation sont attribués avec précision.

En outre, vous devez disposer de processus en place qui vous permettent d'intégrer de nouvelles sources et d'autres modifications dans votre modèle de données source et de le redéployer. L'adoption d'une approche itérative fournira une vision plus granulaire des données fournies à des fins de BI et des vues matérialisées.

Vous pouvez adopter un 3NF ou approche de modélisation dimensionnelle, en fonction de vos exigences BI. Ce dernier est meilleur car il vous aidera à créer une structure rationalisée et dénormalisée pour votre modèle d'entrepôt de données.

Pendant que vous y êtes, voici quelques conseils essentiels que vous devriez garder à l'esprit :

  • Maintenir un grain cohérent dans les modèles de données dimensionnels
  • Appliquez la bonne technique de gestion SCD à vos attributs dimensionnels
  • Rationalisez le chargement des tables de faits à l'aide d'une approche basée sur les métadonnées
  • Mettre en place des processus pour traiter les faits arrivant tôt

Enfin, les membres de l'équipe peuvent tester la qualité et l'intégrité des modèles de données avant leur déploiement sur la base de données cible. Avoir un vérification automatisée du modèle de données l'outil peut permettre un gain de temps considérable.

Le respect de ces bonnes pratiques lors de l'automatisation de la modélisation de schéma vous aidera à mettre à jour votre modèle de manière transparente et à propager les modifications dans vos pipelines de données.

La prochaine étape du processus de conception de l'entrepôt de données consiste à sélectionner la bonne architecture d'entreposage de données.

Types d'architecture d'entrepôt de données

Une architecture d'entrepôt de données définit l'agencement des données dans différentes bases de données. Comme les données doivent être organisées et nettoyées pour être utiles, une structure d'entrepôt de données moderne identifie la technique la plus efficace pour extraire des informations à partir de données brutes. À l'aide d'un modèle dimensionnel, les données brutes de la zone de transit sont extraites et converties en une structure d'entreposage de consommables simple pour fournir une précieuse intelligence d'affaires. De plus, contrairement à un entrepôt de données cloud, un modèle d'entrepôt de données traditionnel nécessite des serveurs sur site pour que tous les composants de l'entrepôt fonctionnent.

Lors de la conception d'un entrepôt de données d'entreprise, il existe trois types de modèles différents à prendre en compte :

Entrepôt de données à un niveau

La structure d'une architecture d'entrepôt de données à un seul niveau produit un ensemble dense de données et réduit le volume des données déposées. Bien qu'il soit avantageux pour éliminer les redondances, ce type de conception d'entrepôt ne convient pas aux entreprises ayant des exigences de données complexes et de nombreux flux de données. C'est là qu'interviennent les architectures d'entrepôt de données à plusieurs niveaux car elles traitent des flux de données plus complexes.

Entrepôt de données à deux niveaux

En comparaison, la structure de données d'un modèle d'entrepôt de données à deux niveaux sépare les sources de données tangibles de l'entrepôt lui-même. Contrairement à un niveau unique, la conception à deux niveaux utilise un système et un serveur de base de données.

Les petites organisations où un serveur est utilisé comme magasin de données utilisent généralement ce type d'architecture d'entrepôt de données. Bien qu'elle soit plus efficace au niveau du stockage et de l'organisation des données, la structure à deux niveaux n'est pas évolutive. De plus, il ne prend en charge qu'un nombre nominal d'utilisateurs.

Entrepôt de données à trois niveaux

Le type d'architecture d'entrepôt de données à trois niveaux est le type le plus courant de conception DWH moderne car il produit un flux de données bien organisé allant des informations brutes aux informations précieuses.

Le niveau inférieur du modèle d'entrepôt de données comprend généralement le serveur de banque de données qui crée une couche d'abstraction sur les données provenant de nombreuses sources, comme les banques de données transactionnelles utilisées pour les utilisations frontales.

Le niveau intermédiaire comprend un Traitement analytique en ligne (OLAP) serveur. Ce niveau modifie les données dans un arrangement plus approprié pour l'analyse et le sondage à multiples facettes du point de vue de l'utilisateur. Puisqu'il inclut un serveur OLAP pré-construit dans l'architecture, nous pouvons également l'appeler l'entrepôt de données axé sur OLAP.

Le troisième et le plus haut niveau est le niveau client qui comprend les outils et l'interface de programmation d'application (API) utilisés pour l'analyse de données de haut niveau, les enquêtes et les rapports. Cependant, les gens incluent à peine le 4e niveau dans l'architecture de l'entrepôt de données car il n'est souvent pas considéré comme faisant partie intégrante des trois autres types.

Le diagramme DW ci-dessous illustre les trois couches d'un entrepôt de données :

Conception d'entrepôt de données | ETL | Centre d'information sur l'entrepôt de données

Source : DatawarehouseInfo.com

Comme illustré plus en détail par le diagramme de l'entrepôt de données, il s'agit des différents types d'architecture traditionnelle d'entreposage de données. Découvrons maintenant les principaux composants d'un entrepôt de données (DWH) et comment ils aident à créer et à faire évoluer un entrepôt de données en détail.

Principaux composants de Architecture DWH

Les différentes couches d'un entrepôt de données ou les composants d'une architecture DWH sont :

  1. Base de données de l'entrepôt de données

Le composant central d'une architecture DW est une base de données qui stocke toutes les données de l'entreprise et les rend gérables pour le reporting. Évidemment, cela signifie que vous devez choisir le type de base de données que vous utiliserez pour stocker les données dans votre entrepôt.

Voici les quatre types de base de données que vous pouvez utiliser:

  • Bases de données relationnelles typiques sont les bases de données centrées sur les lignes que vous utilisez peut-être au quotidien, par exemple Microsoft SQL Server, SAP, Oracle et IBM DB2.
  • Bases de données analytiques sont précisément développés pour le stockage de données afin de soutenir et de gérer les analyses, telles que Teradata et Greenplum.
  • Applications d'entrepôt de données ne sont pas exactement des bases de données de stockage, mais plusieurs revendeurs proposent désormais des applications proposant des logiciels de gestion des données ainsi que du matériel de stockage de données. Par exemple, SAP Hana, Oracle Exadata et IBM Netezza.
  • Bases de données en nuage peuvent être hébergés et récupérés sur le cloud afin que vous n'ayez pas à vous procurer de matériel pour configurer votre entrepôt de données, par exemple Amazon Redshift, Google BigQuery et Microsoft Azure SQL.

2. Outils d'extraction, de transformation et de chargement (ETL)

Les outils ETL sont des composants centraux de la conception d'un entrepôt de données d'entreprise. Ces outils aident à extraire des données de différentes sources, à les transformer en un arrangement approprié et à les charger dans un entrepôt de données.

L'outil ETL que vous choisissez déterminera:

  • Le temps passé dans l'extraction de données
  • Approches d'extraction de données
  • Type de transformations appliquées et simplicité de le faire
  • Définition de règle de gestion pour validation et nettoyage des données pour améliorer l'analyse du produit final
  • Remplir des données égarées
  • Décrivant la distribution des informations du dépositaire fondamental à vos applications de BI

3. Métadonnées

Dans une architecture DW, les métadonnées décrivent la base de données de l'entrepôt de données et offrent un cadre pour les données. Il aide à construire, préserver, gérer et utiliser l'entrepôt de données.

Il existe deux types de métadonnées dans l'entreposage de données :

  • Les métadonnées techniques comprend des informations pouvant être utilisées par les développeurs et les gestionnaires lors de l'exécution des tâches de développement et d'administration de l'entrepôt.
  • Métadonnées commerciales comprend des informations qui offrent un point de vue facilement compréhensible des données stockées dans l'entrepôt.
Métadonnées et leurs applications dans une architecture d'entrepôt de données

Photo tirée de www.softwaretestinghelp.com/metadata-in-data-warehouse-etl/

Les métadonnées jouent un rôle important pour les entreprises et les équipes techniques pour comprendre les données présentes dans l'entrepôt et les convertir en informations.

Votre entrepôt de données n'est pas un projet, c'est un processus. Pour rendre votre mise en œuvre aussi efficace que possible, vous devez adopter une approche vraiment agile, ce qui nécessite une architecture d'entrepôt de données basée sur les métadonnées.

Il s'agit d'une approche visuelle de l'entreposage de données qui exploite des modèles de données enrichis en métadonnées pour piloter tous les aspects du processus de développement, de la documentation des systèmes sources à la réplication des schémas dans une base de données physique et faciliter le mappage de la source à la destination.

 

Le schéma de l'entrepôt de données est mis en place au niveau des métadonnées, ce qui signifie que vous n'avez pas à vous soucier de la qualité du code et de la façon dont il résistera à de gros volumes de données. En fait, vous pouvez gérer et contrôler vos données sans entrer dans le code.

En outre, vous pouvez tester les modèles d'entrepôt de données simultanément avant le déploiement et répliquez votre schéma dans n'importe quelle base de données principale. Une approche axée sur les métadonnées conduit à une culture de développement itérative et assure la pérennité du déploiement de votre entrepôt de données, afin que vous puissiez mettre à jour l'infrastructure existante avec les nouvelles exigences sans perturber l'intégrité et la convivialité de votre entrepôt de données.

Associée à des capacités d'automatisation, une conception d'entrepôt de données basée sur les métadonnées peut rationaliser la conception, le développement et le déploiement, conduisant à une mise en œuvre robuste d'entrepôt de données.

4. Outils d'accès à l'entrepôt de données

Un entrepôt de données utilise une base de données ou un groupe de bases de données comme base. Les sociétés d'entrepôt de données ne peuvent généralement pas travailler avec des bases de données sans utiliser d'outils à moins qu'elles ne disposent d'administrateurs de bases de données. Cependant, ce n'est pas le cas de toutes les unités commerciales. C'est pourquoi ils utilisent l'assistance de plusieurs outils d'entreposage de données sans code, tels que:

  • Outils de requête et de reporting aider les utilisateurs à produire des rapports d'entreprise pour analyse qui peuvent être sous la forme de feuilles de calcul, de calculs ou de visuels interactifs.
  • Outils de développement d'applications aider à créer des rapports personnalisés et les présenter dans des interprétations destinées à des fins de rapport.
  • Outils d'exploration de données pour l'entreposage de données systématiser la procédure d'identification des tableaux et des liens dans d'énormes quantités de données en utilisant des méthodes de modélisation statistique de pointe.
  • Outils OLAP aider à construire un entrepôt de données multidimensionnel et permettre l'analyse des données d'entreprise à partir de nombreux points de vue.

5. Bus d'entrepôt de données

Il définit le flux de données au sein d'une architecture de bus d'entrepôt de données et comprend un data mart. Un data mart est un niveau d'accès qui permet aux utilisateurs de transférer des données. Il est également utilisé pour partitionner les données produites pour un groupe d'utilisateurs particulier.

6. Couche de rapport de l'entrepôt de données

La couche de reporting dans l'entrepôt de données permet aux utilisateurs finaux d'accéder à l'interface BI ou à l'architecture de base de données BI. Le but de la couche de reporting dans l'entrepôt de données est d'agir comme un tableau de bord pour la visualisation des données, de créer des rapports et de retirer toutes les informations requises.

Meilleures pratiques d'architecture d'entrepôt de données

  • Créer modèles d'entrepôt de données qui sont optimisés pour la recherche d'informations dans des approches à la fois dimensionnelles, dénormalisées ou hybrides.
  • Sélectionnez une approche unique pour les conceptions d'entrepôt de données telles que l'approche descendante ou ascendante et respectez-la.
  • Nettoyez et transformez toujours les données à l'aide d'un outil ETL avant de charger les données dans l'entrepôt de données.
Les données sont nettoyées et transformées dans les outils ETL avant d'être intégrées dans l'architecture de l'entrepôt de données

Photo tirée de medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632

  • Créez un processus de nettoyage automatisé des données où toutes les données sont nettoyées uniformément avant le chargement.
  • Autorisez le partage des métadonnées entre les différents composants de l'entrepôt de données pour un processus d'extraction fluide.
  • Assurez-vous toujours que les données sont correctement intégrées et pas seulement consolidées lorsque vous les déplacez des magasins de données vers l'entrepôt de données. Cela nécessiterait la normalisation 3NF des modèles de données.

Construisez votre entrepôt de données avec Astera Constructeur DW

Astera Constructeur DW est une solution d'entreposage de données de bout en bout qui automatise la conception et le déploiement d'un entrepôt de données dans un environnement sans code. Il utilise une approche axée sur les métas qui permet aux utilisateurs de manipuler des données à l'aide d'un ensemble complet de transformations intégrées sans scripts ETL complexes ni scripts SQL.

Articles Relatifs

Approche traditionnelle vs entreposage de données basé sur les métadonnées

  Des systèmes d'information de gestion monolithiques aux entrepôts de données modélisés de manière dimensionnelle et aux lacs de données, nous avons constaté des changements massifs dans la façon dont...
EN SAVOIR PLUS

L'approche axée sur les métadonnées rencontre l'automatisation de l'entrepôt de données - une correspondance faite ...

Dans la partie précédente, nous avons expliqué pourquoi la technologie d'automatisation de l'entrepôt de données devrait faire partie intégrante de votre...
EN SAVOIR PLUS

Comment les organisations tirent parti des avantages de l'automatisation des entrepôts de données en utilisant Astera DW...

Les entrepôts de données permettent aux entreprises de visualiser leurs données à partir de tous les points de terminaison dans un emplacement centralisé et de les traiter pour obtenir des informations....
EN SAVOIR PLUS