Blogs

Accueil / Blogs / Concepts d'entrepôt de données : approche Kimball vs Inmon

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Concepts d'entrepôt de données: approche Kimball vs Inmon

21er mars, 2024

Si vous préférez entrepôt de données (DWH), deux des approches d'entrepôt de données les plus largement discutées et expliquées sont les méthodologies Inmon et Kimball. Depuis des années, les gens débattent pour savoir quelle approche d’entrepôt de données est la meilleure et la plus efficace pour les entreprises. Cependant, il n’y a toujours pas de réponse définitive car les deux méthodes ont leurs avantages et leurs inconvénients.

Dans ce blog, nous discuterons des bases d'un entrepôt de données, de ses caractéristiques et comparerons les deux approches d'entrepôt de données populaires - Kimball vs Inmon.

Le concept d'entrepôt de données clé permet aux utilisateurs d'accéder à une version unifiée de la vérité pour une prise de décision, des rapports et des prévisions en temps opportun. DWH fonctionne comme un système d'information avec toutes les données passées et commutatives stockées à partir d'une ou plusieurs sources.

Modèles d'entrepôt de données

Modèles d'entrepôt de données se référer au conceptions et structures architecturales utilisées pour organiser et gérer les données dans un environnement d'entreposage de données. Ces modèles dictent la manière dont les données sont stockées, consultées et utilisées à des fins analytiques. Les principales sections comprennent :

  • Entrepôt virtuel : Composé de bases de données distinctes qui peuvent être interrogées collectivement, permettant aux utilisateurs d'accéder aux données comme si elles étaient stockées dans un seul entrepôt.
  • Magasin de données: Axé sur des fonctions ou des départements commerciaux spécifiques, contenant des sous-ensembles de données adaptés à l’analyse.
  • Entrepôt de données d'entreprise : Référentiel complet intégrant des données provenant de diverses sources au sein d'une organisation, prenant en charge l'analyse et le reporting à l'échelle de l'entreprise.

Caractéristiques d'un entrepôt de données

Voici les quatre caractéristiques d'un entrepôt de données :

  • Orienté sujet: Un entrepôt de données utilise un thème et fournit des informations sur un sujet spécifique au lieu des opérations en cours d'une entreprise. En d'autres termes, le processus d'entreposage de données est mieux équipé pour traiter un thème spécifique. Des exemples de thèmes ou de sujets incluent les ventes, les distributions, le marketing, etc.
  • Intégré: L'intégration est définie comme l'établissement d'une connexion entre une grande quantité de données provenant de plusieurs bases de données ou sources. Cependant, il est également essentiel que les données soient stockées dans l'entrepôt de données de manière unifiée. Le processus d'entreposage de données intègre des données provenant de plusieurs sources, telles qu'un ordinateur central, des bases de données relationnelles, des fichiers plats, etc. En outre, il permet de maintenir des codes, des mesures d'attributs, des conventions de dénomination et des formats cohérents.
  • Variante temporelle: La variation temporelle dans un DW est plus étendue que dans d'autres systèmes d'exploitation. Les données stockées dans un entrepôt de données sont rappelées avec une période de temps spécifique et fournissent des informations d'un point de vue historique.
  • Non volatile: Dans l'entrepôt de données non volatile, les données sont permanentes, c'est-à-dire que lorsque de nouvelles données sont insérées, les données précédentes ne sont pas remplacées, omises ou supprimées. Dans cet entrepôt de données, les données sont en lecture seule et ne sont actualisées qu'à certains intervalles. Les deux opérations de données effectuées dans l'entrepôt de données sont l'accès aux données et le chargement des données.
Approches de l'entrepôt de données

Caractéristiques et fonctions de l'entrepôt de données (Source: GeeksforGeeks)

Fonctions d'un entrepôt de données

L'entrepôt de données fonctionne comme un référentiel. Il aide les organisations à éviter le coût des systèmes de stockage et des données de sauvegarde au niveau de l'entreprise. Les principales fonctions de l'entrepôt de données sont:

Approche de normalisation ou de dénormalisation

La normalisation est définie comme un moyen de réorganisation des données. Cela permet de répondre à deux exigences principales dans un entrepôt de données d'entreprise c'est-à-dire éliminer la redondance des données et protéger la dépendance des données. D'un autre côté, la dénormalisation augmente les fonctionnalités de l'infrastructure du système de base de données.

Entrepôt de données vs base de données

Les principales différences entre l'entrepôt de données et la base de données sont résumées dans le tableau ci-dessous:

Base de données Entreposage De Données
Une base de données est une fusion de données connexes. L'entrepôt de données sert de système d'information contenant des données historiques et commutatives d'une ou plusieurs sources.
Une base de données est utilisée pour enregistrer les données. Un entrepôt de données est utilisé pour analyser les données.
Une base de données est une collection de données orientée application. L'entrepôt de données est la collecte de données axée sur le sujet.
Une base de données utilise le traitement transactionnel en ligne (OLTP). L'entrepôt de données utilise le traitement analytique en ligne (OLAP).
Les tables de base de données et les jointures sont normalisées, donc plus compliquées.  Les tables et les jointures de l'entrepôt de données sont dénormalisées, donc plus simples.
Les techniques de modélisation ER sont utilisées pour la conception. Les techniques de modélisation des données sont utilisées pour la conception.

Les deux concepts d'entrepôt de données : Kimball contre Inmon

Les deux méthodologies de conception d'entrepôt de données ont leurs propres avantages et inconvénients. Examinons-les en détail pour déterminer lequel est le meilleur.

La méthodologie Kimball

Initié par Ralph Kimball, le modèle de données Kimball suit une approche ascendante pour conception d'architecture d'entrepôt de données dans lequel les magasins de données sont d'abord formés en fonction des besoins de l'entreprise.

Les principales sources de données sont ensuite évaluées et une Outil d'extraction, de transformation et de chargement (ETL) est utilisé pour récupérer des données à partir de plusieurs sources et les charger dans une zone de transit du serveur de base de données relationnelle. Une fois les données téléchargées dans la zone de préparation de l'entrepôt de données, la phase suivante consiste à charger les données dans un modèle d'entrepôt de données dimensionnel qui est par nature dénormalisé. Ce modèle divise les données en table de faits, qui sont des données transactionnelles numériques ou une table de dimensions, qui sont les informations de référence qui prennent en charge les faits.

Le schéma en étoile est l'élément fondamental du modèle d'entrepôt de données dimensionnel. La combinaison d'une table de faits avec plusieurs tables dimensionnelles est souvent appelée schéma en étoile. La modélisation dimensionnelle Kimball permet aux utilisateurs de construire plusieurs schémas en étoile pour répondre à divers besoins de reporting. L'avantage du schéma en étoile est que les petites requêtes de table dimensionnelle s'exécutent instantanément.

Pour intégrer les données, l'approche Kimball du cycle de vie de l'entrepôt de données suggère l'idée de dimensions de données conformes. Il existe sous la forme d'une table de dimension de base partagée entre différentes tables de faits (telles que le client et le produit) au sein d'un entrepôt de données ou sous la forme des mêmes tables de dimension dans divers magasins de données Kimball. Cela garantit qu'un seul élément de données est utilisé de manière similaire dans tous les faits.

Un outil de conception important dans la méthodologie d'entrepôt de données de Ralph Kimball est la matrice de bus d'entreprise ou l'architecture de bus Kimball qui enregistre verticalement les faits et horizontalement les dimensions conformes. La matrice de Kimball, qui fait partie de l'architecture de bus, montre comment les schémas en étoile sont construits. Il est utilisé par les équipes de gestion d'entreprise comme entrée pour hiérarchiser la ligne de la matrice de Kimball qui doit être mise en œuvre en premier.

L'approche Kimball du cycle de vie de l'entrepôt de données est également basée sur des faits conformes, c'est-à-dire des magasins de données qui sont mis en œuvre séparément avec une architecture robuste.

Architecture de l'entrepôt de données de la méthode Kimball

Figure 2. Explication de l'architecture de base de l'entrepôt de données Kimball (Source : Zentut)

Avantages de la méthodologie Kimball

Certains des principaux avantages du concept d'entreposage de données Kimball incluent :

  • La modélisation dimensionnelle Kimball est rapide à construire car aucune normalisation n'est impliquée, ce qui signifie une exécution rapide de la phase initiale de la entreposage de données procédé de design.
  • Un avantage du schéma en étoile est que la plupart des opérateurs de données peuvent facilement le comprendre en raison de sa structure dénormalisée, ce qui simplifie les requêtes et l'analyse.
  • L'empreinte du système d'entrepôt de données est insignifiante car elle se concentre sur des domaines d'activité et des processus individuels plutôt que sur l'ensemble de l'entreprise. Ainsi, il prend moins de place dans la base de données, simplifiant la gestion du système.
  • Il permet une récupération rapide des données à partir de l'entrepôt de données, car les données sont séparées en tables de faits et dimensions. Par exemple, la table de faits et de dimensions pour le secteur de l'assurance inclurait les transactions de polices et les transactions de sinistres.
  • Une petite équipe de concepteurs et de planificateurs est suffisante pour la gestion de l'entrepôt de données, car les systèmes de source de données sont stables et l'entrepôt de données est orienté processus. De plus, l'optimisation des requêtes est simple, prévisible et contrôlable.
  • Structure dimensionnelle conforme pour qualité des données cadre. L'approche Kimball du cycle de vie de l'entrepôt de données est également appelée approche de style de vie dimensionnelle de l'entreprise, car elle permet aux outils de business intelligence d'approfondir plusieurs schémas en étoile et de générer des informations fiables.
Méthodologie du cycle de vie Kimball DW / BI - Kimball Group

Approche Kimball du cycle de vie de l'entrepôt de données (Source: Kimball Group)

Inconvénients de la méthodologie Kimball

Certains des inconvénients du Kimball Entreposage de données le concept de conception comprend :

  • Les données ne sont pas entièrement intégrées avant le reporting ; l'idée d'une « source unique de vérité est perdue.
  • Des irrégularités peuvent se produire lorsque les données sont mises à jour dans l'architecture Kimball DW. En effet, dans la technique de dénormalisation, des données redondantes sont ajoutées aux tables de la base de données.
  • Dans l'architecture Kimball DW, des problèmes de performances peuvent survenir en raison de l'ajout de colonnes dans la table de faits, car ces tables sont assez détaillées. L'ajout de nouvelles colonnes peut étendre les dimensions de la table de faits, affectant ses performances. En outre, le modèle d'entrepôt de données dimensionnel devient difficile à modifier en cas de modification des besoins de l'entreprise.
  • Comme le modèle Kimball est orienté processus métier, au lieu de se concentrer sur l'entreprise dans son ensemble, il ne peut pas gérer toutes les exigences de reporting BI.
  • Le processus d'incorporation de grandes quantités de données héritées dans l'entrepôt de données est complexe.

La méthode Inmon

Bill Inmon, le père de l'entreposage de données, a proposé le concept de développement d'un entrepôt de données qui identifie les principaux domaines et entités avec lesquels l'entreprise travaille, tels que les clients, les produits, les fournisseurs, etc. La définition de Bill Inmon d'un entrepôt de données est qu'il s'agit d'une "collection de données orientée sujet, non volatile, intégrée et variant dans le temps à l'appui des décisions de la direction".

Le modèle crée ensuite un modèle logique complet pour chaque entité principale. Par exemple, un modèle logique est construit pour les produits avec tous les attributs associés à cette entité. Ce modèle logique pourrait inclure dix entités diverses sous produit, y compris tous les détails, tels que les moteurs commerciaux, les aspects, les relations, les dépendances et les affiliations.

La Approche de conception de Bill Inmon utilise la forme normalisée pour créer la structure de l'entité, en évitant autant que possible la redondance des données. Cela permet d’identifier clairement les besoins de l’entreprise et d’éviter toute irrégularité dans la mise à jour des données. De plus, l’avantage de cette approche descendante dans conception de base de données est qu'il est robuste aux changements commerciaux et contient une perspective dimensionnelle des données dans l'ensemble du data mart.

Ensuite, le modèle physique est construit, qui suit la structure normalisée. Ce modèle Bill Inmon crée une source unique de vérité pour l'ensemble de l'entreprise. Le chargement des données devient moins complexe en raison de la structure normalisée du modèle. Cependant, l'utilisation de cette disposition pour l'interrogation est difficile car elle comprend de nombreux tableaux et liens.

Cette méthodologie d'entrepôt de données Inmon propose de construire des magasins de données séparément pour chaque division, comme la finance, le marketing, les ventes, etc. Toutes les données entrant dans l'entrepôt de données sont intégrées. L'entrepôt de données agit comme une source de données unique pour divers magasins de données afin de garantir l'intégrité et la cohérence dans l'ensemble de l'entreprise.

Concepts d'entrepôt de données: approche Kimball vs. Inmon 2

Figure 3. Explication de l'architecture d'entreposage de données de base de Bill Inmon (Source : Université de Stanford)

Avantages de la méthode Inmon

L'approche de conception de Bill Inmon offre les avantages suivants :

  • L'entrepôt de données agit comme une source de vérité unifiée pour l'ensemble de l'entreprise, où toutes les données sont intégrées.
  • Cette approche a une très faible redondance des données. Ainsi, il y a moins de possibilité d'irrégularités de mise à jour des données, ce qui rend le processus d'entrepôt de données basé sur le concept ETL plus simple et moins susceptible d'échouer.
  • Cela simplifie les processus métier, car le modèle logique représente des objets métier détaillés.
  • Cette approche offre une plus grande flexibilité, car il est plus facile de mettre à jour l'entrepôt de données en cas de changement dans les exigences de l'entreprise ou les données sources.
  • Il peut gérer diverses exigences de reporting à l'échelle de l'entreprise.

Inconvénients de la méthode Inmon

Les inconvénients possibles de cette approche sont les suivants :

  • La complexité augmente à mesure que plusieurs tables sont ajoutées au modèle de données avec le temps.
  • Des ressources qualifiées dans la modélisation de données d'entrepôt de données sont nécessaires, ce qui peut être coûteux et difficile à trouver.
  • L'installation préliminaire et la livraison prennent beaucoup de temps.
  • Une opération de processus ETL supplémentaire est requise car les magasins de données sont créés après la création de l'entrepôt de données.
  • Cette approche nécessite des experts pour gérer efficacement un entrepôt de données.

Quelle approche d'entrepôt de données choisir ?

Maintenant que nous avons évalué l'approche Kimball vs Inmon et vu les avantages et les inconvénients de ces deux méthodes, la question se pose: Lequel de ces concepts d'entrepôt de données servirait le mieux votre entreprise?

Ces deux approches considèrent entrepôt de données en tant que référentiel central prenant en charge les rapports d'activité. De plus, les deux types d'approches utilisent les concepts ETL pour le chargement des données. Cependant, la principale différence réside dans la modélisation des données et leur chargement dans l'entrepôt de données.

L'approche utilisée pour la construction de l'entrepôt de données influence le délai de livraison préliminaire du projet d'entreposage et la capacité à supporter les variations éventuelles de la conception ETL.

Vous n’êtes toujours pas sûr de la conclusion du dilemme Kimball contre Inmon ? Nous pouvons vous aider à décider laquelle de ces approches d'entrepôt de données vous aiderait à améliorer votre gestion de la qualité des données cadre de la meilleure façon ?

Nous avons réduit quelques aspects qui peuvent vous aider à choisir entre les deux approches.

  • Signaler les besoins: Si vous avez besoin de rapports intégrés et à l'échelle de l'organisation, l'approche Bill Inmon est plus appropriée. Mais si vous avez besoin de rapports axés sur le processus métier ou l'équipe, optez pour la méthode Kimball.
  • Date limite du projet: Concevoir un modèle de données normalisé est comparativement plus complexe que concevoir un modèle dénormalisé. Cela rend l'approche Inmon un processus fastidieux. Par conséquent, si vous avez moins de temps pour la livraison, optez pour la méthode Kimball.
  • Plan de recrutement prospectif: La complexité plus élevée de la création de modèles de données dans l'approche d'entrepôt de données Inmon nécessite une plus grande équipe de professionnels pour la gestion de l'entrepôt de données. Par conséquent, choisissez en conséquence.
  • Changements fréquents: Si vos besoins de reporting sont susceptibles de changer plus rapidement et que vous avez affaire à des systèmes sources volatils, optez pour la méthode Inmon car elle offre plus de flexibilité. Cependant, si les besoins de reporting et les systèmes sources sont relativement stables, il est préférable d'utiliser la méthode Kimball.
  • Principes d'organisation: Si les parties prenantes et les directeurs d'entreprise de votre organisation reconnaissent la nécessité d'un entrepôt de données et sont prêts à en assumer les dépenses, la méthode d'entrepôt de données Bill Inmon serait un pari plus sûr. En revanche, si les décideurs ne se soucient pas du fond de la démarche, et ne recherchent qu'une solution pour améliorer le reporting, alors il suffit d'opter pour la méthode de l'entrepôt de données Kimball.

Bottom-line

Les concepts d'entrepôt de données Kimball et Inmon peuvent être utilisés pour concevoir avec succès des modèles d'entrepôt de données. En fait, plusieurs entreprises utilisent un mélange de ces deux approches (appelé modèle de données hybride).

Dans le modèle de données hybride, la méthode Inmon crée un modèle d'entrepôt de données dimensionnel d'un entrepôt de données. En revanche, la méthode Kimball est suivie pour développer des magasins de données en utilisant le schéma en étoile.

Il est impossible de dire quelle approche est la meilleure car les deux méthodes ont leurs avantages et leurs inconvénients, et fonctionnent bien dans différentes situations. Un concepteur d'entrepôt de données doit choisir une méthode en fonction des différents facteurs abordés dans cet article.

Enfin, pour qu'une méthode soit efficace, elle doit être bien pensée, explorée en profondeur et développée pour satisfaire votre entreprise. l'intelligence d'entreprise exigences de rapport.

Astera Data Warehouse Builder - Une solution d'entreposage de données automatisée

Astera Constructeur d'entrepôt de données offre une plateforme intégrée pour concevoir, déployer et tester de gros volumes entrepôts de données et automatisez les processus pour obtenir rapidement des informations significatives, sans avoir à écrire des codes ETL.

Les organisations s'orientent vers automatisation de l'entrepôt de données pour réduire les coûts, maximiser la productivité et obtenir plus rapidement des informations exploitables. L'automatisation de l'entreposage de données vous permet de créer rapidement des magasins de données de haute qualité, de créer des pipelines de données autorégulateurs et de fournir des informations pertinentes aux décideurs via des outils de BI et d'analyse.

Data Warehousing Automation élimine la partie la plus chronophage du remplissage d'un entrepôt de données : l'écriture de code ETL/ELT. Comme aucun codage manuel SQL n'est requis, les développeurs peuvent concentrer leur énergie sur le travail à un niveau logique (niveau de conception) pour créer des flux d'intégration plus efficaces.

De plus, l'automatisation vous aide à concevoir un infrastructure d'entrepôt de données agile. Le résultat est un référentiel de données plus adaptable et réactif qui peut être interrogé efficacement, produisant des informations précieuses en quelques secondes et vous permettant d'extraire des informations précieuses.

En résumé, la suppression de l'intervention manuelle dans les étapes de planification, de modélisation et de déploiement vous permet de construire un entrepôt de données de meilleure qualité avec succès — cela aussi, en quelques semaines, voire quelques jours.

Tu pourrais aussi aimer
Schéma en étoile contre. Schéma en flocon de neige : 4 différences clés
Comment charger des données d'AWS S3 vers Snowflake
BigQuery ou Redshift : lequel choisir ?
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous