Concepts d'entrepôt de données: approche Kimball vs Inmon

By |2022-05-12T11:22:56+00:00Février 3rd, 2020|

Si vous préférez conception d'entrepôt de données (DWH), deux des approches d'entrepôt de données les plus largement discutées et expliquées sont les méthodologies Inmon et Kimball. Pendant des années, les gens ont débattu de l'approche d'entrepôt de données la meilleure et la plus efficace pour les entreprises. Cependant, il n'y a toujours pas de réponse définitive car les deux méthodes ont leurs avantages et leurs inconvénients.

Dans ce blog, nous discuterons des bases d'un entrepôt de données, de ses caractéristiques et comparerons les deux approches d'entrepôt de données populaires - Kimball vs Inmon.

Le concept d'entrepôt de données clé permet aux utilisateurs d'accéder à une version unifiée de la vérité pour une prise de décision, des rapports et des prévisions en temps opportun. DWH fonctionne comme un système d'information avec toutes les données passées et commutatives stockées à partir d'une ou plusieurs sources.

Caractéristiques d'un entrepôt de données

Voici les quatre caractéristiques d'un DW :

  • Orienté sujet: Un entrepôt de données utilise un thème et fournit des informations sur un sujet spécifique au lieu des opérations en cours d'une entreprise. En d'autres termes, le processus d'entreposage de données est mieux équipé pour traiter un thème spécifique. Des exemples de thèmes ou de sujets incluent les ventes, les distributions, le marketing, etc.
  • Intégré: L'intégration est définie comme l'établissement d'une connexion entre une grande quantité de données provenant de plusieurs bases de données ou sources. Cependant, il est également essentiel que les données soient stockées dans l'entrepôt de données de manière unifiée. Le processus d'entreposage de données intègre des données provenant de plusieurs sources, telles qu'un ordinateur central, des bases de données relationnelles, des fichiers plats, etc. En outre, il permet de maintenir des codes, des mesures d'attributs, des conventions de dénomination et des formats cohérents.
  • Variante temporelle: La variation temporelle dans un DW est plus étendue que dans d'autres systèmes d'exploitation. Les données stockées dans un entrepôt de données sont rappelées avec une période de temps spécifique et fournissent des informations d'un point de vue historique.
  • Non volatile: Dans l'entrepôt de données non volatile, les données sont permanentes, c'est-à-dire que lorsque de nouvelles données sont insérées, les données précédentes ne sont pas remplacées, omises ou supprimées. Dans cet entrepôt de données, les données sont en lecture seule et ne sont actualisées qu'à certains intervalles. Les deux opérations de données effectuées dans l'entrepôt de données sont l'accès aux données et le chargement des données.
Approches de l'entrepôt de données

Caractéristiques et fonctions de l'entrepôt de données (Source: GeeksforGeeks)

Fonctions d'un entrepôt de données

L'entrepôt de données fonctionne comme un référentiel. Il aide les organisations à éviter le coût des systèmes de stockage et des données de sauvegarde au niveau de l'entreprise. Les principales fonctions de l'entrepôt de données sont:

  • Nettoyage de données
  • Intégration Des Données
  • Cartographie des données
  • Extraction De Données
  • Nettoyage de données
  • Transformation des données
  • Chargement des données
  • Lotion pour le visage raffraichissante

Approche de normalisation ou de dénormalisation

La normalisation est définie comme un mode de réorganisation des données. Cela permet de répondre à deux exigences principales dans un entrepôt de données d'entreprise, à savoir l'élimination de la redondance des données et la protection de la dépendance des données. D'autre part, la dénormalisation augmente la fonctionnalité de l'infrastructure du système de base de données.

Entrepôt de données vs base de données

Les principales différences entre l'entrepôt de données et la base de données sont résumées dans le tableau ci-dessous:

Base de données Entreposage De Données
Une base de données est une fusion de données connexes. L'entrepôt de données sert de système d'information contenant des données historiques et commutatives d'une ou plusieurs sources.
Une base de données est utilisée pour enregistrer les données. Un entrepôt de données est utilisé pour analyser les données.
Une base de données est une collection de données orientée application. L'entrepôt de données est la collecte de données axée sur le sujet.
Une base de données utilise le traitement transactionnel en ligne (OLTP). L'entrepôt de données utilise le traitement analytique en ligne (OLAP).
Les tables de base de données et les jointures sont normalisées, donc plus compliquées.  Les tables et les jointures de l'entrepôt de données sont dénormalisées, donc plus simples.
Les techniques de modélisation ER sont utilisées pour la conception. Les techniques de modélisation des données sont utilisées pour la conception.

Les deux concepts d'entrepôt de données : Kimball contre Inmon

Les deux méthodologies de conception d'entrepôt de données ont leurs propres avantages et inconvénients. Examinons-les en détail pour déterminer lequel est le meilleur.

La méthodologie Kimball

Initié par Ralph Kimball, le modèle de données Kimball suit une approche ascendante pour entrepôt de données conception d'architecture dans laquelle les magasins de données sont d'abord formés en fonction des besoins de l'entreprise.

Les principales sources de données sont ensuite évaluées, et un outil d'extraction, de transformation et de chargement (ETL) est utilisé pour extraire des données de plusieurs sources et les charger dans une zone intermédiaire du serveur de base de données relationnelle. Une fois les données téléchargées dans la zone de transfert de l'entrepôt de données, la phase suivante comprend le chargement des données dans un modèle d'entrepôt de données dimensionnel qui est dénormalisé par nature. Ce modèle partitionne les données dans la table de faits, qui est constituée de données transactionnelles numériques ou de table de dimension, qui est l'information de référence qui prend en charge les faits.

Le schéma en étoile est l'élément fondamental du modèle d'entrepôt de données dimensionnel. La combinaison d'une table de faits avec plusieurs tables dimensionnelles est souvent appelée schéma en étoile. La modélisation dimensionnelle Kimball permet aux utilisateurs de construire plusieurs schémas en étoile pour répondre à divers besoins de reporting. L'avantage du schéma en étoile est que les petites requêtes de table dimensionnelle s'exécutent instantanément.

Pour intégrer les données, l'approche Kimball du cycle de vie DW suggère l'idée de dimensions de données conformes. Il existe sous la forme d'une table de dimension de base partagée entre différentes tables de faits (telles que client et produit) au sein d'un entrepôt de données ou sous la forme des mêmes tables de dimension dans divers magasins de données Kimball. Cela garantit qu'un seul élément de données est utilisé de manière similaire dans tous les faits.

Un outil de conception important dans la méthodologie d'entrepôt de données de Ralph Kimball est la matrice de bus d'entreprise ou l'architecture de bus Kimball qui enregistre verticalement les faits et horizontalement les dimensions conformes. La matrice de Kimball, qui fait partie de l'architecture de bus, montre comment les schémas en étoile sont construits. Il est utilisé par les équipes de gestion d'entreprise comme entrée pour hiérarchiser la ligne de la matrice de Kimball qui doit être mise en œuvre en premier.

L'approche Kimball du cycle de vie de l'entrepôt de données est également basée sur des faits conformes, c'est-à-dire des magasins de données qui sont mis en œuvre séparément avec une architecture robuste.

Architecture de l'entrepôt de données de la méthode Kimball

Figure 2. Explication de l'architecture de base de l'entrepôt de données Kimball (Source : Zentut)

Avantages de la méthodologie Kimball

Certains des principaux avantages de la méthodologie Kimball comprennent :

  • La modélisation dimensionnelle Kimball est rapide à construire car aucune normalisation n'est impliquée, ce qui signifie une exécution rapide de la phase initiale de la entreposage de données procédé de design.
  • Un avantage du schéma en étoile est que la plupart des opérateurs de données peuvent facilement le comprendre en raison de sa structure dénormalisée, ce qui simplifie les requêtes et l'analyse.
  • L'empreinte du système d'entrepôt de données est insignifiante car elle se concentre sur des domaines d'activité et des processus individuels plutôt que sur l'ensemble de l'entreprise. Ainsi, il prend moins de place dans la base de données, simplifiant la gestion du système.
  • Il permet une récupération rapide des données à partir de l'entrepôt de données, car les données sont séparées en tables de faits et dimensions. Par exemple, la table de faits et de dimensions pour le secteur de l'assurance inclurait les transactions de polices et les transactions de sinistres.
  • Une petite équipe de concepteurs et de planificateurs est suffisante pour la gestion de l'entrepôt de données, car les systèmes de source de données sont stables et l'entrepôt de données est orienté processus. De plus, l'optimisation des requêtes est simple, prévisible et contrôlable.
  • Structure dimensionnelle conforme pour le cadre de qualité des données. L'approche Kimball du cycle de vie de l'entrepôt de données est également appelée approche de style de vie dimensionnelle commerciale, car elle permet aux outils d'intelligence d'affaires d'approfondir plusieurs schémas en étoile et génère des informations fiables.
Méthodologie du cycle de vie Kimball DW / BI - Kimball Group

Approche Kimball du cycle de vie de l'entrepôt de données (Source: Kimball Group)

Inconvénients de la méthodologie Kimball

Certains des inconvénients de l'approche de conception de Kimball comprennent:

  • Les données ne sont pas entièrement intégrées avant le reporting ; l'idée d'une « source unique de vérité est perdue.
  • Des irrégularités peuvent se produire lorsque les données sont mises à jour dans l'architecture Kimball DW. En effet, dans la technique de dénormalisation, des données redondantes sont ajoutées aux tables de la base de données.
  • Dans l'architecture Kimball DW, des problèmes de performances peuvent survenir en raison de l'ajout de colonnes dans la table de faits, car ces tables sont assez détaillées. L'ajout de nouvelles colonnes peut étendre les dimensions de la table de faits, affectant ses performances. En outre, le modèle d'entrepôt de données dimensionnel devient difficile à modifier en cas de modification des besoins de l'entreprise.
  • Comme le modèle Kimball est orienté processus métier, au lieu de se concentrer sur l'entreprise dans son ensemble, il ne peut pas gérer toutes les exigences de reporting BI.
  • Le processus d'incorporation de grandes quantités de données héritées dans l'entrepôt de données est complexe.

La méthode Inmon

Bill Inmon, le père de l'entreposage de données, a proposé le concept de développement d'un entrepôt de données qui identifie les principaux domaines et entités avec lesquels l'entreprise travaille, tels que les clients, les produits, les fournisseurs, etc. La définition de Bill Inmon d'un entrepôt de données est qu'il s'agit d'une "collection de données orientée sujet, non volatile, intégrée et variant dans le temps à l'appui des décisions de la direction".

Le modèle crée ensuite un modèle logique complet pour chaque entité principale. Par exemple, un modèle logique est construit pour les produits avec tous les attributs associés à cette entité. Ce modèle logique pourrait inclure dix entités diverses sous produit, y compris tous les détails, tels que les moteurs commerciaux, les aspects, les relations, les dépendances et les affiliations.

Les Approche de conception de Bill Inmon utilise la forme normalisée pour construire la structure de l'entité, évitant autant que possible la redondance des données. Cela permet d'identifier clairement les besoins commerciaux et d'éviter toute irrégularité de mise à jour des données. De plus, l'avantage de cette approche descendante dans la conception de bases de données est qu'elle est robuste aux changements commerciaux et qu'elle contient une perspective dimensionnelle des données dans le magasin de données.

Ensuite, le modèle physique est construit, qui suit la structure normalisée. Ce modèle Bill Inmon crée une source unique de vérité pour l'ensemble de l'entreprise. Le chargement des données devient moins complexe en raison de la structure normalisée du modèle. Cependant, l'utilisation de cette disposition pour l'interrogation est difficile car elle comprend de nombreux tableaux et liens.

Cette méthodologie d'entrepôt de données Inmon propose de construire des magasins de données séparément pour chaque division, comme la finance, le marketing, les ventes, etc. Toutes les données entrant dans l'entrepôt de données sont intégrées. L'entrepôt de données agit comme une source de données unique pour divers magasins de données afin de garantir l'intégrité et la cohérence dans l'ensemble de l'entreprise.

Concepts d'entrepôt de données: approche Kimball vs. Inmon 2

Figure 3. Explication de l'architecture d'entreposage de données de base de Bill Inmon (Source : Université de Stanford)

Avantages de la méthode Inmon

L'approche de conception de Bill Inmon offre les avantages suivants :

  • L'entrepôt de données agit comme une source de vérité unifiée pour l'ensemble de l'entreprise, où toutes les données sont intégrées.
  • Cette approche a une très faible redondance des données. Ainsi, il y a moins de possibilité d'irrégularités de mise à jour des données, ce qui rend le processus d'entrepôt de données basé sur le concept ETL plus simple et moins susceptible d'échouer.
  • Cela simplifie les processus métier, car le modèle logique représente des objets métier détaillés.
  • Cette approche offre une plus grande flexibilité, car il est plus facile de mettre à jour l'entrepôt de données en cas de changement dans les exigences de l'entreprise ou les données sources.
  • Il peut gérer diverses exigences de reporting à l'échelle de l'entreprise.

Inconvénients de la méthode Inmon

Les inconvénients possibles de cette approche sont les suivants :

  • La complexité augmente à mesure que plusieurs tables sont ajoutées au modèle de données avec le temps.
  • Des ressources qualifiées dans la modélisation de données d'entrepôt de données sont nécessaires, ce qui peut être coûteux et difficile à trouver.
  • L'installation préliminaire et la livraison prennent beaucoup de temps.
  • Une opération de processus ETL supplémentaire est requise car les magasins de données sont créés après la création de l'entrepôt de données.
  • Cette approche nécessite des experts pour gérer efficacement un entrepôt de données.

Quelle approche d'entrepôt de données choisir ?

Maintenant que nous avons évalué l'approche Kimball vs Inmon et vu les avantages et les inconvénients de ces deux méthodes, la question se pose: Lequel de ces concepts d'entrepôt de données servirait le mieux votre entreprise?

Ces deux approches considèrent entrepôt de données en tant que référentiel central prenant en charge les rapports d'activité. De plus, les deux types d'approches utilisent les concepts ETL pour le chargement des données. Cependant, la principale différence réside dans la modélisation des données et leur chargement dans l'entrepôt de données.

L'approche utilisée pour la construction de l'entrepôt de données influence le délai de livraison préliminaire du projet d'entreposage et la capacité à supporter les variations éventuelles de la conception ETL.

Vous n'êtes toujours pas sûr de la conclusion du dilemme Kimball vs Inmon? Nous pouvons vous aider à décider laquelle de ces approches d'entrepôt de données aiderait à améliorer votre cadre de qualité des données de la meilleure façon?

Nous avons réduit quelques aspects qui peuvent vous aider à choisir entre les deux approches.

  • Signaler les besoins: Si vous avez besoin de rapports intégrés et à l'échelle de l'organisation, l'approche Bill Inmon est plus appropriée. Mais si vous avez besoin de rapports axés sur le processus métier ou l'équipe, optez pour la méthode Kimball.
  • Date limite du projet: Concevoir un modèle de données normalisé est comparativement plus complexe que concevoir un modèle dénormalisé. Cela rend l'approche Inmon un processus fastidieux. Par conséquent, si vous avez moins de temps pour la livraison, optez pour la méthode Kimball.
  • Plan de recrutement prospectif: La complexité plus élevée de la création de modèles de données dans l'approche d'entrepôt de données Inmon nécessite une plus grande équipe de professionnels pour la gestion de l'entrepôt de données. Par conséquent, choisissez en conséquence.
  • Changements fréquents: Si vos besoins de reporting sont susceptibles de changer plus rapidement et que vous avez affaire à des systèmes sources volatils, optez pour la méthode Inmon car elle offre plus de flexibilité. Cependant, si les besoins de reporting et les systèmes sources sont relativement stables, il est préférable d'utiliser la méthode Kimball.
  • Principes d'organisation: Si les parties prenantes et les directeurs d'entreprise de votre organisation reconnaissent la nécessité d'un entrepôt de données et sont prêts à en assumer les dépenses, la méthode d'entrepôt de données Bill Inmon serait un pari plus sûr. En revanche, si les décideurs ne se soucient pas du fond de la démarche, et ne recherchent qu'une solution pour améliorer le reporting, alors il suffit d'opter pour la méthode de l'entrepôt de données Kimball.

Un outil d'entreposage de données automatisé

Les organisations s'orientent vers automatisation de l'entrepôt de données pour réduire les coûts, maximiser la productivité et obtenir plus rapidement des informations exploitables. DWA vous permet de créer rapidement des magasins de données de haute qualité, de créer des pipelines de données autorégulés et de fournir des informations pertinentes aux décideurs via des outils de BI et d'analyse.

DWA élimine la partie la plus fastidieuse du remplissage d'un entrepôt de données : l'écriture de code ETL/ELT. Comme aucun codage manuel SQL n'est requis, les développeurs peuvent concentrer leur énergie à travailler à un niveau logique (niveau de conception) pour créer des flux d'intégration plus efficaces.

En résumé, la suppression de l'intervention manuelle dans les étapes de planification, de modélisation et de déploiement vous permet de construire un entrepôt de données de meilleure qualité avec succès — cela aussi, en quelques semaines, voire quelques jours.

De plus, l'automatisation vous aide à concevoir un infrastructure d'entrepôt de données agile. Le résultat est un référentiel de données plus adaptable et réactif qui peut être interrogé efficacement, produisant des informations précieuses en quelques secondes et vous permettant d'extraire des informations précieuses.

Astera Constructeur d'entrepôt de données offre une plateforme intégrée pour concevoir, déployer et tester de gros volumes entrepôts de données et automatisez les processus pour obtenir rapidement des informations significatives, sans avoir à écrire des codes ETL.

Vous ne savez pas comment notre outil d'entreposage de données peut faciliter le cas d'utilisation unique de votre entreprise ? Prenez contact avec nos experts en données. 

Bottom-line

Les concepts d'entrepôt de données Kimball et Inmon peuvent être utilisés pour concevoir avec succès des modèles d'entrepôt de données. En fait, plusieurs entreprises utilisent un mélange de ces deux approches (appelé modèle de données hybride).

Dans le modèle de données hybride, la méthode Inmon crée un modèle d'entrepôt de données dimensionnel d'un entrepôt de données. En revanche, la méthode Kimball est suivie pour développer des magasins de données en utilisant le schéma en étoile.

Il est impossible de dire quelle approche est la meilleure car les deux méthodes ont leurs avantages et leurs inconvénients, et fonctionnent bien dans différentes situations. Un concepteur d'entrepôt de données doit choisir une méthode en fonction des différents facteurs abordés dans cet article.

Enfin, pour qu'une méthode soit efficace, elle doit être bien pensée, explorée en profondeur et développée pour satisfaire votre entreprise. l'intelligence d'entreprise exigences de rapport.

Articles Relatifs

5 raisons pour lesquelles vous devriez construire votre entrepôt de données en...

Le monde de la BI d'entreprise a connu une croissance rapide des taux d'adoption du cloud ces dernières années. L'entrepôt de données cloud...
EN SAVOIR PLUS

Data Warehouse Automation (DWA) : pourquoi cela a du sens pour votre...

Les données ont été nommées la monnaie du futur qui surpasse la valeur du pétrole et de l'or...
EN SAVOIR PLUS

Architecture de l'entrepôt de données: types, composants et concepts

Au cours des dernières décennies, l'architecture d'entrepôt de données a été le pilier des écosystèmes de données d'entreprise. Et malgré de nombreux...
EN SAVOIR PLUS