Qu'est-ce qu'un schéma en étoile ?
Introduit en 1996 par Ralph Kimball, un schéma en étoile est une technique de modélisation de données multidimensionnelle. Il s'agit du type de schéma le plus simple utilisé par les entreprises dans entreposage de données.
D'après son nom, un schéma en étoile ressemble à une étoile lorsqu'il est visualisé. Il comporte une table de faits au milieu et de nombreuses tables de dimensions qui y sont attachées. Cette structure simple et dénormalisée la rend très efficace pour interroger des données.
Schéma en étoile avec tables de faits et de dimensions
Structure du schéma en étoile : tableaux de faits et de dimensions
Tableaux de faits
Les tables de faits, ou entités de faits, servent de pièce maîtresse du schéma en étoile. Une table de faits typique contient des données quantitatives ou des métriques qui représentent des événements commerciaux, des transactions ou des mesures. Ces faits sont généralement des valeurs numériques, telles que le chiffre d'affaires, le bénéfice ou les unités vendues.
Nous pouvons voir un exemple de tableau de faits ci-dessous. Il contient des faits mesurables, tels que le prix d'une unité vendue et la taxe de vente.
Date | Emplacement | Type de produit | Quantité | Prix unitaire | Montant des ventes | Achat | La taxe de vente |
8/4/2023 | CA | Nylon | 5 | 100 | 500 | 30 | 7.75% |
8/4/2023 | CA | Polyester | 7 | 250 | 1750 | 50 | 7.75% |
8/4/2023 | PA | Nylon | 6 | 100 | 600 | 65 | 6.00% |
Tables de dimensions
Les tables de dimension sont les tables auxiliaires qui fournissent des attributs contextuels et descriptifs pour les données de la table de faits. Ils aident à répondre à des questions telles que « qui », « quoi », « quand », « où » et « comment » liées aux événements professionnels. Les tableaux de dimensions contiennent des données catégorielles, telles que les noms des clients, les catégories de produits, les périodes et les emplacements géographiques.
Exemple : les deux tableaux de dimensions ci-dessous fournissent des détails sur les informations sur le produit dans le tableau de faits ci-dessus.
Date Dimension |
Date clé | Date | Jour |
10201 | 8/4/2023 | Samedi |
10202 | 8/4/2023 | Samedi |
Tableau des dimensions pour la date
Dimension magasin |
Clé de magasin | Nom de l'agence | Ville | Région |
151 | AngAngie'sparel | Los Angeles | Californie |
152 | AngAngie'sparel | Pittsburgh | Pennsylvanie |
Tableau des dimensions pour le magasin
Avantages de l'utilisation des schémas en étoile
-
Interrogation simplifiée : Les schémas en étoile sont faciles à comprendre et à mettre en œuvre. Leur structure dénormalisée réduit le nombre de jointures nécessaires pour récupérer les données. Cela simplifie et conduit à une agrégation et à des rapports de données plus rapides.
- Performances plus rapides : La complexité réduite des jointures et l'indexation efficace des tables de faits et de dimensions améliorent la récupération des données. Ceci est particulièrement important pour les décideurs qui ont besoin d'un accès rapide aux informations.
- Analyse intuitive : Les schémas en étoile permettent une analyse de données intuitive et simple. Les utilisateurs peuvent facilement comprendre les relations et les hiérarchies entre les dimensions.
- Prise en charge robuste : Les schémas en étoile prennent en charge les structures OLAP telles que les cubes de données – des tableaux multidimensionnels utilisés pour améliorer l'analyse des données.
Inconvénients de l'utilisation de schémas en étoile
- Manque d'intégrité : La dénormalisation peut entraîner une redondance des données. Les attributs dimensionnels sont souvent répétés dans plusieurs enregistrements d'une table de dimensions, ce qui peut entraîner des problèmes de qualité des données. Étant donné que les données sont dupliquées lors de la dénormalisation, des modifications fréquentes peuvent également entraîner l'affichage d'informations obsolètes dans certaines tables.
- Coûts accrus : L'ajout de données redondantes augmente les coûts de calcul et de stockage. Cela peut être particulièrement troublant lors de la manipulation de grands ensembles de données.
- Flexibilité limitée : Les schémas en étoile sont relativement moins robustes que les structures normalisées car ils sont construits pour des cas d'utilisation spécifiques. D'autres approches pourraient être plus efficaces pour les requêtes complexes impliquant plusieurs jointures.
- Difficultés d'entretien : À mesure que les données évoluent au fil du temps, la maintenance d’un schéma en étoile peut devenir difficile. Les mises à jour des attributs de dimension peuvent nécessiter des modifications à plusieurs endroits.
Quand utiliser le schéma en étoile
Cette technique de modélisation dimensionnelle est la meilleure option lorsque :
- Les utilisateurs ont une compréhension claire des données requises. Par exemple : le nombre de produits vendus par état.
- Les données sont structurées et quantitatives avec quelques attributs catégoriels.
- Ils veulent les données rapidement et facilement, sans créer de multiples jointures. La performance des requêtes est la priorité absolue.
- La redondance des données ne sera pas un problème.
Les analystes et les utilisateurs professionnels qui souhaitent une plus grande rigidité des données peuvent opter pour une approche plus normalisée. Le schéma en flocon de neige est une extension du schéma en étoile : il comprend un modèle en étoile normal avec des tableaux de sous-dimensions supplémentaires.
Les schémas Snowflake utilisent une approche plus normalisée adaptée à moins de redondance et à des requêtes plus complexes.
En savoir plus sur les avantages et les inconvénients de Schéma en étoile et schéma en flocon de neige et quand les utiliser.
Conclusion
Les schémas en étoile ne sont qu'une approche pour modélisation dimensionnelle. D'autres approches, telles que snowflake et 3NF, sont également largement utilisées dans la construction de data marts et d'entrepôts de données. La tâche importante pour les équipes de données est de trouver la meilleure approche en fonction de leur cas d'utilisation et de leurs ressources.
La sélection de la bonne technique de modélisation est essentielle pour automatiser l’entreposage de données et les initiatives BI. Consultez notre guide de boîte à outils sur la création de modèles de données et de pipelines efficaces pour l'automatisation des entrepôts de données et l'amélioration de vos rapports et analyses.