什么是数据集市? 设计、示例和实现说明
与存储企业范围数据的数据仓库不同,数据集市包含与特定部门或主题领域相关的信息。 例如,销售数据集市可能仅包含与产品、客户和销售相关的数据。 阅读此博客以更好地了解这些部门数据存储库。
什么是数据集市?
数据集市是处理单一事务的数据仓库的子集。它们通常由单个业务部门构建和管理。由于它们是面向主题的,因此通常仅从少数来源获取数据,这些来源可能是内部操作系统, 数据湖,一个集中的 数据存储库,或外部来源。它们通常比数据仓库更精简、更简单,这使得它们更容易构建和维护。
现在我们已经了解了它们是什么,我们将了解三种不同类型的数据集市示例、它们的用途以及它们如何简化数据管理。 我们还将说明如何为您的特定业务实施特定于部门的数据存储库的分步指南。

资料来源:Study.com
数据集市如何使数据库管理受益?
在讨论数据集市的各种类型之前,让我们简要了解一下数据集市的好处以及为什么它们对于数据驱动的业务是必要的:
- 通过检索 BI 和报告的特定数据集来实现更快的数据访问。 因此,它有助于加速商业智能。
- 它们比建立企业更容易实施且更具成本效益 数据仓库.
- 根据在特定部门工作的特定用户组的要求而设计。
- 它们比数据仓库更具适应性。 由于数据集市规模较小,数据模型中的任何更改都可以轻松快速地合并到数据集市中。
- 由于广泛的分区和分段,允许精细的访问控制权限。
简而言之,它们比数据仓库更快、适应性更强且维护成本效益更高。 相比之下,数据仓库是为了整合来自无数来源的数据(通常不是结构化格式)而创建的。
数据集市的类型
数据集市可分为三种主要类型:
1. 依赖
依赖数据集市可让您将所有业务数据合并到一个单一的数据集市中 数据仓库,为您提供集中化的典型好处。
在此示例中,需要部门数据存储,您必须将它们构建为依赖实体,以确保所有数据存储系统之间的一致性和集成。
可以使用两种不同的方法构建依赖数据集市。 在第一种方法中,构建企业数据仓库和数据集市,以便操作员可以在需要时访问这两者。 第二种方法也称为联合方法,ETL 过程的结果存储在临时存储区域(例如公共数据总线)中,而不是存储在物理存储区域中。 数据库 所以操作员只能访问部门数据。
后一种方法并不理想,因为它偶尔会产生一个数据垃圾场,其中所有数据都来自共享源,但大部分都被丢弃。
2。 独立
无需使用中央数据仓库即可创建独立的数据集市。 主要推荐用于组织内的较小单位或团体。 顾名思义,这种存储库既不与企业数据仓库也不与任何其他实体相关。 它单独输入数据,分析也独立执行。
随着越来越多的独立数据集市的建立,整个组织的数据冗余也随之增加。 这是因为每个独立的数据存储都需要自己的,通常是综合业务信息的副本。 由于这些独立的数据存储直接访问操作系统的文件和/或表,因此它们相当大 限制决策支持系统(DSS)的可扩展性.
3。 混合动力
通过使用混合数据集市,除了数据仓库之外,您还可以组合来自多个运营源系统的数据。 当您需要临时集成(例如向业务添加新组或产品)时,这些特别有用。
顾名思义,混合数据集市是依赖类型和独立类型的混合体。 它适合拥有多个数据库并需要快速周转的企业。 这种类型的数据集市示例需要轻微的数据清理,支持巨大的存储结构,并且非常灵活,因为它结合了依赖系统和独立系统的优点。
为数据仓库设计数据集市
以下是您可以如何根据企业需求设计数据集市:
1。 设计
第一步是创建稳健的设计。 此阶段涉及的一些关键流程是:
- 收集企业和技术要求。
- 识别数据源。
- 选择合适的数据子集。
- 设计逻辑布局(数据库模式)和物理结构。
2. 构建/构造
该过程的下一步是构建数据集市。 这包括创建物理数据库和逻辑结构。 在此阶段,您将构建事实表、维度表、字段、索引和访问控制。
3. 填充/数据传输
下一步是填充集市,这意味着将数据传输到其中。 在此阶段,您还可以设置数据传输的频率,例如每天或每周。 此步骤通常涉及:
- 提取源信息。
- 清理和转换数据。
- 将数据加载到部门存储库中。
- 构建元数据并存储它。
4. 数据访问
在此步骤中,加载到数据集市的数据用于查询、生成报告、图表和发布。 该阶段涉及的主要任务有:
- 设置元层并将数据库结构和项目名称转换为企业表达方式,以便非技术操作人员可以轻松使用数据集市。
- 设置和维护数据库结构。
- 如果需要,您还可以设置API和接口来简化数据访问。
5.管理
最后一步涉及管理和观察,包括:
- 控制持续的用户访问。
- 优化和细化目标系统以提高性能。
- 将新数据添加到存储库中并进行管理。
- 配置恢复设置并确保发生故障时系统的可用性。
展望未来——数据集市和云
数据集市提供了一种高效、灵活且可扩展的数据存储方法。 然而,由于传入数据量不断增加,本地解决方案很快就会过时。 因此,许多企业正在将其数据存储解决方案迁移到云端。
基于云的架构使企业能够在线创建和存储数据。 这种方法的速度和灵活性为云中的分析创造了机会。 与本地选项相比,在云中执行分析可实现更高的可扩展性和成本效益。 那不是全部。 基于云的数据集市还提供其他众多优势:
- 实时数据分析。
- 按需访问数据。
- 所有数据集市的统一视图。
- 访问云原生源和目的地。
底线
数据集市包括企业范围数据的一部分,这对于组织中的特定用户组很有价值。 与创建昂贵且复杂的数据仓库不同,它提供了一种经济高效的替代方案。 它还允许更快的数据访问并且易于使用,因为它是根据运营商的要求精确设计的,并且专注于单个部门/主题领域。
数据集市可以帮助快速跟踪您的公司流程,因为它的实施时间比数据仓库要少。 它还包含过去的数据,以便您的数据分析师可以轻松确定数据趋势。


