Data Vault 101:可扩展数据仓库综合指南
随着企业处理更大、更多样化的数据,管理这些数据变得越来越困难。 只有5%的企业 感觉他们可以控制数据管理,同时 77% 的行业领导者 考虑不断增长的数据量是最大的挑战之一。
数据保险库是一项新兴技术,可实现透明、敏捷且灵活的数据架构,使数据驱动的组织始终为不断变化的业务需求做好准备。
什么是数据仓库?
数据仓库是一种数据建模技术,使您能够构建 数据仓库 用于企业规模的分析。它使您能够通过敏捷和增量方法适应快速变化的业务需求,从而避免大量重新设计的需要。它还确保数据的历史跟踪和审核,因为它存储来自源系统的所有数据,而不进行任何更新或删除。
数据仓库架构
数据保险库遵循三层架构,包含原始保险库、业务保险库和信息保险库。这种设计允许您构建敏捷且可扩展的数据仓库,能够适应源系统和业务需求的变化。
原始金库
原始金库是最细粒度的 水平, 并且它存储的数据尽可能接近源格式。它还跟踪源头的所有审核信息。
由于原始保管库仅用于插入,因此不会删除或更新任何数据。这可确保原始保管库保留数据的完整历史记录和可追溯性。 原始金库由枢纽、链路和卫星组成。这些表捕获数据的业务键、关系和属性。
- 集线器 代表核心业务概念,例如客户、产品或车辆。它们存储唯一标识这些概念的业务密钥以及一些元数据信息,例如加载日期和序列 ID。用户可以使用业务密钥查询Hub的信息。例如,一个 对客户的 集线器有 顾客ID 作为业务密钥,以及 产品 集线器将有一个 产品编号 作为业务密钥。
- 链接 代表枢纽之间的关系。链接存储业务密钥的组合,展示这些中心的连接方式。例如,之间的链接 对客户的 与 产品 集线器可以是 购买交易 链接表。它将包含与这两个中心相关的数据,例如 购买日期, 数量, 总价.
为了确保每笔交易都可以被唯一标识,数据保险库将连接 顾客ID 与 产品编号,然后根据连接的字符串生成哈希键。 - 卫星 商店 这个 描述的 有关集线器和链接的信息。它们包含描述集线器和链路随时间变化的特征或状态的属性。例如,卫星 对客户的 集线器可以存储客户的 名字, 姓, 地址, 电话号码等等。
同样,卫星 购买交易 链接表可能存储如下信息 付款方法, 邮寄状态, 加载日期, 记录源。在此表中, 付款方法 与 邮寄状态 提供有关每笔交易的附加信息。 加载日期 与 记录源 是元数据字段。
商业金库
业务金库是从原始金库派生的另一层。它将选定的业务规则、计算、数据清理和数据质量功能应用于数据。 业务保管库还可以包含集线器、链路和卫星,但它们通常是根据业务需求创建的,并且通常不是原始保管库中的直接副本。业务库对于提供查询帮助和方便用户访问数据非常有用。
以下是我们示例中的 Business Vault 中可能应用的一些数据转换和数据质量规则:
- 数据转换——客户终身价值计算: 您可能有一个转换规则,用于根据每个客户的购买历史记录计算其生命周期价值。这可以作为 Business Vault 中的一个新卫星表来实现,该表将每个 顾客ID 具有计算的 LifetimeValue 属性。这 终身价值 可以计算为 总价 对于与每个相关的所有交易 顾客ID.
- 数据转换 - 产品类别销售: 您可能想要跟踪每个产品类别的总销售额。这可以作为 Business Vault 中的新中心和卫星来实现,将每个中心关联起来 分类 与计算出的 总销售额 属性。
- 数据质量规则: 您可能有强制执行数据质量标准的业务规则。例如,您可能有一个规则来标记任何交易 总价 小于零,或者其中 顾客ID or 产品编号 不存在于各自的 Hub 表中。这些规则可以作为数据加载过程中的检查或数据库模式中的约束来实现。
信息库
信息库(也称为信息集市)是基于原始库和业务库构建的表示层,用于支持报告和分析。它由用户友好的结构(如星型模式)组成 代表or 数据集市。
信息库可以对数据进行进一步的转换和聚合,以供最终用户或商业智能工具使用。

数据仓库架构
原始金库、业务金库和信息集市的结合可以实现更好的数据完整性、近乎实时的加载,并在不影响现有结构的情况下更好地满足新业务需求。
数据仓库的好处
灵活性和适应性
Data Vault 可以通过最小化维护工作量来处理多个源系统和频繁变化的关系。这意味着,通过向数据仓库模型添加另一颗卫星,可以轻松实现创建新属性的一个源系统的更改。
同样,可以通过关闭一个链接并创建另一个链接来处理新的和不断变化的关系。这些示例显示了 Data Vault 提供的高水平灵活性和适应性。
可扩展性
随着数据量的增长或添加更多源系统,数据仓库可以轻松扩展。您可以引入新的集线器、链路和卫星来合并其他数据源或实体,而无需破坏现有结构。数据仓库允许您容纳更多数据和更多用户,而不会影响性能或质量。
历史数据保存
在数据仓库中使用卫星表可确保保留历史数据。这对于跟踪随时间的变化、分析趋势和满足法规遵从性要求至关重要。例如,在临床数据仓库中,存储历史数据以了解患者诊断或提供者专业如何随时间演变非常重要。
数据沿袭和可审计性
数据保险库将数据沿袭和可审计性嵌入到数据保险库模型中。换句话说,数据保险库存储每条新记录的加载日期和数据源,告诉我们 数据来自何时何地。此外,您可以分析哈希键和哈希差异,以快速比较行值并识别更改。这些功能有助于确保数据质量、可追溯性和问责制。
持续一致
即使源数据或其交付不一致,数据保险库也会通过以一致的方式捕获数据来确保数据一致性。这意味着数据仓库可以为业务决策提供可靠、准确的信息。此外,数据保险库可以使用哈希值并行加载数据,从而提高数据访问速度和用户满意度。
敏捷性
数据仓库通过遵循包含敏捷工作流程的多个原则的方法来支持数据仓库需求的敏捷开发和演变。这意味着数据仓库项目具有较短的、范围受控的发布周期,使开发团队能够与业务需求密切合作并创建更好的解决方案。
数据仓库与传统数据仓库技术
数据仓库是一种构建数据仓库的建模技术,但与维度模型、3NF等传统技术不同。它在数据加载、数据建模和数据敏捷性方面存在一些关键差异。
数据加载
与传统数据仓库技术相比,数据仓库加载数据的方式不同。通常,数据仓库遵循 提取-转换-加载 (ETL) 在将数据加载到仓库之前对数据进行转换和验证的工作流程。在该技术中, 您必须根据源系统中的更改更新或删除仓库中的现有记录。
相比之下,数据保险库利用提取-加载-转换 (ELT) 工作流程,其中数据直接从源系统存储在原始保险库中。业务规则、转换或验证稍后在流程中应用,通常在业务库内应用。
此方法允许您将新记录追加到保管库,而无需更新或删除现有记录。仅当需要使用数据进行报告或分析时,您才可以应用业务规则、转换和验证。
数据建模
传统的数据仓库通常使用维度建模或规范化建模(3NF)将数据组织为事实和维度或实体和关系, 恭敬地.
Data Vault 使用混合建模技术,结合了维度建模和标准化建模的最佳实践。它利用中心辐射模式以历史且灵活的方式表示数据。 数据仓库是否是 理想数据建模 对你来说取决于你的要求。
数据敏捷性
数据仓库通常具有严格且稳定的结构,旨在满足当前和预期的业务需求。由于业务需求、源系统或数据质量标准的变化,仓库的结构可能会随着时间的推移而变化。然而,此类更改可能需要大量的努力和资源来修改现有的 ETL 流程、仓库模式和报告。
数据仓库通过分离数据模型的稳定部分和临时部分来适应快速变化的业务需求。 这意味着核心业务概念及其关系存储在很少发生变化的中心和链接中。相比之下,描述性属性及其随时间的变化存储在卫星中,可以轻松添加或修改。
这样,当引入新的源或属性或修改现有的源或属性时,数据仓库就无需对数据仓库进行大量的重新设计。
处理大量数据的能力
DataVault支持并行加载不同来源的数据,从而提高数据集成的速度和效率。数据保险库基于敏捷方法和技术,使您能够持续交付价值 反复地,并与业务用户积极协作。
数据仓库最佳实践
数据仓库可以处理复杂且动态的数据环境。然而,为了确保成功实施数据仓库,遵循最佳实践并避免常见陷阱非常重要。以下是该领域专家的一些提示和建议:
- 计划 在设计数据仓库之前明确定义业务模型和需求。这有帮助 识别出来 键 业务概念、关系和属性将构成集线器、链路和卫星的基础。
- 使用自动化工具加速并简化数据仓库的开发和维护。自动化工具可以帮助根据预定义的模式和元数据生成代码、数据模型、文档和测试。
- 按照 数据保险库2.0 确保数据仓库的一致性、质量和可扩展性的标准和最佳实践。 Data Vault 2.0 是原始方法的更新版本,包含散列键、并行加载、审计列和业务保险库等新功能。
- 避免不必要或冗余的数据使数据仓库过载。 DataVault 旨在存储来自源系统的原始数据,无需应用任何转换或业务规则。然而,这并不意味着应该将所有内容加载到数据库中而不过滤或验证数据。用户应该只加载适合其业务需求的相关、准确且有用的数据。
- 定期监控和测试数据仓库以确保 其 性能、可靠性和准确性。数据仓库是一种动态且不断发展的数据结构,可以适应数据源和业务需求的变化。然而,这也意味着用户必须跟踪更改及其影响s 在数据保险库上。
构建数据仓库 Astera
数据仓库提供了许多好处,例如可扩展性、可审计性、并行性和适应性,使其成为满足现代数据仓库需求的绝佳选择。 Astera DW Builder 是一个无代码的自动化数据仓库设计和 ETL/ELT 允许用户在几分钟内构建数据仓库的工具。


