博客

首页 / 博客 / 元数据驱动的数据仓库架构的组成部分

目录
自动化, 无代码 数据栈

了解如何 Astera Data Stack 可以简化企业的数据管理。

    元数据驱动的数据仓库架构的组成部分

    九月25th,2023

    让我们面对现实吧,构建满足您所有需求的数据仓库架构需要大量的规划和专业知识。 现代数据仓库架构必须将操作系统数据与正确的格式和命名约定准确集成,必须足够灵活以适应这些底层源结构的变化,并且必须提供优化的性能以支持及时报告。

    In Astera 数据仓库生成器 (ADWB) 是一种数据仓库工具,我们提供无代码解决方案,为数据仓库开发带来可扩展性、速度和敏捷性。 通过统一数据模型设计器,您可以访问一系列深入的功能,从而大大节省 BI 架构设计、配置和部署所涉及的时间和成本。 让我们看一下企业数据仓库架构的这些要素是如何组合在一起的:

    控制端到端数据仓库开发

    数据仓库开发 Astera 数据生成器

    数据仓库开发

     

    通过数据仓库数据模型设计器,ADWB 提供了一个统一的界面,可以在其中导入源系统数据、与目标模式对齐、非规范化,并为迁移到 维度模型 针对报告和分析进行了优化。 ADWB 通过其逆向工程和正向工程功能促进了这一集成过程。

    为您的源系统创建丰富的 DWH 数据模型

    我们的逆向工程功能采用源数据库模式并以实体关系模型的形式复制它。 该模型显示了底层数据库的逻辑结构,并使您能够通过多种方式丰富此架构,以方便加载到数据仓库。

    ADWB 提供与一系列领先数据库的集成,包括 SQL Server 和 Oracle 数据库以及 Amazon 和 Microsoft Azure 等云提供商。 您还可以使用相同的技术直接从 Erwin Data Modeler 等建模软件导入数据模型。

    导入数据库实体后,用户可以开始基于共享键关系规范化表,或者在模型内建立关系(如果在逆向工程过程中未自动识别这些关系)。

    他们还可以编辑各个表,以确保相关字段和命名约定反映在数据仓库中。

    设计和配置适合您的报告要求的数据仓库架构

    借助 ADWB,您可以使用您喜欢的技术创建维度模型,从星型和雪花模式到数据仓库和操作数据存储,我们的平台都支持这些。 同样,我们的数据模型设计器使用户能够在逻辑级别管理所有这些任务,而无需深入研究任何代码本身。

    如果企业有一个用于数据仓库目的的现有数据库,他们可以对其进行逆向工程并开始建模,或者可以使用数据模型设计器中的拖放表从头开始构建架构。

    无论采用哪种方法,基本过程都是相同的。 配置架构中的所有实体并确保它们之间正确建立关系后,您可以将它们定义为事实或维度。 我们还包含一个专用的日期维度实体,以便您可以根据最合适的时间段对业务度量进行分组。 从财政季度到假日季节,我们都能满足您的需求。

    接下来,代理键(唯一标识记录的每个版本)和业务键(基于内部业务逻辑在事务系统中分配的标识值)将被分配给每个实体的布局构建器中的适当字段。

    您还可以自定义数据的格式,无论特定字段是否为必填字段,并决定在特定属性未出现值时显示的任何默认值。 业务度量到达您的事实表时是否没有关联的维度? 没问题 – 只需在相关实体中设置占位符维度,以便始终保持引用完整性。

    同样,所有这些元数据级别的更改都将影响部署后数据仓库架构的设置方式。

    自动跟踪源系统数据的变化

    数据仓库维护的主要方面之一是持续处理源系统表中的更新、删除和添加。 毕竟,现代 EDW 旨在提供组织数据的当前和历史视图。 在 DWB 中,我们通过缓慢改变尺寸类型来自动化这些过程。 它支持多个 SCD 处理技术,包括 SCD 类型 1、类型 2、类型 3 和类型 6。

     缓慢变化的维度类型

    缓慢变化的维度类型

    在布局生成器中,用户可以为每个维度字段选择最有效的缓慢变化维度 (SCD) 类型。

    轻松地将更改从数据模型传播到数据仓库

    现在数据仓库架构已在元数据级别设置,您只需确保数据库已准备好填充即可。 这是通过正向工程功能完成的,该功能将维度模型中所做的所有结构更改应用到物理数据库。

    展望未来,您可以使用此选项将更改从数据模型快速传播到目标数据库。

    只需点击几下即可验证和部署您的数据模型

    设置数据模型后,您现在就可以进行部署了。 但首先,您需要使用我们方便的数据验证工具检查数据模型的完整性,并避免花费数小时进行手动故障排除。

    我们的工具会执行彻底的数据验证检查,通过在进入下一生产阶段之前突出显示数据模型中的任何错误来减少这些重复性任务。 从不完整的字段到引用错误,您可以使用此功能在第一遍发现并纠正潜在问题。

    大幅加速数据仓库加载

    在 ADWB 中,数据仓库的所有 ETL 均由专用事实和维度加载对象处理。 现在,您可以从源数据模型中选择单个源对象或多个表(可以使用数据流中的数据模型查询对象选择多个表)并将它们映射到加载器,而不是构建复杂的数据流。 然后,只需将加载程序指向已部署的维度模型中的相关事实或维度表,映射就完成了。

    如果您需要将其他聚合、过滤器或验证规则应用于事实或维度数据,您只需从工具集中拖放所需的转换并在此数据流中进行配置。

    完成从源到数据仓库的映射后,ADWB 将执行流程。 数据从源获取并通过必要的转换进行处理,然后加载到仓库中的相关表中。 在这里,将分配适当的代理和业务键,并且将按照建模阶段定义的方式执行查找。 在 ADWB 中,我们添加了专用的维度查找转换,该转换可以自动根据相关 SCD 表交叉引用每个业务键,并将其与适当的代理键进行匹配。

    使用元数据数据仓库解决方案,您只需创建初始数据流。 填充数据仓库涉及的所有编码均由我们的平台以专用下推 (ELT) 模式自动生成,以确保在这些资源密集型操作期间,服务器上的负载最小。 换句话说,您可以在几分钟内填充数据仓库。

    ADWB 与平台无关!

    ADWB 为一系列数据库目标提供开箱即用的连接器,因此您可以在您选择的平台上设置数据仓库架构,而无需担心兼容性问题。 目前,我们支持以下行业领先的云和本地数据库:

    • 雪花​
    • 亚马逊红移​
    • Azure Synapse 分析
    • Oracle 自治数据仓库​
    • 天睿数据​
    • SAP 数据仓库
    • SQL服务器​
    • 玛丽亚数据库​
    • Vertica的
    • IBM DB2

    从任何授权应用程序查询和可视化您的企业数据

    所有部署的数据模型也可作为 开放数据服务。 我们的元数据数据仓库引擎采用这些服务,并最终采用 SQL,以便可以在应用程序和浏览器之外查看或查询表。

    您所需要的只是部署的 Web 地址和用于验证连接的不记名令牌,最终用户可以通过任何连接的应用程序访问您的仓库数据。

    您还可以通过领先的报告和可视化工具(例如 Tableau、Power BI、Domo 等)直接使用您的数据仓库。

    轻松协调所有 ETL 操作

    部署数据仓库后,我们的工作流程功能将帮助您准确管理不同表的填充方式。 一旦您决定如何编排这些操作,每个数据流将通过暂存区域从源系统检索数据并将其迁移到维度数据模型中。

    自动更新并保持企业数据的及时性

    用户可以根据相关源系统表的更新频率来设置每个维度的数据加载频率。 借助作业计划程序功能,您可以编排这些操作以在特定时间间隔连续运行,或者在对源系统进行修改时增量运行。

    使用元数据驱动的数据仓库,您无需担心代码质量以及它如何承受大量数据。 我们的解决方案通过元数据引擎在后端生成所有必要的 ETL 脚本,并由工业级 ETL 引擎提供支持,该引擎可根据您的需求进行扩展。 添加实时作业监控和日志记录功能,重大设计错误将成为过去。

    敏捷、可扩展且可随处访问。 在几天内构建您的数据仓库 Astera 数据仓库构建器。

    有兴趣尝试我们的解决方案吗? 我们现在为您提供参与我们独家发布活动的机会。 单击此处 联络方式,并了解如何加入。

    常见问题

    A 元数据驱动的架构 专注于元数据管理,在确保决策支持系统的有效性方面发挥着关键作用。 元驱动数据仓库也是新一代的ETL,是一个允许用户在逻辑层面设计数据仓库的统一平台。 它封装了 ETL 和数据仓库模式的设计。

    在数据仓库中,元数据属于以下三类之一:

    1. 操作元数据:源系统数据在集成到数据仓库之前通常会经过过滤、转换、组合和进一步增强。 因此,很难确定这些记录的来源。 操作元数据提供了数据集的整个历史、谁拥有它、它经历的具体转换以及它的当前状态,即它们本质上是当前的还是历史的。
    2. ETL 元数据:此元数据用于指导数据仓库的转换和加载过程。 它包含迁移实体的物理模式,包括表和列名称、包含的数据类型和值以及目标表的规定布局。 ETL 元数据还包括适用的转换规则、事实/维度定义、加载频率和提取方法。
    3. 最终用户元数据:这种类型的元数据对于日常查询和搜索数据仓库的消费者特别有用。 它本质上充当数据仓库的地图,提供架构中包含的数据的详细信息、数据集如何相互关联(主键/外键)、从源映射到目标的必要计算、需要报告的特定数据集如何。

    EDW 中元数据的主要优点是:

    • 为大容量、复杂的数据架构中的不同数据提供结缔组织。
    • 促进从源系统到数据仓库的映射。
    • 通过对数据集进行分类和汇总来优化查询。
    • 在数据仓库生命周期的多个阶段有效使用,包括模式生成、提取、加载到数据仓库、暂存层中的转换以及报告过程中。

    作者:

    • Astera 营销团队
    你也许也喜欢
    为什么您的组织应该使用人工智能来提高数据质量
    数据网格定义:原则、架构和优势
    云端与本地数据仓库:2026 年综合指南
    考虑到 Astera 满足您的数据管理需求?

    与您的企业应用程序、数据库和云应用程序建立无代码连接,以集成您的所有数据。

    现在就联系吧!
    让我们联系