ETL知识中心
数据映射是数据转换、集成、仓储虚拟化等各种数据管理过程中的主要步骤。它将数据从源格式转换为目标兼容格式,在两个不同的数据集之间建立连接以完成一系列操作转型和整合工作。数据映射任务的复杂性取决于源系统和目标系统的结构以及要映射的数据。
使用数据映射,企业可以从不同来源收集信息并对其进行转换以获得可行的见解。
数据提取是从结构化、半结构化或非结构化来源(例如电子邮件、PDF、文本文件等)检索数据的过程。它使企业能够使用数据进行进一步处理,从而可以聚合、分析、迁移到中央存储库,或用于报告。
提取是 ETL 过程的第一步,随后数据被清理、转换并加载到相关的目标系统中。
修改源数据的结构或格式以使其与目标系统兼容的过程称为数据转换。它用于各种数据管理过程,包括数据集成、迁移、清理、复制等。
转换数据可为用户带来多种好处,例如:
- 它使数据更好地组织起来,使计算机和人类都可读。
- 正确构建和格式化的数据可以提高数据质量,并确保集成或分析时获得准确的结果。
- 转换后的数据可确保应用程序可以相互通信,尽管源系统和目标系统的存储格式存在差异。
ETL 是提取、转换和加载的缩写。 ETL过程:
- 从源系统检索数据,例如文件、数据库等 – 提取
- 更改为与目的地兼容的格式 – 转型
- 将其存储到目标数据库或数据仓库中 – 装载
下推优化,也称为 ELT,是一种服务器负载平衡技术,可最大限度地提高集成过程的性能。它提取、加载和转换数据——使用户能够选择数据处理是在源数据库还是目标数据库中进行。
通过将临时表放置在数据库中,可以消除不必要的数据移动并减少网络延迟,从而缩短总体执行时间。
下推优化模式可以分为两类:
1- 部分下推:在此模式下,转换逻辑部分下推到源或目标数据库,具体取决于数据库提供程序。
2- 全下推:它将转换逻辑完全下推到数据库,从头到尾以下推方式执行作业。
ETL(提取、转换和加载)从多个源提取数据,将数据从一种格式转换为另一种格式,然后将其加载到目标数据库或数据仓库中。
另一方面,ELT(提取、加载和转换)从源中提取数据,将其加载到目标数据库中,然后在该数据库中转换数据。但是,要使 ELT 发挥作用,源系统和目标系统都应该是数据库。
这两种处理技术之间的主要区别在于 改造 发生。
- 在 ELT 中,集成服务器处理转换负载,而在 ELT 中,转换发生在源或目标数据库中。
组合来自异构源的数据并以统一格式呈现的过程称为数据集成。这包括:
- 整合来自各种不同格式的源系统的数据,例如文件系统、API、数据库等。
- 通过删除重复项、错误等来清理数据。
- 根据业务规则对数据进行分类
- 将其转换为所需的格式,以便可用于报告或分析
数据集成用于各种数据管理流程,例如数据迁移、应用程序集成、主数据管理等。
数据迁移是在不同系统(包括数据库和文件)之间移动数据的过程。然而,“转移”并不是移民的唯一步骤。例如:
- 如果数据格式不同,迁移过程包括源系统和目标系统之间的映射和转换。
- 它还涉及在将源数据加载到目标系统之前评估源数据的质量。
任何数据迁移项目的效率都取决于所移动数据的多样性、数量和质量。
数据验证是在处理之前消除无效值、重复值和其他错误以确保数据的准确性和质量的方法。该过程确保数据是:
- 全面且一致
- 独特且无错误
- 符合业务要求
验证数据对于所有数据流程(包括集成、迁移、仓储等)至关重要,因为最终目标是帮助确保结果的准确性。使用可靠的数据使企业有信心毫不犹豫地及时做出决策。
数据清理,也称为数据清理,是数据准备过程中的主要步骤。它包括查找并纠正数据集中的错误、重复、格式问题和其他不准确之处,以确保数据质量。当数据来自不同的来源、具有不同的格式和结构时,数据清理的需求就会增加,因为必须对数据进行标准化以进行分析和报告。
数据质量根据自定义业务规则评估数据的准确性和可靠性。它包括一组属性,可确保在决策、报告和其他业务流程中使用高质量的数据。
数据质量的一些关键维度包括:
- 完备性 确保任何数据集中没有信息丢失或丢失。
- 持续一致 表示不同系统之间的数据是同步的,并且显示相似的信息。
- 准确性 确保数据是否正确显示其应有的内容。可以根据源数据对其进行评估,并通过用户定义的业务规则进行身份验证。
- 唯一 保证信息不重复。
- 有效期限 确定数据符合业务用户设定的准则和标准。
数据分析用于通过呈现数据统计特征的完整细分来评估数据,例如错误计数、重复率、警告计数、最小值和最大值等。它通过帮助用户识别风险、质量问题和数据的总体趋势来促进详细检查。
数据分析用于一系列数据管理流程,包括:
1-数据迁移
2- 数据整合
3-数据仓库
4-数据同步
更改数据捕获 (CDC) 通过捕获源数据中所做的各个更改并将其传播到目标系统来促进实时数据集成。该进程主要用于数据同步。由于它几乎实时复制数据并且仅处理数据更改,因此它是一种可扩展且经济高效的选择。
数据库集成结合了来自多个来源(包括数据库、云、文件等)的信息,并将其存储在统一的数据库中,以获得干净、统一的视图。
将信息存储在集中式数据库中可确保利益相关者和合作伙伴在整个企业范围内都能获得数据。此外,它还改善了用户体验并减少了信息传递时间。
API集成使应用程序可以通过API与后端企业系统连接。 API 包括一组协议、例程或工具,可帮助应用程序之间以及数据库和设备之间进行交互。
使用 API 集成平台,企业可以创建新的 API 并将其添加到企业生态系统中,以便:
- 连接到云应用程序
- 从遗留数据源中提取价值
- 自动化集成流程
数据整合是从不同来源收集数据并将其集成到统一系统(例如数据仓库或数据库)中的过程。该过程可以使用不同的技术来实现,例如数据集成、仓储或虚拟化。
数据整合具有多种优势,例如:
- 整合企业数据为用户提供了其业务资产的 360 度视图。
- 它允许公司根据这些信息来规划和实施业务流程以及灾难恢复解决方案。
- 它加快了流程执行速度并简化了信息访问。