读DAMA数据管理知识体系指南23数据集成概念(上)

news/2025/3/18 7:35:29/文章来源:https://www.cnblogs.com/lying7/p/18776833

1. 数据集成和互操作

1.1. 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程

1.2. 数据集成是将数据整合成物理的或虚拟的一致格式

1.3. 数据互操作是多个系统之间进行通信的能力

1.4. 管理职能

  • 1.4.1. 数据迁移和转换

  • 1.4.2. 数据整合到数据中心或数据集市

  • 1.4.3. 将供应商的软件包集成到组织的应用系统框架中

  • 1.4.4. 在不同应用程序或组织之间数据共享

  • 1.4.5. 跨数据存储库和数据中心分发数据

  • 1.4.6. 数据归档

  • 1.4.7. 数据接口管理

  • 1.4.8. 获取和接收外部数据

  • 1.4.9. 结构化和非结构化数据集成

  • 1.4.10. 提供运营智能化和管理决策支持

1.5. 依赖于数据管理的其他领域

  • 1.5.1. 数据治理

    • 1.5.1.1. 用于治理转换规则和消息结构
  • 1.5.2. 数据架构

    • 1.5.2.1. 用于解决方案设计
  • 1.5.3. 数据安全

    • 1.5.3.1. 无论数据是持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护
  • 1.5.4. 元数据

    • 1.5.4.1. 用于知晓数据的技术清单(持久的、虚拟的和动态的)​、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘
  • 1.5.5. 数据存储和操作

    • 1.5.5.1. 管理解决方案的物理实例化
  • 1.5.6. 数据建模和设计

    • 1.5.6.1. 用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构

1.6. 数据集成和互操作对数据仓库和商务智能、参考数据和主数据管理至关重要,因为所有这些都关注数据从源系统转换和集成到数据中心,以及从数据中心到目标系统,最终交付给数据消费者(人和系统)的过程

1.7. 数据集成和互操作是新兴大数据管理领域的核心

  • 1.7.1. 大数据旨在整合各种类型的数据,包括存储在数据库中的结构化数据、存储在文档或文件中的非结构化文本数据以及其他类型的非结构化数据,如音频、视频和流媒体数据

2. 业务驱动因素

2.1. 主要目的是为了对数据移动进行有效管理

2.2. 主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程

  • 2.2.1. 如果管理不当,移动数据的过程可能会压垮IT资源和能力,并弱化对传统应用程序和数据管理领域需求的支持能力

2.3. 每个购买的应用程序都有自己的一组主数据存储、交易数据存储和报表数据存储,这些数据存储必须与组织中的其他数据存储集成

  • 2.3.1. 扩大了企业数据集成和互操作性的需求

2.4. 对企业来说,管理数据集成的复杂性以及相关成本是建立数据集成架构的原因

  • 2.4.1. 企业级的数据集成设计远远比分散的或点对点的解决方案效率更高、成本更低

  • 2.4.2. 在应用程序之间采用点对点的解决方案,可能产生出成千上万的接口,即使最有效率和最有能力的IT支撑组织也会被迅速拖垮

2.5. 数据仓库和主数据解决方案,如数据中心(Data Hub),通过整合许多应用程序所需的数据,并为这些应用程序提供一致的数据视图,从而能缓解这个问题

  • 2.5.1. 通过使用企业数据集成技术(如中心辐射型集成(Hub-and-Spoke Integration)和规范化消息模型等)可以极大地简化管理这些数据的复杂性

2.6. 另一个业务驱动因素是维护管理成本

  • 2.6.1. 在使用多种技术来移动数据时,每种技术都需要特定的开发和维护技术,这样都会造成支撑成本增加

  • 2.6.2. 标准工具的应用可以降低维护和人力成本,并提高故障排除工作的效率

  • 2.6.3. 降低接口管理的复杂性不仅可以减少接口的维护成本,并使支撑资源能更有效地在企业其他优先事务中发挥作用

2.7. 数据集成和互操作(DII)还支持组织遵守数据处理标准和规则的能力

  • 2.7.1. 企业级数据集成和互操作系统可以重用代码,从而实现规则的兼容性,并简化兼容性验证工作

3. 目标和原则

3.1. 实施目标

  • 3.1.1. 及时以数据消费者(人和系统)所需的格式提供数据

  • 3.1.2. 将数据物理地或虚拟地合并到数据中心

  • 3.1.3. 通过开发共享模型和接口来降低管理解决方案的成本和复杂度

  • 3.1.4. 识别有意义的事件(机会和威胁)​,自动触发警报并采取相应行动

  • 3.1.5. 支持商务智能、数据分析、主数据管理以及运营效率的提升

3.2. 原则

  • 3.2.1. 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现

  • 3.2.2. 平衡本地数据需求与企业数据需求,包括支撑与维护

  • 3.2.3. 确保数据集成和互操作设计和活动的可靠性

    • 3.2.3.1. 业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性

4. 抽取、转换、加载

4.1. 数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程

4.2. 无论是在物理状态下或虚拟状态下,批量的或实时的执行ETL都是在应用程序和组织之间数据流动的必要步骤

4.3. ETL可以作为定期调度事件执行(批处理)​,也可以在有新数据或数据更新后执行(实时或事件驱动)​

  • 4.3.1. 操作型数据处理往往是实时或准实时的

  • 4.3.2. 分析或报表所需的数据通常在批量作业中

4.4. 对于需要超低延迟的数据集成需求来说,它通常不会包括数据集成中间结果的物理分段

4.5. 抽取

  • 4.5.1. 抽取过程包括选择所需的数据并从其源数据中提取

  • 4.5.2. 被抽取的数据会在磁盘或内存中的物理数据存储库中进行储存

  • 4.5.3. 如果在磁盘上进行物理缓存,则缓存数据库可以和源数据库或目标数据库合并,或者与两者都合并

4.6. 转换

  • 4.6.1. 转换过程是让选定的数据与目标数据库的结构相兼容

  • 4.6.2. 转换包括多种情况

    • 4.6.2.1. 格式变化

      4.6.2.1.1. 技术上的格式转换,如从EBCDIC到ASCII的格式转换

    • 4.6.2.2. 结构变化

      4.6.2.2.1. 数据结构的变化,如从非规范化到规范化的记录

    • 4.6.2.3. 语义转换

      4.6.2.3.1. 数据值转换时保持语义的一致化表达

    • 4.6.2.4. 消除重复

      4.6.2.4.1. 如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法

    • 4.6.2.5. 重新排序

      4.6.2.5.1. 改变数据元素或记录的顺序以适应已定义的模式

  • 4.6.3. 转换可以批量执行,也可以实时执行,或者是将转换结果存储在物理状态下的缓存区域,或者是将转换后的数据存储在虚拟状态下的内存中,直至移动到加载步骤为止

4.7. 加载

  • 4.7.1. 加载过程是在目标系统中物理存储或呈现转换结果

4.8. 抽取、加载、转换(ELT)

  • 4.8.1. 如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ELT——抽取、加载、转换

  • 4.8.2. ELT允许在数据加载到目标系统后再进行转换

  • 4.8.3. ELT允许源数据以原始数据的形式在目标系统上实例化,这对其他进程是有用的

  • 4.8.4. 用ELT的方式加载至数据湖,这在大数据环境中是很常见的

4.9. 映射

  • 4.9.1. 映射(Mapping)是转换的同义词,它既是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果

  • 4.9.2. 映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则(如果有的话)以及要应用的任何转换或计算规则

5. 时延

5.1. 时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差

5.2. 不同的数据处理方法会导致不同程度的数据延迟

  • 5.2.1. 延迟可以是很高(批处理)或较高(事件驱动)​,甚至是非常低(实时同步)​

5.3. 批处理

  • 5.3.1. 大多数数据在应用程序和组织之间以一批文件的形式移动,要么是根据数据使用者的人工请求,要么是按周期自动触发

    • 5.3.1.1. 这种类型的交互称为批处理或ETL
  • 5.3.2. 对于批处理数据集成解决方案,在源中的数据更改和目标中的数据更新之间,通常会有明显的时延,从而导致高延迟

  • 5.3.3. 批处理对于在短时间内处理大量数据非常有用,它倾向用于数据仓库数据集成解决方案,即使在低延迟解决方案可用时也是如此

  • 5.3.4. 为了实现快速处理和低延迟,一些数据集成解决方案使用微批处理

    • 5.3.4.1. 微批处理是指使批处理的运行频率高于按天更新的频率,如每5分钟运行一次
  • 5.3.5. 批量数据集成可用于数据转换、迁移和归档以及从数据仓库和数据集市中抽取和加载数据

  • 5.3.6. 为了避免数据集的不完整,对数据转移到数据仓库的作业应按照每日、每周或每月的报表来进行调度

5.4. 变更数据捕获

  • 5.4.1. 变更数据捕获是一种通过增加过滤来减少传送带宽需求的方法,只包含在特定时间范围内更改过的数据

  • 5.4.2. 源系统填入特定的数据元素

  • 5.4.3. 源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择

  • 5.4.4. 源系统复制已经变化的数据

  • 5.4.5. 在基于日志的更改数据捕获中,数据库管理系统创建的数据活动日志被复制和处理,然后寻找将其转换并应用到目标数据库的特定更改

5.5. 准实时和事件驱动

  • 5.5.1. 大多数未采用批量方式的数据集成解决方案都是使用准实时或事件驱动的方式

  • 5.5.2. 数据在特定的时间表内是以较小的集合进行处理,或者在事件发生时处理,如数据更新

  • 5.5.3. 准实时(Near-Real-Time)处理具有更低的延迟,而且通常因为工作是随时间分布的,所以系统负载较低

    • 5.5.3.1. 通常比同步数据集成解决方案要慢一些
  • 5.5.4. 准实时数据集成解决方案通常是使用企业服务总线来实现

  • 5.5.5. 状态信息和进程的依赖必须由目标应用程序加载过程来进行监控

5.6. 异步

  • 5.6.1. 在异步数据流中,提供数据的系统在继续处理之前不会等待接收系统确认更新

  • 5.6.2. 异步意味着发送或接收系统可能会在一段时间内离线,而另一个系统可以正常运行

  • 5.6.3. 由于在异步配置中对应用程序进行的数据更新不是及时的,所以称为准实时集成

  • 5.6.4. 在接近实时的环境中,源中进行的更新与中继到目标数据集之间的延迟通常为秒级或分级

5.7. 实时,同步

  • 5.7.1. 有些情况下,源数据和目标数据之间不允许存在时间延迟或其他差异

  • 5.7.2. 当一个数据集的数据必须与另一个数据集的数据保持完美的同步时,必须使用实时的同步解决方案

  • 5.7.3. 如果任何需要更新数据的应用程序处于不可用状态,那么主应用程序中的事务就无法完成

  • 5.7.4. 两阶段提交要确保事务中的所有内容更新,要么都是成功的,要么都没有成功

  • 5.7.5. 在状态管理方面,实时的、同步的解决方案比异步解决方案的需求少,因为事务处理的顺序显然应由更新应用程序管理

5.8. 低延迟或流处理

  • 5.8.1. 随着事件的发生,​“流数据”在事件发生后立即从计算机系统实时连续地流出

  • 5.8.2. 数据流捕捉事件,诸如购买商品或金融证券、社会媒体评论以及从传感器监控位置、温度、使用情况或其他的读数等

  • 5.8.3. 低延迟数据集成解决方案旨在减少事件的响应时间

  • 5.8.4. 传统磁盘驱动器的读写过程比处理内存或固态磁盘驱动器中数据的速度要慢数千倍

  • 5.8.5. 异步解决方案通常用于低延迟解决方案,这样事务在处理下一个数据之前不需要等待后续进程的确认

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/900750.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

02. log WriteBatch 的结构和编码

在这样的情况之下,我就想来捋一下,这个代码的逻辑 首先从不同的模块说起吧include/leveldb : 这里面存储了要暴露给外部的API,这里面的结构,从使用者来说会比较熟悉,就是通过这里面的结构,实现它的功能,对不同的组件会有一个直观的定义 db : 这里面是对应的实现的类,不…

01. 非阻塞的Skiplist

首先学习LevelDB当中比较独立的一部分,当然的,读源码的话,一个很好的入门的感觉就是先从一个独立的组件模块开始,一个比较容易的开始,SkipList 然后跳表的基本概念什么的我不太想要去过多的赘述,就像二叉树那样希望能得到log(N)的性能,而又利用概率算法更好实现,可以看…

ROCm技术小结与回顾(下)

示例3–V_MFMA_F64_4x4x4F64 考虑V_MFMA_F64_4x4x4F64指令,它计算大小为44的四个独立矩阵块的MFMA。执行的操作是 ,其中 , , 和 都是大小为44元素的矩阵,N=0,1,2,3。下面的两张图显示了 1)输入参数A和B的四个分量的大小和形状,如图4-18所示。 2)分量映射到波阵面所拥有…

ROCm技术小结与回顾(上)

ROCm技术小结与回顾 在这一部分中,首先检查了Kernel 5在各种AMD GPU和问题大小上的性能,并注意到当网格超过一定大小阈值时,性能似乎会急剧下降。通过实验确定,LLC的大小是大型xy平面问题性能的限制因素。提出了两种不同的解决方法来规避缓存大小的问题,这两种方法都只需要…

有限差分法——拉普拉斯第4部分

有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512512512上达到预期的性能目标MI250X GPU的单个GCD上的512个点…

推荐几本书1《AI芯片开发核心技术详解》、2《智能汽车传感器:原理设计应用》、3《TVM编译器原理与实践》、4《LLVM编译器原理与实践》,谢谢

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

WebKit Inside: CSS 的匹配原理

WebKit Inside: CSS 的匹配原理相关文章WebKit Inside: CSS 样式表的解析 WebKit Inside: CSS 样式表的匹配时机 WebKit Inside: Acitvie 样式表 当WebView解析完所有外部与内联样式表,就要进入到CSS样式表的匹配阶段。 1 相关类图 WebKit中参与CSS样式表匹配的主要类如下图所…

助记词-公私钥-子私钥派生-钱包地址原理及实现

0x01.简介 现在各种DEX、钱包插件中的钱包导入及创建,大部分是通过助记词来备份的; 助记词是明文私钥的一种表现形式,最早由BIP39提出,为了帮助用户记住复杂的私钥; 一组助记词可以生成各个链上的公私钥,进而可以算出钱包地址;掌握了助记词,就代表掌握了该组助记词上的…

AI 代理的未来是事件驱动的

AI 代理即将彻底改变企业运营,它们具备自主解决问题的能力、适应性工作流以及可扩展性。但真正的挑战并不是构建更好的模型。 代理需要访问数据、工具,并且能够在不同系统之间共享信息,其输出还需要能被多个服务(包括其他代理)使用。这不是一个 AI 问题,而是一个基础设施…

树莓派 3B + Bookworm:mjpg-streamer 正确安装全流程(原创)

在树莓派 OS Bookworm 版本上安装 mjpg-streamer 并非像旧版本一样简单,许多网上的教程已经过时,甚至存在错误。我在尝试过程中遇到了多个问题,例如依赖库缺失、编译失败等,但最终成功解决并搭建了 远程视频流监控系统。本教程基于 树莓派 3B,整理了一套 完整、可复现 的 …

1.匀速圆周运动

1.平面中的匀速圆周运动 例子:一个物体在半径为r的圆形路径中以恒定大小的速度s移动。 建立一个二维坐标系,物体位于平面上,圆心在原点上。物体的瞬时速度v(t)总是与其运动轨迹相切,所以物体任意时刻的速度与轨迹圆相切,并且速度的大小:$|v(t)|=s$ 下图右侧的两个三角形,…