读DAMA数据管理知识体系指南32参考数据和主数据概念(下)

news/2025/3/30 6:14:20/文章来源:https://www.cnblogs.com/lying7/p/18793169

1. 主数据

1.1. 主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息

1.2. 实体是客观世界的对象(人、组织、地方或事物等)​

1.3. 实体被实体、实例以数据/记录的方式表示

1.4. 主数据应该代表与关键业务实体有关的权威的、最准确的数据

  • 1.4.1. 在管理良好的情况下,主数据值是可信的,可以放心使用

1.5. 参与方

  • 1.5.1. 个人和组织,以及他们扮演的角色

1.6. 产品和服务,包括内部和外部的产品及服务

1.7. 财务体系

  • 1.7.1. 合同、总账、成本中心、利润中心

1.8. 位置信息

  • 1.8.1. 地址和GPS坐标

2. 记录系统,参考系统

2.1. 当可能有不同版本的“事实”存在时,就有必要对它们加以区分

2.2. 必须知道数据是从哪里来的,或者在哪里被访问的,以及准备这些数据的具体用途和目的

2.3. 记录系统(System of Record)是一个权威的系统,它通过使用一套定义好的规则和预期(如ERP系统可以是记录销售客户的记录系统)来创建、获取并维护数据

2.4. 参考系统(System of Reference)也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统

2.5. 数据管理应用(MDM)、数据共享中心(Data Sharing Hubs, DSH)和数据仓库(DW)通常会被用作参考系统

3. 可信来源,黄金记录

3.1. 基于自动规则和数据内容的手动管理的结合,可信来源(Trusted Source)被认为是“事实的最佳版本”​

3.2. 可信来源也可以称为一种单一视图、360度视图

  • 3.2.1. 要想让主数据管理系统成为可信来源,就必须有效地管理它们

3.3. 在可信来源中,表示一个实体、实例的最准确数据的记录可以被称为黄金记录(Golden Record)

3.4. 技术目标将黄金记录定义为“事实的单一版本”​,其中“事实”是指数据用户希望在确保他们拥有正确版本的信息时就可以把它们作为查阅的参考资料

3.5. 黄金记录包含一个组织中每个记录系统(SOR)中的所有数据

3.6. 在任何主数据管理中,将多个来源的数据合并或分解成黄金记录并不意味着它总是能百分之百准确完整地表示组织内的所有实体(特别是在那些拥有多个向主数据系统提供数据的记录系统的组织中)

3.7. 金融和精算领域对客户“单一版本”的看法通常有别于营销领域

4. 主数据管理的关键处理步骤

4.1. 数据模型管理

  • 4.1.1. 主数据工作揭示了清晰一致的逻辑数据定义的重要性

4.2. 数据采集

  • 4.2.1. 接收并应对新的数据源采集的要求

  • 4.2.2. 使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估

  • 4.2.3. 评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析

  • 4.2.4. 试点数据采集及其对匹配规则的影响

  • 4.2.5. 为新数据源确定数据质量指标

  • 4.2.6. 确定由谁负责监控和维护新数据源数据的质量

  • 4.2.7. 完成与整体数据管理环境的集成

4.3. 数据验证、标准化和数据丰富

  • 4.3.1. 要实现实体的解析,数据必须尽可能保持一致

  • 4.3.2. 至少需要减少格式上的变化和数据值调整,输入数据的一致性能有效减少关联记录的风险和错误

    • 4.3.2.1. 验证

      4.3.2.1.1. 识别那些被证明是错误的或可能是不正确或默认的数据

    • 4.3.2.2. 标准化

      4.3.2.2.1. 确保数据内容符合标准参考数据值(如国家代码)​、标准的格式(如电话号码)或字段(如地址)​

    • 4.3.2.3. 数据丰富

      4.3.2.3.1. 添加可以改进实体解析服务的属性

4.4. 实体解析和标识符管理

  • 4.4.1. 实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程

  • 4.4.2. 实体解析是一个决策过程,执行过程的模型根据它们确定两个引用之间相似性的方法而有所不同

  • 4.4.3. 匹配(Matching)

    • 4.4.3.1. 匹配或候选识别是识别不同记录如何与单个实体相关联的过程

    • 4.4.3.2. 假阳性(False Positives)

      4.4.3.2.1. 不代表同一实体的两个对象被关联在一个标识符下

      4.4.3.2.2. 假阳性导致一个标识符指向多个现实世界的实体实例

    • 4.4.3.3. 假阴性(False Negatives)

      4.4.3.3.1. 代表同一实体的两个对象没有关联在一个标识符下

      4.4.3.3.2. 假阴性导致多个标识符指向同一个现实世界的实体,但一个实体本应该有且只有一个标识符

    • 4.4.3.4. 确定式算法(Deterministic Algorithms)

    • 4.4.3.5. 或然式算法(Probabilistic Algorithms)

      4.4.3.5.1. 依赖于训练数据的采集能力,训练是需要观察全部记录的一个子集的预期结果,再进行匹配器调优,实现匹配器基于统计结果的自我调整

  • 4.4.4. 身份解析

    • 4.4.4.1. 一些匹配采用多个字段实现精确数据匹配,故可信度很高

    • 4.4.4.2. 另一些匹配则由于数值冲突而缺少可信度

    • 4.4.4.3. 尽管尽了最大努力,匹配决策有时候仍被证实是错误的,所以维护匹配历史信息很重要,以便在发现匹配不正确时可以撤销匹配

  • 4.4.5. 匹配流程/协调类型

    • 4.4.5.1. 不同场景的匹配规则需要不同的工作流程

    • 4.4.5.2. 重复标识匹配规则(Duplicate Identification Match Rules)

    • 4.4.5.3. 匹配链接规则(Match-link Rules)

      4.4.5.3.1. 标识可能与主记录相关的记录,只建立交叉引用关系而不更新这些被交叉引用的记录的内容

    • 4.4.5.4. 匹配合并规则(Match-merge Rules)

      4.4.5.4.1. 重点关注记录的匹配,并将这些记录中的数据合并为单一、统一、协调且全面的记录

    • 4.4.5.5. 匹配合并规则如此复杂,目的就是希望在多个记录和数据源中提供统一的、协调的信息版本

    • 4.4.5.6. 复杂性是由于需要根据一系列规则来确定哪个源的哪个字段可被信任

    • 4.4.5.7. 匹配链接是一种更简单的操作,因为它作用于交叉引用注册表而不是合并的主数据记录的各个属性,尽管从多个记录中呈现综合信息可能更加困难

  • 4.4.6. 主数据ID管理

    • 4.4.6.1. 管理主数据涉及管理标识符

    • 4.4.6.2. 在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息

    • 4.4.6.3. 全局标识符是主数据管理解决方案分配和维护的唯一标识符,它会被附加到协调记录中,其目的是能够唯一地标识一个实体实例

    • 4.4.6.4. 不管使用哪种技术执行主数据整合活动,全局标识符都应该只由一个授权解决方案生成,以避免出现重复值的风险

    • 4.4.6.5. 交叉引用管理(X-Ref Management)是对源ID和全局标识符之间关系的管理,交叉引用管理应该包括维护此类映射历史的功能以支持匹配率指标,并开放查找服务以支持数据整合

  • 4.4.7. 从属关系管理

    • 4.4.7.1. 从属关系管理负责建立和维护具有现实世界关系的实体主数据记录之间的关系

    • 4.4.7.2. 隶属关系(Affiliation Relationships)

      4.4.7.2.1. 通过程序逻辑提供了最大的灵活性,父子层次结构的数据也可以用该类型关系来展示

    • 4.4.7.3. 父子关系(Parent-Child Relationships)

      4.4.7.3.1. 因为导航结构是隐含的,故父子关系需要较少的程序逻辑

    • 4.4.7.4. 数据共享和管理责任

      4.4.7.4.1. 虽然大部分主数据管理工作可以借助工具实现自动化,从而处理大量记录,但仍然需要一些管理工作来解决数据错误匹配的情况

5. 参与方主数据

5.1. 参与方主数据(Party Master Data)是关于个人、组织以及他们在业务关系中所扮演角色的数据

5.2. 客户关系管理(CRM)系统能够管理客户的主数据

5.3. 客户关系管理的目标是提供关于每个客户完整且准确的信息

5.4. 客户关系管理的一个重要方面是从不同的系统中识别重复、多余、相互矛盾的数据,并确定它们是代表一个客户还是多个客户

5.5. 主数据对于在组织中扮演多重角色的参与方(如既是客户又是雇员)以及使用不同接触点或接触方法(如通过与社交媒体网站绑定的移动设备应用程序的交互)的参与方来说极具挑战性

6. 财务主数据

6.1. 财务主数据(Financial Master Data)包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据

6.2. 财务主数据管理解决方案不仅包括创建、维护和共享信息,还可以模拟现有财务数据的变化如何影响公司的基线

6.3. 财务主数据的模拟通常是商务智能报告、分析和规划模块以及更直观的预算和计划的一部分

7. 法律主数据

7.1. 法律主数据(Legal Master Data)包括关于合同、法规和其他法律事务的数据

8. 产品主数据

8.1. 产品主数据(Product Master Data)专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)​

8.2. 产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期

8.3. 产品数据管理(PDM)系统通过捕获和实现对设计文档(如CAD图样)​、配方(制造说明书)​、标准操作程序和物料清单(BOM)等产品信息的安全共享,以支持工程和制造功能

8.4. 企业资源规划(ERP)系统的产品数据主要关注库存单位,以支持从订单录入到库存阶段,可以通过多种技术识别各种独立的产品

8.5. 制造执行系统(MES)中的产品数据主要关注原材料库存、半成品和成品,其中成品与可以通过ERP系统来存储和订购的产品相关联

8.6. 客户关系管理(CRM)系统支持营销、销售和交互支持,系统中的产品数据可以包括产品系列和品牌、销售代表协会、客户区域管理以及营销活动等

9. 位置主数据

9.1. 位置主数据(Location Master Data)提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图

9.2. 位置参考数据和位置主数据之间的区别模糊了位置数据

9.3. 位置参考数据通常包括行政区域数据,如国家、州或省、县、市或镇、邮政编码,以及地理位置坐标,如纬度、经度和海拔高度

9.4. 位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置

10. 行业主数据——参考目录

10.1. 参考目录是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础

10.2. 获得正式许可的参考目录例子包括邓白氏公司(D&B)全球总部、各地子公司、分支机构的公司目录、美国医学协会医生处方数据库等

10.3. 为新记录的匹配和连接提供起始点

10.4. 提供在记录创建时可能较难获得的其他数据元素

10.5. 当组织的记录与参考目录匹配、协调时,可信记录将偏离参考目录,并且可追溯到其他源记录,贡献属性和转换规则

11. 主数据管理

11.1. 主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用

11.2. 目标包括确保准确的、最新的值的可用性,同时降低不明确标识符的风险

11.3. 哪些角色、组织、地点和事物被反复引用

11.4. 哪些数据被用来描述人、组织、地点和事物

11.5. 数据是如何被定义和设计的,以及数据粒度细化程度如何

11.6. 数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问

11.7. 数据通过组织内的系统时是如何变化的

11.8. 谁使用这些数据,为了什么目的

11.9. 用什么标准来衡量数据及其来源的质量和可靠性

11.10. 人们选择不同的方式来表示类似的概念,并且这些表述之间的协调并不总是那么简单的

11.11. 基本步骤

  • 11.11.1. 识别能提供主数据实体全面视图的候选数据源

  • 11.11.2. 为精确匹配和合并实体、实例制定规则

  • 11.11.3. 建立识别和恢复未恰当匹配或合并的数据的方法

  • 11.11.4. 建立将可信数据分发到整个企业的系统中的方法

11.12. 主数据管理是一个全生命周期的管理过程

  • 11.12.1. 建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理

  • 11.12.2. 识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合

  • 11.12.3. 协调和整合不同来源的数据,以提供主记录或事实的最佳版本

    • 11.12.3.1. 合并记录提供了跨系统的信息合并视图,并试图解决属性命名和数据值不一致的问题
  • 11.12.4. 识别出那些未被正确匹配或合并的实例,确保它们得到修正,并关联到正确的标识符

  • 11.12.5. 通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问

  • 11.12.6. 在组织内强制使用主数据

    • 11.12.6.1. 这个过程还需数据治理和变更管理的支持,以确保共享的企业视角

12. 数据共享架构

12.1. 本地数据中心可以扩展并延伸主数据中心

12.2. 注册表(Registry)

  • 12.2.1. 注册表是指向多种记录系统(System of Record)中主数据记录的索引

  • 12.2.2. 注册表相对容易实现,因为它很少需要对记录系统进行更改

12.3. 交易中心(Transaction Hub)

  • 12.3.1. 主数据存在于交易中心内,而不存在于任何其他的应用程序中

  • 12.3.2. 交易中心是主数据的记录系统

  • 12.3.3. 交易中心使更好的治理成为可能,并对外提供一致的主数据源

12.4. 混合模式(Consolidated)

  • 12.4.1. 混合模式是注册表和交易中心的混合体

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/906518.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot3+Vue3实现JWT登录鉴权

做鉴权原因: 管理系统的数据是敏感的,隐私的,每个角色的权限是不同的,必须在数据的增删改查操作时候对访问的用户进行权限验证 JWT(Json Web Token) 用于在网络应用间安全的传递消息。它以紧凑且自包含的方式,通过JSON对象在各方之间传递经过验证的信息。JWT通常由三部分…

搜维尔科技:SenseGlove触觉反馈手套-自动化和培训的突破

触觉力反馈技术领导者SenseGlove和机器人操控创新者Aeon宣布推出HEART项目。此次合作将虚拟现实 、力反馈触觉手套(SenseGlove)和机器人系统(Aeon)集成在一起,以实现直观控制和实时力反馈,使机器人训练更加方便和有效。 自动化和培训的突破 由于产品需求不断变化以及机器…

搜维尔科技:Haption通用遥控控制器,可轻松集成到工业机器人控制中

TeleRobotics EXtender (TREX) 是一个专为力反馈远程操作而设计的框架。它为操作员必须在危险、具有挑战性或受限的环境中操作的情况提供了一种创新的解决方案,使他们能够在不暴露自己风险的情况下执行任务。借助 TREX,操作员可以手动控制远程机器人,具有很高的灵活性和精确…

Elasticsearch 的搜索功能

Elasticsearch 的搜索功能建议阅读顺序:Elasticsearch 入门 Elasticsearch 搜索(本文)1. 介绍 使用 Elasticsearch 最终目的是为了实现搜索功能,现在先将文档添加到索引中,接下来完成搜索的方法。 查询的分类:叶子查询:叶查询子句在特定字段中查找特定值,例如 match、t…

20242213 实验二《Python程序设计》实验报告

20242213 2024-2025-2 《Python程序设计》实验2报告 课程:《Python程序设计》 班级: 2422 姓名: 刘宗林 学号:20242213 实验教师:王志强 实验日期:2025年3月26日 必修/选修: 公选课 1.实验内容设计并编写一个计算器程序,实现基本运算功能;功能包括加、减、乘、除、取余…

《实战Java高并发程序设计(第3版)》 | PDF免费下载

《实战Java高并发程序设计(第3版)》主要介绍基于Java的并行程序设计基础、思路、方法和实战。第一,立足于并行程序基础,详细介绍Java并行程序设计的基本方法。第二,进一步详细介绍JDK对并行程序的强大支持,帮助读者快速、稳健地进行并行程序开发。第三,详细讨论“锁”的…

《DeepSeek原理与项目实战》 | PDF免费下载

DeepSeek 是一种基于 Transformer 架构的生成式 AI(Artificial Intelligence)大模型,融合了MoE 架构、混合精度训练、分布式优化等先进技术,具备强大的文本生成、多模态处理和任务定制化能力。本书系统性地介绍了开源大模型 DeepSeek-V3 的核心技术及其在实际开发中的深度应…

实现极限网关(INFINI Gateway)配置动态加载

还在停机更新 Gateway 配置,OUT 了。 今天和大家分享一个 Gateway 的功能:动态加载配置(也称热更新或热加载)。 这个功能可以在 Gateway 不停机的情况下更新配置并使之生效。 配置样例如下: path.data: data path.logs: logconfigs:auto_reload: true # set true to auto …

ubuntu20.04安装Synergy

问题 最近在Ubuntu20.04上安装新版本的Synergy遇到一些问题,Synergy最后一个支持ubuntu20.04的版本是v3.1.3-beta,下面是下载地址: https://symless.com/synergy/download/other 在安装的时候遇到下面的问题:提示依赖libssl1,然后尝试安装下面的软件包: sudo apt install…

Netty源码—7.ByteBuf原理二

大纲 9.Netty的内存规格 10.缓存数据结构 11.命中缓存的分配流程 12.Netty里有关内存分配的重要概念 13.Page级别的内存分配 14.SubPage级别的内存分配 15.ByteBuf的回收9.Netty的内存规格 (1)4种内存规格 (2)内存申请单位(1)4种内存规格 一.tiny:表示从0到512字节之间的内存大…

一文速通Python并行计算:03 Python多线程编程-多线程同步(上)—基于互斥锁、递归锁和信号量

在 Python 多线程编程中,线程同步是确保多个线程安全访问共享资源的关键技术。本篇文章介绍了互斥锁(Lock)、递归锁(RLock) 和 信号量(Semaphore) 的概念与应用。互斥锁用于防止多个线程同时修改数据,递归锁适用于嵌套锁定场景,而信号量则限制同时访问资源的线程数。一…

K3D|高效创建轻量级 k8s 集群 (run in dokcer)

k3d 是一个轻量级的包装器,用于在 docker 中运行 k3s(Rancher Lab 的最小 Kubernetes 发行版)什么是 K3S 官网:https://k3s.io/ 指南:https://rancher.com/docs/k3s/latest/en/ 中文版指南:https://docs.rancher.cn/docs/k3s/_index/ K3s 是一个轻量级的 Kubernetes 发行…