读DAMA数据管理知识体系指南31参考数据和主数据概念(上)

news/2025/3/26 7:04:32/文章来源:https://www.cnblogs.com/lying7/p/18791408

1. 业务驱动因素

1.1. 满足组织数据需求

  • 1.1.1. 组织中的多个业务领域需要访问相同的数据集,并且他们都相信这些数据集是完整的、最新的、一致的

1.2. 管理数据质量

  • 1.2.1. 数据的不一致、质量问题和差异均会导致决策错误或丧失机会

1.3. 管理数据集成的成本

  • 1.3.1. 在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高,这减少了因对关键实体的定义和识别方式的变化而产生的额外成本

1.4. 降低风险

  • 1.4.1. 主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险

1.5. 集中管理的参考数据的好处

  • 1.5.1. 通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本

  • 1.5.2. 提升参考数据的质量

1.6. 数据驱动型的组织活动通常侧重于交易数据

  • 1.6.1. 利用此类交易数据的能力高度依赖参考数据和主数据的可用性和质量

2. 目标

2.1. 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据

2.2. 促使企业在各业务单元和各应用系统之间共享参考数据和主数据

2.3. 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性

3. 原则

3.1. 共享数据

  • 3.1.1. 为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来

3.2. 所有权

  • 3.2.1. 参考数据和主数据的所有权属于整个组织,而不是属于某个应用系统或部门

  • 3.2.2. 需要广泛共享,所以需要全局的组织管理

3.3. 质量

  • 3.3.1. 参考数据和主数据需要持续的数据质量监控和治理

3.4. 管理职责

  • 3.4.1. 业务数据管理专员要对控制和保证参考数据的质量负责

3.5. 控制变更

  • 3.5.1. 在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解

  • 3.5.2. 对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准

3.6. 权限

  • 3.6.1. 主数据值应仅从记录系统(System of Record)中复制。为了实现跨组织的主数据共享,可能需要建立一个参考数据管理系统(System of Reference)

4. 主数据和参考数据的区别

4.1. 同类型的数据在组织中扮演不同的角色,也有不同的管理要求,经常会在交易数据和主数据、主数据和参考数据之间进行区分

4.2. 奇泽姆(Malcolm Chisholm)提出了一种六层的数据分类法,包括元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据

  • 4.2.1. 参考数据(Reference Data)

    • 4.2.1.1. 代码表和描述表,仅用于描述组织中的其他数据,或者仅用于将数据库中的数据与组织之外的信息联系起来
  • 4.2.2. 企业结构数据(Enterprise Structure Data)

    • 4.2.2.1. 会计科目表,能够按业务职责描述业务活动
  • 4.2.3. 交易结构数据(Transaction Structure Data)

    • 4.2.3.1. 客户标识符,描述了交易过程中必须出现的一些要素

4.3. 主数据

  • 4.3.1. 主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符)​,如客户、产品、雇员、供应商和受控域(代码值)​”

  • 4.3.2. 主数据需要为概念实体(如产品、地点、账户、个人或组织)的每个实例识别和开发可信的实例版本,并维护该版本的时效性

  • 4.3.3. 主数据面临的主要挑战是实体解析(也称为身份管理,Identity Management)​,它是识别和管理来自不同系统和流程的数据之间的关联的过程

  • 4.3.4. 主数据管理工作就是为了消除这些差异,以便在不同环境中一致地识别单个实体、实例

4.4. 参考数据

  • 4.4.1. 参考数据和主数据有着相似的用途

  • 4.4.2. 两者都是应该在企业层面上被管理的共享资源

  • 4.4.3. 如果相同的参考数据拥有多个实例就会降低效率,并会不可避免地导致实例间的不一致,不一致就会导致歧义,歧义又会给组织带来风险

  • 4.4.4. 成功的参考数据或主数据管理规划包含完整的数据管理职能(数据治理、数据质量、元数据管理、数据整合等)​

  • 4.4.5. 参考数据不易变化,它的数据集通常会比交易数据集或主数据集小、复杂程度低,拥有的列和行也更少

  • 4.4.6. 参考数据管理不包括实体解析的挑战

4.5. 参考数据管理(Reference Data Management, RDM)

  • 4.5.1. 需要对定义的域值及其定义进行控制

  • 4.5.2. 参考数据管理的目标是确保组织能够访问每个概念的一整套准确且最新的值

  • 4.5.3. 参考数据管理面临的一个挑战是由谁主导或负责参考数据的定义和维护

  • 4.5.4. 确定获取数据和管理更新的责任是参考数据管理的一部分

  • 4.5.5. 缺乏维护问责会带来风险,因为参考数据中的差异可能会导致对数据上下文的误解

4.6. 主数据管理(Master Data Management, MDM)

  • 4.6.1. 需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据

  • 4.6.2. 主数据管理的目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险

4.7. 主数据和参考数据为交易提供了上下文信息,因此它们在企业运营过程中(如在CRM和ERP系统中)塑造了进入组织的交易数据,并支持对交易数据的框架分析

5. 参考数据

5.1. 在任何组织中,都存在一些需要跨业务领域、跨流程和跨系统使用的数据

5.2. 数据使用者在看到不一致的数据之前,通常都会假设这些数据在整个组织中具有一定的一致性

5.3. 存在多套在本质上作用相同的系统,它们相互隔离,无法沟通

5.4. 最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构

5.5. 参考数据可以用不同的存储方式满足不同的需求

5.6. 存储技术

  • 5.6.1. 关系数据库中的代码表

    • 5.6.1.1. 通过外键与其他表链接,以保持数据库管理系统中的参照完整性功能
  • 5.6.2. 参考数据管理系统

    • 5.6.2.1. 用于维护业务实体,允许,未来状态、弃用值以及术语映射规则,以支持更广泛的应用和数据整合使用
  • 5.6.3. 用特定于对象属性的元数据指定允许值,重点在于应用程序的调用接口或用户界面访问

5.7. 参考数据管理需要控制和维护定义的域值、定义以及域值内和域值间的关系

5.8. 参考数据管理的目标是确保不同功能之间引用的值是一致的、最新的,并且组织内部均可以访问这些数据

5.9. 参考数据结构

  • 5.9.1. 根据参考数据所代表的粒度和复杂性,可以将其构造为一个简单的列表、一个交叉引用或一个分类

  • 5.9.2. 列表

    • 5.9.2.1. 最简单的参考数据是由代码值和代码描述组成的列表

    • 5.9.2.2. 代码值是主标识符,是在其他上下文中出现的短格式参考值

    • 5.9.2.3. 与所有的参考数据一样,列表必须满足数据消费者的需求,包括对适当的详细程度的要求

  • 5.9.3. 交叉参考数据列表

    • 5.9.3.1. 不同的应用程序可以使用不同的代码集表示相同的概念

    • 5.9.3.2. 列表不被规范化才有效,因为非规范化的结构有时会使得理解这些关系变得更加容易

  • 5.9.4. 分类法

    • 5.9.4.1. 分类参考数据体系根据不同级别的差异性获取信

    • 5.9.4.2. 分类法(Taxonomies)利用内容分类和多方位的导航以支持商务智能

    • 5.9.4.3. 分类参考数据可以按递归关系储存

    • 5.9.4.4. 分类法管理工具也可以维护数据层次信息

    • 5.9.4.5. 层次结构包括代码、描述和对各个代码进行分类的父代码的引用

  • 5.9.5. 本体

    • 5.9.5.1. 一些组织将用于管理网站内容的本体作为参考数据的一部分,这是因为本体模型也被用来描述其他数据或将组织数据与组织边界之外的信息联系起来

    • 5.9.5.2. 本体模型也可以理解为是元数据的一种形式

    • 5.9.5.3. 维护本体的最佳实践类似于参考数据管理的最佳实践

    • 5.9.5.4. 本体的主要用例之一是内容管理

5.10. 专有或内部参考数据

  • 5.10.1. 许多组织通过创建参考数据来支持内部流程和应用,这些专有的参考数据通常会随着时间的推移而快速增长

  • 5.10.2. 参考数据管理的一部分工作就是通过管理这些数据集,理想情况下,使各个数据集之间具有一致性,并让这种一致性服务于组织

  • 5.10.3. 数据管理人员必须在使用相同词汇指代相同信息的需求和不同流程之间保持一定灵活性的需求之间找到平衡

5.11. 行业参考数据

  • 5.11.1. 行业参考数据(Industry Reference Data)是一个宽泛的术语,用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集,以便为编码重要的概念提供一个通用的标准

  • 5.11.2. 是数据共享和互操作性的先决条件

  • 5.11.3. 行业参考数据是由使用这些数据的组织的外部组织生成和维护的,但这些行业参考数据需要理解组织内的事物,它可能需要提供一些对具体的数据质量管理工作(如第三方业务目录)​、业务计算(如外汇汇率)或业务数据扩充(如营销数据)的支持

5.12. 地理或地理统计参考数据

  • 5.12.1. 地理或地理统计参考数据(Geographic or Geo-statistical Reference Data)可根据地理信息进行分类或分析

5.13. 计算参考数据

  • 5.13.1. 很多商业活动都依赖于使用一些通用的、持续计算的数据

5.14. 标准参考数据集的元数据

  • 5.14.1. 和其他数据一样,参考数据也会随着时间的变化而变化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/906004.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式 AI 和 LLM 简介 起源 历史记录

领域 年份 定义人工智能 (AI) 1956 计算机科学领域,旨在创造能够复制或超越人类智能的智能机器。机器学习 (Machine Learning) 1997 人工智能的子集,使机器能够从现有数据中学习并根据这些数据进行决策或预测。深度学习 (Deep Learning) 2012 一种机器学习技术,通过使用多层…

拿到代理对象,如何调用增强方法

步骤1 前面已经创建了MathCal的代理对象了,我们在调用方法时加一个断点这里返回的确实是代理对象,这个对象中保存了详细信息(增强器,原始对象等),我们进入bean.add(2, 10) 中,来到 org.springframework.aop.framework.CglibAopProxy.DynamicAdvisedInterceptor.intercept(…

如何保证消息队列的消息只能被消费一次

如何保证消息队列的消息只能被消费一次,首先先保证消息不会丢失 首先先生产者到消费者到消费者有哪些场景会消息丢失一、问题场景 场景一、生产者发送到消息队列失败 场景二、消息队列接受到消息磁盘化失败 场景三、消费者接受到消息消费失败 二、场景原因,如何解决 1、场景一…

Day22_java方法

Java方法 方法重载 package com.xiang.method;public class Demo02 {public static void main(String[] args) {int max = max(20, 100, 10);System.out.println(max);}// 比大小public static int max(int num1,int num2){int result = 0;if (num1 == num2){System.out.printl…

文献阅读《Spectral Networks and Deep Locally Connected Networks on Graphs》

参考博客 第一代图卷积网络:图的频域网络与深度局部连接网络 - 知乎 (zhihu.com) 论文解读一代GCN《Spectral Networks and Locally Connected Networks on Graphs》 - 别关注我了,私信我吧 - 博客园 (cnblogs.com) 论文核心 卷积神经网络得益于所处理的数据具有局部平移不变…

【CodeForces训练记录】Codeforces Round 1013 (Div. 3)

训练情况赛后反思 A题题目读半天,发现日期有前导零,div3还是比较基础一点,但是感觉自己还是不够熟练,D题看出来二分但是调了挺久的 A题 判断取多少个数之后才能构成 20250301,我们维护数字的出现次数,直到所有数字的出现次数全部大于等于 20250301 的出现次数时输出位置即…

字符串问题的江湖奇宝:进制哈希

江湖中,剑客以快制胜,而算法竞赛里,字符串哈希(String Hashing)便是那柄出招如电的快剑。 各种字符串问题纷乱复杂,各种字符串算法招式繁复,需苦练内功心法。但字符串哈希算法却只凭一招:将字符串化作数字,以数论为刃,至简之道斩尽来犯之敌。 但此招并非无懈可击。若…

HW-1

1.选项A是正确的,它表示的是极小项m6的正确形式。极小项m6对应的是变量a=0,b=1,c=1,d=0的情况,因此其表达式应为(\overline{a} \cdot b \cdot c \cdot \overline{d}),即选项A。 其他选项的分析:选项B是一个或项,不符合极小项的定义。 选项C缺少变量a和d,不是一个完整的…

为什么nn.Linear 的weight 是 (out_features, in_features)

在PyTorch的nn.Linear中,权重矩阵的形状为(out_features, in_features)。这是因为线性变换的实现方式为:具体来说:当创建nn.Linear(10, 60)时,in_features=10,out_features=60,因此权重的形状是(60, 10)。 输入张量t的形状为(2, 5, 10),与转置后的权重a.weight.T(形状(…

字符串问题的终极法宝:进制哈希

江湖中,剑客以快制胜,而算法竞赛里,字符串哈希(String Hashing)便是那柄出招如电的快剑。 各种字符串问题纷乱复杂,各种字符串算法招式繁复,需苦练内功心法。但字符串哈希算法却只凭一招:将字符串化作数字,以数论为刃,至简之道斩尽来犯之敌。 但此招并非无懈可击。若…

布局机器人,vivo用三十年技术沉淀回答“时代之问”

科技创新给产业界带来最大的影响就是“跨界焦虑”。不敢错过,这是企业面对风口的普遍心态。生怕一波没跟上,就被时代淘汰了。 但不错过,并不等于抓得住。比如元宇宙概念经历资本狂欢,无数科技巨头卷入,退潮时一地鸡毛。再比如在新能源汽车赛道卷起千亿投资风暴时,也有很多…