1. 业务驱动因素
1.1. 可靠且良好管理元数据有助于
-
1.1.1. 通过提供上下文语境和执行数据质量检查提高数据的可信度
-
1.1.2. 通过扩展用途增加战略信息(如主数据)的价值
-
1.1.3. 通过识别冗余数据和流程提高运营效率
-
1.1.4. 防止使用过时或不正确的数据
-
1.1.5. 减少数据的研究时间
-
1.1.6. 改善数据使用者和IT专业人员之间的沟通
-
1.1.7. 创建准确的影响分析,从而降低项目失败的风险
-
1.1.8. 通过缩短系统开发生命周期时间缩短产品上市时间
-
1.1.9. 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
-
1.1.10. 满足监管合规
1.2. 有助于采用一致的方式表示信息、简化工作流程以及保护敏感信息,尤其是在已有监管合规要求的情况下
1.3. 元数据管理不善的问题
-
1.3.1. 冗余的数据和数据管理流程
-
1.3.2. 重复和冗余的字典、存储库和其他元数据存储
-
1.3.3. 不一致的数据元素定义和与数据滥用的相关风险
-
1.3.4. 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
-
1.3.5. 怀疑元数据和数据的可靠性
2. 目标
2.1. 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
2.2. 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异
2.3. 确保元数据的质量、一致性、及时性和安全
2.4. 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
2.5. 推广或强制使用技术元数据标准,以实现数据交换
3. 原则
3.1. 组织承诺
- 3.1.1. 确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理
3.2. 战略
- 3.2.1. 制定元数据战略,考虑如何创建、维护、集成和访问元数据
3.3. 企业视角
- 3.3.1. 从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值
3.4. 潜移默化
-
3.4.1. 宣导元数据的必要性和每种元数据的用途
-
3.4.2. 潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助
3.5. 访问
- 3.5.1. 确保员工了解如何访问和使用元数据
3.6. 质量
- 3.6.1. 认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责
3.7. 审计
- 3.7.1. 制定、实施和审核元数据标准,以简化元数据的集成和使用
3.8. 改进
- 3.8.1. 创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队
4. 元数据
4.1. 元数据最常见的定义是“关于数据的数据”
-
4.1.1. 元数据也是一种数据,应该用数据管理的方式进行管理
-
4.1.2. 重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据
-
4.1.3. 元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等
-
4.1.4. 描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)
4.2. 帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的
4.3. 有助于处理、维护、集成、保护和治理其他数据
4.4. 目录卡片不仅提供了必要的信息(图书馆拥有哪些书籍和资料以及它们被存放在哪里),还帮助读者可以使用不同的方式(主题领域、作者或者书名)来查找资料
4.5. 元数据对于数据管理和数据使用来说都是必不可少的
-
4.5.1. 没有人知道关于数据的一切
-
4.5.2. 必须将这些信息记录下来,否则组织可能会丢失关于自身的宝贵知识
-
4.5.3. 元数据管理提供了获取和管理组织数据的主要方法
4.6. 元数据管理不仅是知识管理面临的一个挑战,还是风险管理的一个必要条件
-
4.6.1. 可以确保组织识别私有的或敏感的数据,能够管理数据的生命周期,以实现自身利益,满足合规要求,并减少风险敞口
-
4.6.2. 元数据需要管理
4.7. 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义
-
4.7.1. 如果没有元数据,组织就不能将其数据作为资产进行管理
-
4.7.2. 如果没有元数据,组织可能根本无法管理其数据
5. 元数据的类型
5.1. 最好是根据数据的来源而不是使用方式来考虑这些类别
5.2. 描述元数据(Descriptive Metadata)
- 5.2.1. 描述资源并支持识别和检索,如标题、作者和主题等
5.3. 结构元数据(Structural Metadata)
- 5.3.1. 描述资源及其组成组件之间的关系,如页数、章节等
5.4. 管理元数据(Administrative Metadata)
- 5.4.1. 用于描述管理生命周期的元数据,如版本号、存档日期等
5.5. 业务元数据
-
5.5.1. 业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息
-
5.5.2. 数据集、表和字段的定义和描述
-
5.5.3. 业务规则、转换规则、计算公式和推导公式
-
5.5.4. 数据模型
-
5.5.5. 数据质量规则和检核结果
-
5.5.6. 数据的更新计划
-
5.5.7. 数据溯源和数据血缘
-
5.5.8. 数据标准
-
5.5.9. 特定的数据元素记录系统
-
5.5.10. 有效值约束
-
5.5.11. 利益相关方联系信息(如数据所有者、数据管理专员)
-
5.5.12. 数据的安全/隐私级别
-
5.5.13. 已知的数据问题
-
5.5.14. 数据使用说明
5.6. 技术元数据
-
5.6.1. 技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息
-
5.6.2. 物理数据库表名和字段名
-
5.6.3. 字段属性
-
5.6.4. 数据库对象的属性
-
5.6.5. 访问权限
-
5.6.6. 数据CRUD(增、删、改、查)规则
-
5.6.7. 物理数据模型,包括数据表名、键和索引
-
5.6.8. 记录数据模型与实物资产之间的关系
-
5.6.9. ETL作业详细信息
-
5.6.10. 文件格式模式定义
-
5.6.11. 源到目标的映射文档
-
5.6.12. 数据血缘文档,包括上游和下游变更影响的信息
-
5.6.13. 程序和应用的名称和描述
-
5.6.14. 周期作业(内容更新)的调度计划和依赖
-
5.6.15. 恢复和备份规则
-
5.6.16. 数据访问的权限、组、角色
5.7. 操作元数据
-
5.7.1. 操作元数据(Operational Metadata)描述了处理和访问数据的细节
-
5.7.2. 批处理程序的作业执行日志
-
5.7.3. 抽取历史和结果
-
5.7.4. 调度异常处理
-
5.7.5. 审计、平衡、控制度量的结果
-
5.7.6. 错误日志
-
5.7.7. 报表和查询的访问模式、频率和执行时间
-
5.7.8. 补丁和版本的维护计划和执行情况,以及当前的补丁级别
-
5.7.9. 备份、保留、创建日期、灾备恢复预案
-
5.7.10. 服务水平协议(SLA)要求和规定
-
5.7.11. 容量和使用模式
-
5.7.12. 数据归档、保留规则和相关归档文件
-
5.7.13. 清洗标准
-
5.7.14. 数据共享规则和协议
-
5.7.15. 技术人员的角色、职责和联系信息
6. ISO/IEC 11179元数据注册标准
6.1. ISO的元数据注册标准ISO/IEC 11179旨在基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换
6.2. 数据元素生成和标准化框架
6.3. 数据元数据分类
6.4. 数据元素的基本属性
6.5. 数据定义的形成规则和指南
6.6. 数据元素的命名和识别原则
6.7. 数据元素的注册
7. 非结构化数据的元数据
7.1. 从本质上来说,所有数据都是有一定结构的,但并非所有数据都是以行、列的形式在我们熟悉的关系型数据库中进行记录的
7.2. 任何不在数据库或数据文件中的数据(包括文档或其他介质)都被认为是非结构化数据
7.3. 元数据对非结构化数据的管理来说可能更为重要
7.4. 非结构化数据的元数据包括
-
7.4.1. 描述元数据,如目录信息和同义关键字
-
7.4.2. 结构元数据,如标签、字段结构、特定格式
-
7.4.3. 管理元数据,如来源、更新计划、访问权限和导航信息
-
7.4.4. 书目元数据,如图书馆目录条目
-
7.4.5. 记录元数据,如保留策略
-
7.4.6. 保存元数据,如存储、归档条件和保存规则
7.5. 在多数情况下,收集元数据作为数据采集流程的一部分,需要收集关于在数据湖中采集的每个对象的最小元数据属性集(如名称、格式、来源、版本、接收日期等),这将生成数据湖内容的目录