读DAMA数据管理知识体系指南36元数据管理概念(上)

news/2025/4/2 1:34:08/文章来源:https://www.cnblogs.com/lying7/p/18798033

1. 业务驱动因素

1.1. 可靠且良好管理元数据有助于

  • 1.1.1. 通过提供上下文语境和执行数据质量检查提高数据的可信度

  • 1.1.2. 通过扩展用途增加战略信息(如主数据)的价值

  • 1.1.3. 通过识别冗余数据和流程提高运营效率

  • 1.1.4. 防止使用过时或不正确的数据

  • 1.1.5. 减少数据的研究时间

  • 1.1.6. 改善数据使用者和IT专业人员之间的沟通

  • 1.1.7. 创建准确的影响分析,从而降低项目失败的风险

  • 1.1.8. 通过缩短系统开发生命周期时间缩短产品上市时间

  • 1.1.9. 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响

  • 1.1.10. 满足监管合规

1.2. 有助于采用一致的方式表示信息、简化工作流程以及保护敏感信息,尤其是在已有监管合规要求的情况下

1.3. 元数据管理不善的问题

  • 1.3.1. 冗余的数据和数据管理流程

  • 1.3.2. 重复和冗余的字典、存储库和其他元数据存储

  • 1.3.3. 不一致的数据元素定义和与数据滥用的相关风险

  • 1.3.4. 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心

  • 1.3.5. 怀疑元数据和数据的可靠性

2. 目标

2.1. 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性

2.2. 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异

2.3. 确保元数据的质量、一致性、及时性和安全

2.4. 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据

2.5. 推广或强制使用技术元数据标准,以实现数据交换

3. 原则

3.1. 组织承诺

  • 3.1.1. 确保组织对元数据管理的承诺(高级管理层的支持和资金)​,将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理

3.2. 战略

  • 3.2.1. 制定元数据战略,考虑如何创建、维护、集成和访问元数据

3.3. 企业视角

  • 3.3.1. 从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值

3.4. 潜移默化

  • 3.4.1. 宣导元数据的必要性和每种元数据的用途

  • 3.4.2. 潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助

3.5. 访问

  • 3.5.1. 确保员工了解如何访问和使用元数据

3.6. 质量

  • 3.6.1. 认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责

3.7. 审计

  • 3.7.1. 制定、实施和审核元数据标准,以简化元数据的集成和使用

3.8. 改进

  • 3.8.1. 创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队

4. 元数据

4.1. 元数据最常见的定义是“关于数据的数据”

  • 4.1.1. 元数据也是一种数据,应该用数据管理的方式进行管理

  • 4.1.2. 重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据

  • 4.1.3. 元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等

  • 4.1.4. 描述了数据本身(如数据库、数据元素、数据模型)​,数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施)​,数据与概念之间的联系(关系)​

4.2. 帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的

4.3. 有助于处理、维护、集成、保护和治理其他数据

4.4. 目录卡片不仅提供了必要的信息(图书馆拥有哪些书籍和资料以及它们被存放在哪里)​,还帮助读者可以使用不同的方式(主题领域、作者或者书名)来查找资料

4.5. 元数据对于数据管理和数据使用来说都是必不可少的

  • 4.5.1. 没有人知道关于数据的一切

  • 4.5.2. 必须将这些信息记录下来,否则组织可能会丢失关于自身的宝贵知识

  • 4.5.3. 元数据管理提供了获取和管理组织数据的主要方法

4.6. 元数据管理不仅是知识管理面临的一个挑战,还是风险管理的一个必要条件

  • 4.6.1. 可以确保组织识别私有的或敏感的数据,能够管理数据的生命周期,以实现自身利益,满足合规要求,并减少风险敞口

  • 4.6.2. 元数据需要管理

4.7. 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义

  • 4.7.1. 如果没有元数据,组织就不能将其数据作为资产进行管理

  • 4.7.2. 如果没有元数据,组织可能根本无法管理其数据

5. 元数据的类型

5.1. 最好是根据数据的来源而不是使用方式来考虑这些类别

5.2. 描述元数据(Descriptive Metadata)

  • 5.2.1. 描述资源并支持识别和检索,如标题、作者和主题等

5.3. 结构元数据(Structural Metadata)

  • 5.3.1. 描述资源及其组成组件之间的关系,如页数、章节等

5.4. 管理元数据(Administrative Metadata)

  • 5.4.1. 用于描述管理生命周期的元数据,如版本号、存档日期等

5.5. 业务元数据

  • 5.5.1. 业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息

  • 5.5.2. 数据集、表和字段的定义和描述

  • 5.5.3. 业务规则、转换规则、计算公式和推导公式

  • 5.5.4. 数据模型

  • 5.5.5. 数据质量规则和检核结果

  • 5.5.6. 数据的更新计划

  • 5.5.7. 数据溯源和数据血缘

  • 5.5.8. 数据标准

  • 5.5.9. 特定的数据元素记录系统

  • 5.5.10. 有效值约束

  • 5.5.11. 利益相关方联系信息(如数据所有者、数据管理专员)​

  • 5.5.12. 数据的安全/隐私级别

  • 5.5.13. 已知的数据问题

  • 5.5.14. 数据使用说明

5.6. 技术元数据

  • 5.6.1. 技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息

  • 5.6.2. 物理数据库表名和字段名

  • 5.6.3. 字段属性

  • 5.6.4. 数据库对象的属性

  • 5.6.5. 访问权限

  • 5.6.6. 数据CRUD(增、删、改、查)规则

  • 5.6.7. 物理数据模型,包括数据表名、键和索引

  • 5.6.8. 记录数据模型与实物资产之间的关系

  • 5.6.9. ETL作业详细信息

  • 5.6.10. 文件格式模式定义

  • 5.6.11. 源到目标的映射文档

  • 5.6.12. 数据血缘文档,包括上游和下游变更影响的信息

  • 5.6.13. 程序和应用的名称和描述

  • 5.6.14. 周期作业(内容更新)的调度计划和依赖

  • 5.6.15. 恢复和备份规则

  • 5.6.16. 数据访问的权限、组、角色

5.7. 操作元数据

  • 5.7.1. 操作元数据(Operational Metadata)描述了处理和访问数据的细节

  • 5.7.2. 批处理程序的作业执行日志

  • 5.7.3. 抽取历史和结果

  • 5.7.4. 调度异常处理

  • 5.7.5. 审计、平衡、控制度量的结果

  • 5.7.6. 错误日志

  • 5.7.7. 报表和查询的访问模式、频率和执行时间

  • 5.7.8. 补丁和版本的维护计划和执行情况,以及当前的补丁级别

  • 5.7.9. 备份、保留、创建日期、灾备恢复预案

  • 5.7.10. 服务水平协议(SLA)要求和规定

  • 5.7.11. 容量和使用模式

  • 5.7.12. 数据归档、保留规则和相关归档文件

  • 5.7.13. 清洗标准

  • 5.7.14. 数据共享规则和协议

  • 5.7.15. 技术人员的角色、职责和联系信息

6. ISO/IEC 11179元数据注册标准

6.1. ISO的元数据注册标准ISO/IEC 11179旨在基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换

6.2. 数据元素生成和标准化框架

6.3. 数据元数据分类

6.4. 数据元素的基本属性

6.5. 数据定义的形成规则和指南

6.6. 数据元素的命名和识别原则

6.7. 数据元素的注册

7. 非结构化数据的元数据

7.1. 从本质上来说,所有数据都是有一定结构的,但并非所有数据都是以行、列的形式在我们熟悉的关系型数据库中进行记录的

7.2. 任何不在数据库或数据文件中的数据(包括文档或其他介质)都被认为是非结构化数据

7.3. 元数据对非结构化数据的管理来说可能更为重要

7.4. 非结构化数据的元数据包括

  • 7.4.1. 描述元数据,如目录信息和同义关键字

  • 7.4.2. 结构元数据,如标签、字段结构、特定格式

  • 7.4.3. 管理元数据,如来源、更新计划、访问权限和导航信息

  • 7.4.4. 书目元数据,如图书馆目录条目

  • 7.4.5. 记录元数据,如保留策略

  • 7.4.6. 保存元数据,如存储、归档条件和保存规则

7.5. 在多数情况下,收集元数据作为数据采集流程的一部分,需要收集关于在数据湖中采集的每个对象的最小元数据属性集(如名称、格式、来源、版本、接收日期等)​,这将生成数据湖内容的目录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/908446.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AMD CDNA介绍(上)

AMD CDNA介绍 AMD CDNA处理器采用并行微架构,旨在为通用数据并行应用提供一个出色的平台。需要高带宽或计算密集型的数据密集型应用程序,这是在AMD CDNA处理器上运行的候选者。 AMD CDNA生成系列处理器的框图,如图5-10所示。图5-10 AMD CDNA生成系列处理器的框图 CDNA设备包…

AMD Instinct™MI300系列微架构杂谈

AMD Instinct™MI300系列微架构 AMD Instinct MI300系列加速器基于AMD CDNA 3架构,旨在为HPC、人工智能(AI)和机器学习(ML)工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能,可以在单个服务器到世界上最大的EB级超级计算机的所有设备…

在Eager模式下对Llama 2 7B模型进行性能评估技术

在Eager模式下对Llama 2 7B模型进行性能评估 指定--compile none以使用Eager模式。 1)--compile:设置为none以使用Eager模式 2)--profile:启用torch.profiler的跟踪功能 3)--checkpoint_path:检查点路径 4)--prompt:输入提示 5)--max_new_tokens:最大新的token数 6)…

使用 torch.compile 加速视觉Transformer

使用 torch.compile 加速视觉Transformer视觉Transformer(ViT)是一个类似 BERT的transformer编码器模型,在大规模的图像集合上,使用有监督方式进行了预训练,就是在分辨率为 224224 像素的 ImageNet-21k 数据集上预训练的。以下是如何使用这个模型将 COCO 2017 数据集中的一…

推荐技术书《AI芯片开发核心技术详解》(1)、《智能汽车传感器:原理设计应用》(2)、《TVM编译器原理与实践》(3)、《LLVM编译器原理与实践》(4),谢谢

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

GPU到GPU通信选项技术

GPU到GPU通信选项技术将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。每个绿色框代表一个MI250 GPU和两个GCD。GCD通…

visual stdio 使用CMake

基础知识 工具>选项>CMake>常规 选中从不使用CMake预设重启 visual stdio,点击打开本地文件夹(F),打开CMakeList.txt根目录此时会在CMake根目录自动生成CMakeSettings.json文件,使用visual stdio文件打开CMakeSettings.json如果打开时,是json文件时,可以右键CMa…

mysql InnoDB的事务

一、事务的概念 一组数据库操作要么全部成功,要么全部失败,目的是为了保证数据的最终一致性 二、事务的四大特性(ACID)原子性(Actomicity):当前事务的操作要么成功,要么失败,原子性是由undo log日志来保证 一致性(Consistency):使用事务的最终目的,由业务代码正确…

如何使用 OpenAI Agents SDK 构建 MCP

1.概述 OpenAI Agents SDK 现已支持 MCP(模型上下文协议),这是 AI 互操作性的重大变革。这使开发人员能够高效地将 AI 模型连接到外部工具和数据源。本篇博客,笔者将指导使用 OpenAI Agents SDK 构建 MCP 服务器,以增强你的 AI 应用程序。 2.内容 2.1 什么是 MCP MCP 服务…

C语言打卡学习第11天(2025.3.30)(补发)

冒泡排序的一个学习。还了解了一个快速排序的“挖坑法”,能省变量位置,但挺难写的,挺有意思:把数组第一个元素放一个空作为一个标准值,第一个位置就空了出来,然后将第一个“暂时标准值”从最后一个数开始比较,后面小就放到第一个“坑”,然后“坑”又到后面了,再从前面…

C语言打卡学习第10天(2025.3.29)(补发)

指针和数组的学习,数组现在能做到基本掌握和简单运用,指针有些难,还是得练