读DAMA数据管理知识体系指南37元数据管理概念(下)

news/2025/4/3 7:11:13/文章来源:https://www.cnblogs.com/lying7/p/18803848

1. 元数据来源

1.1. 元数据的来源各异

  • 1.1.1. 大多数操作元数据是在处理数据时生成的

  • 1.1.2. 最好是有意识地重新定义而不是简单地接受现有定义

1.2. 管理数据库所需的大部分技术元数据和使用数据所需的业务元数据,可以作为项目工作的一部分进行收集和开发

  • 1.2.1. 应记录和整理讨论过程中共享的知识,以便在数据字典、业务术语表和其他存储库中使用

1.3. 定义良好的业务元数据可以在不同的项目中重复使用,并促进在不同数据集的业务概念得到一致理解

  • 1.3.1. 组织还可以有意规划元数据的集成作为开发元数据的一部分,以便元数据可以重复使用

1.4. 应该作为有明确定义流程的产品而创建,使用可以保障整体质量的工具,管理员和其他数据管理专业人员应确保有适当的流程来维护与这些流程相关的元数据

1.5. 应用程序中元数据存储库

  • 1.5.1. 元数据存储库指存储元数据的物理表,这些表通常内置在建模工具、BI工具和其他应用程序中

1.6. 业务术语表

  • 1.6.1. 业务术语表(Business Glossary)的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系

  • 1.6.2. 在许多组织中,业务术语表仅仅是一个电子表格

    • 1.6.2.1. 随着组织的日渐成熟,他们会经常购买或构建术语表
  • 1.6.3. 业务用户(Business users)

    • 1.6.3.1. 数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其他人员
  • 1.6.4. 数据管理专员(Data Stewards)

    • 1.6.4.1. 数据管理专员使用业务术语表管理和定义术语的生命周期,并通过将数据资产与术语表相关联增强企业知识,如将术语与业务指标、报告、数据质量分析或技术组件相关联

    • 1.6.4.2. 数据管理专员通常负责词汇表的开发、使用、操作和报告

  • 1.6.5. 技术用户(Technical users)

    • 1.6.5.1. 技术用户使用业务术语表设计架构、设计系统和开发决策,并进行影响分析
  • 1.6.6. 业务术语表应包含业务术语属性

    • 1.6.6.1. 术语名称、定义、缩写或简称,以及任何同义词

    • 1.6.6.2. 负责管理与术语相关的数据的业务部门和/或应用程序

    • 1.6.6.3. 维护术语的人员姓名和更新日期

    • 1.6.6.4. 术语的分类或分类间的关联关系(业务功能关联)

    • 1.6.6.5. 需要解决的冲突定义、问题的性质、行动时间表

    • 1.6.6.6. 常见的误解

    • 1.6.6.7. 支持定义的算法

    • 1.6.6.8. 血缘

    • 1.6.6.9. 支持该术语的官方或权威数据来源

  • 1.6.7. 每个业务术语表的实施都应该有一组支持治理过程的基本报告

    • 1.6.7.1. 建议组织不要“打印术语表”​,因为术语表的内容不是静态的

    • 1.6.7.2. 报告包括:跟踪尚未审核的新术语和定义、处于挂起状态的术语和缺少定义或其他属性的术语

  • 1.6.8. 用性和功能性会背道而驰,业务术语表的搜索便捷性越高,越容易推广使用

  • 1.6.9. 术语表最重要的特征是它包含足够完整和高质量的信息

1.7. 商务智能工具

  • 1.7.1. 商务智能工具生成与商务智能设计相关的各类元数据

  • 1.7.2. 包括概述信息、类、对象、衍生信息和计算的项、过滤器、报表、报表字段、报表展现、报表用户、报表发布频率和报表发布渠道

1.8. 配置管理工具

  • 1.8.1. 配置管理工具或数据库(CMDB)提供了管理和维护与IT资产、它们之间的关系以及资产的合同细节相关的元数据的功能

  • 1.8.2. CMDB数据库中的每个资产都被称为配置项(CI)

1.9. 数据字典

  • 1.9.1. 数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库

  • 1.9.2. 数据使用者如需使用这类元数据,则必须从数据库或建模工具中进行提取

1.10. 数据集成工具

  • 1.10.1. 用于可执行文件将数据从一个系统移动到另一个系统,或在同一系统中的不同模块之间移动

  • 1.10.2. 任何成功的元数据解决方案都应该能够通过集成工具移动时使用沿袭元数据,并将其作为从实际源到最终目的地的整体血统进行公开

  • 1.10.3. 数据集成工具提供了应用程序接口(API),允许外部元数据存储库提取血缘关系信息和临时文件元数据

  • 1.10.4. 数据集成工具还提供有关各种数据集成作业执行的元数据,包括上次成功运行、持续时间和作业状态

1.11. 数据库管理和系统目录

  • 1.11.1. 数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性

  • 1.11.2. 最常见的数据库形式是关系型的,关系型数据库将数据作为一组表和列进行管理,其中表包含一个或多个列、索引、约束、视图和存储过程

1.12. 数据映射管理工具

  • 1.12.1. 映射管理工具用于项目的分析和设计阶段,它将需求转换为映射规范,然后由数据集成工具直接使用或由开发人员用来生成数据集成代码

1.13. 数据质量工具

  • 1.13.1. 数据质量工具通过验证规则来评估数据质量,其中的大多数工具提供了与其他元数据存储库交换质量分数和质量概况的功能,使元数据存储库能够将质量分数附加到相关的物理资产上

1.14. 字典和目录

  • 1.14.1. 数据字典和术语表包含有关术语、表和字段的详细信息

  • 1.14.2. 字典或目录包含有关组织内数据的系统、源和位置的信息

1.15. 事件消息工具

  • 1.15.1. 事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述此移动的元数据

1.16. 建模工具和存储库

  • 1.16.1. 数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型

  • 1.16.2. 元数据存储库可以提取由这些工具创建的模型,并将导入的元数据整合到存储库中

  • 1.16.3. 建模工具通常是数据字典内容的来源

1.17. 参考数据库

  • 1.17.1. 参考数据记录各种类型的枚举数据(值域)的业务价值和描述,在系统中的上下文中使用

1.18. 服务注册

  • 1.18.1. 服务注册是从面向服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景

1.19. 其他元数据存储

  • 1.19.1. 其他元数据的种类繁多,大多是指特定格式的清单,如事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的存储库和业务规则

2. 元数据架构的类型

2.1. 架构层次

  • 2.1.1. 元数据创建和采集

  • 2.1.2. 元数据在一个或多个存储库中存储

  • 2.1.3. 元数据集成

  • 2.1.4. 元数据交付

  • 2.1.5. 元数据使用

  • 2.1.6. 元数据控制和管理

2.2. 集中式元数据架构

  • 2.2.1. 集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本

  • 2.2.2. 在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据架构中受益

  • 2.2.3. 优点

    • 2.2.3.1. 高可用性,因为它独立于源系统

    • 2.2.3.2. 快速的元数据检索,因为存储库和查询功能在一起

    • 2.2.3.3. 解决了数据库结构问题,使其不受第三方或商业系统特有属性的影响

    • 2.2.3.4. 抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量

  • 2.2.4. 缺点

    • 2.2.4.1. 必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中

    • 2.2.4.2. 维护集中式存储库的成本可能很高

    • 2.2.4.3. 元数据的抽取可能需要自定义模块或中间件

    • 2.2.4.4. 验证和维护自定义代码会增加对内部IT人员和软件供应商的要求

2.3. 分布式元数据架构

  • 2.3.1. 一个完全分布式的架构中维护了一个单一的接入点

  • 2.3.2. 元数据检索引擎通过实时从源系统检索数据来响应用户请求

  • 2.3.3. 分布式元数据架构没有持久化的存储库

  • 2.3.4. 元数据管理环境维护必要的源系统目录和查找信息,以有效处理用户查询和搜索

  • 2.3.5. 优点

    • 2.3.5.1. 元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的

    • 2.3.5.2. 查询是分布式的,可能会提高响应和处理的效率

    • 2.3.5.3. 来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量

    • 2.3.5.4. 自动化元数据查询处理的开发可能更简单,只需要很少的人工干预

    • 2.3.5.5. 减少了批处理,没有元数据复制或同步过程

  • 2.3.6. 缺点

    • 2.3.6.1. 无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项

    • 2.3.6.2. 需要通过统一的、标准化的展示方式呈现来自不同系统的元数据

    • 2.3.6.3. 查询功能受源系统可用性的影响

    • 2.3.6.4. 元数据的质量完全取决于源系统

2.4. 混合式元数据架构

  • 2.4.1. 混合架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据

  • 2.4.2. 降低了对专有系统进行手动干预和自定义编码访问功能的工作量

  • 2.4.3. 元数据在使用时尽可能是最新且有效的

  • 2.4.4. 混合架构不会提高系统可用性

  • 2.4.5. 源系统的可用性是一个限制,因为后端系统的分布式特性处理查询

2.5. 双向元数据架构

  • 2.5.1. 允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈

  • 2.5.2. 存在各种挑战

    • 2.5.2.1. 该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决

    • 2.5.2.2. 必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/909902.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux shell command lsof All In One

Linux shell command lsof All In One lsof - list open filesLinux shell command lsof All In Onelsof - list open filesdemos # $ cd ./Desktop && man lsof > man-lsof.md$ cat man-lsof.md$ lsof -i(🐞 反爬虫测试!打击盗版⚠️)如果你看到这个信息, 说明…

FastAPI中Pydantic异步分布式唯一性校验

title: FastAPI中Pydantic异步分布式唯一性校验 date: 2025/04/02 00:47:55 updated: 2025/04/02 00:47:55 author: cmdragon excerpt: FastAPI开发中,异步分布式唯一性校验通过异步IO、分布式锁和二级缓存技术解决传统同步校验的并发冲突、性能瓶颈和响应延迟问题。手机和邮…

团对展示--自我介绍

团队展示 队名:DeepSleep队员姓名 队员学号吴钊鑫(组长) 3123004244薛考瑶 3223004258苏雨童 3223004255林赛强 3123004184李锦 3123004270蔡梓欣 3223004209左栋立 3123004294队员风采 吴钊鑫风格:追求简洁高效的解决方案 擅长技术:C++ 编程兴趣:热衷于学习新兴技术 希望…

国家公路网规划 All In One

国家公路网规划 All In One 2022 年 7 月 国家公路网规划总规模约 46.1 万公里,由国家高速公路网和普通国道网组成,其中国家高速公路约16.2 万公里(含远景展望线约0.8 万公里),普通国道约 29.9 万公里。国家公路网规划 All In One2022 年 7 月国家公路网规划总规模约 46.1…

Learned Cardinalities: Estimating Correlated Joins with Deep Learning

这篇文章介绍了一个叫做MSCN的方法,这是一个应用于集合的深度学习网络,文章使用这个方法去做查询的基数估计。 文章将输入处理为集合的形式,具体大概是这个形状:像table set里每个元素(即一个向量)代表一个对应的表和在这个表中采样的位图,join set表示链接的集合,pred…

64位程序崩溃-访问越界

事件起因 最近在做一个32位程序编译成64位的工作,遇到一个很奇葩的问题,程序在32位下运行非常正常,可编译64位以后总是莫名崩溃,崩溃的的报错是这样的。 经过分析发现原来是以前的代码用DWORD来存储指针导致的地址越界错误。 现场模拟 先看一段代码 #include <stdio.h&g…

VMware 1067启动NATservice失败

VMware 1067启动NATservice失败可以检查下你的vmware虚拟网络编辑器看看是否nat模式还在,子网ip是否发生变化,Nat设置网关,改回原来就好 如果没有设置静态ip,直接还原默认设置就行

SLS 重磅升级:超大规模数据实现完全精确分析

SLS 全新推出的「SQL 完全精确」模式,通过“限”与“换”的策略切换,在快速分析与精确计算之间实现平衡,满足用户对于超大数据规模分析结果精确的刚性需求。标志着其在超大规模日志数据分析领域再次迈出了重要的一步。作者:执少 引言 在亿级日志分析中,你是否遇到过结果不…

C++多线程初步

1.多线程初步 1.包含的库 #Include<thread>2.涉及到的类 std::thread(这个类是属于标准模版库的,底层封装的系统调用) 3.代码实例 #include <iostream> #include <thread> void hello(){ std::cout << "Hello World" << std::en…

全定制电路Flow手册

简单做个summary手册,方便后面查阅以及组里统一规范。 全定制电路Flow手册 编写人:袁易扬 联系方式:2861704773@qq.com文档版本 编写日期 说明v1.0 2024.3.27 初次发布1. 工具链 原理图: Cadence Virtuoso IC617/618(用于22nm及以上的平面CMOS工艺) Cadence Virtuoso ICA…

Ajax、vue-cli、element

Ajax(Asynchronous JavaScript And XML)异步的JavaScript和XML 作用:数据交换:通过Ajax可以给服务器发送请求,并获取服务器响应的数据。 异步交互:可以在不重新加载整个页面的情况下,与服务器交换数据并更新部分网页的技术Axios:对原生Ajax进行封装,简化书写,快速开…

Hutool工具TreeUtil构建树形结构

1.导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>cn.hutool</groupId><artifactId>hutool-core</a…