数据血缘系列(2)——什么是数据血缘?

news/2024/11/19 13:14:20/文章来源:https://www.cnblogs.com/tree1123/p/18291157

大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。对于数据血缘的定义,一直都有争论,本文我们详细探讨下什么是数据血缘,并说明数据血缘能分析什么。
本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出。
思维导图如下所示:
file
数据血缘,顾名思义,是描述数据从源头到目的地的路径及其变化的过程。通俗地说,数据血缘就像是数据的“家谱”,追踪并记录数据从原始采集、经过加工处理、直到最终使用的整个生命周期。这一过程包括数据的产生、存储、转换、传输和使用等各个环节。在复杂的企业环境中,数据通常会经过多个系统和处理步骤,数据血缘帮助我们了解数据的流动路径及其变化,以确保数据的准确性、一致性和可追溯性。
根据维基百科的定义,数据血缘(Data Lineage)是指数据元素在整个生命周期中流动和变化的详细记录。它追踪数据从初始创建到最终存储位置的路径,包括所有中间步骤。维基百科强调数据血缘在数据治理和数据管理中的重要性,尤其是在数据合规和审计方面,确保数据的完整性和可靠性。
IBM 将数据血缘描述为理解和记录数据流的能力,涵盖数据从源头到报告、分析或应用程序的所有步骤。IBM 强调数据血缘在数据治理、数据质量管理和合规性方面的关键作用,帮助企业确保数据的一致性、准确性和可追溯性。
Informatica 则将数据血缘定义为在企业数据治理框架中识别、追踪和记录数据流动路径的过程。Informatica 认为,数据血缘不仅仅是技术上的需求,更是业务和合规的必需品。通过详细的血缘追踪,企业可以快速识别数据问题、进行影响分析并满足监管要求。
在《数据血缘分析原理与实践 》一书中,笔者给出一个更详细的定义:数据血缘是指数据全生命周期过程中,一个数据到另外一个数据的继承传递,不同阶段,时点,节点,的数据关系的传递,包含数据的来源、数据的加工转换、数据的传递、数据的映射关系等。

数据血缘分析是数据血缘里非常重要的一个概念。
数据血缘分析的类型
数据血缘分析帮助企业全面了解数据的流动情况,并采取有效的治理措施。主要包括三种类型:来源分析、影响分析和全链条分析。
来源分析
来源分析(Source Analysis)主要关注数据的起源,即数据从哪里来。通过来源分析,企业可以追踪数据的初始来源,了解数据最初是如何产生的。这种分析能够识别数据的源头,包括原始数据的采集系统或数据库,并详细了解数据从源头被采集到企业系统中的过程,包括采集工具、方法和频率等。此外,来源分析还能识别数据在进入企业系统后的初始处理步骤,如清洗、转换和初步存储等。通过来源分析,企业可以确保数据采集的准确性和一致性,及时发现并纠正数据源头的错误。同时,在数据隐私和安全法规(如GDPR、CCPA)的要求下,企业需要清楚了解数据来源,确保数据采集的合法性和合规性。在数据整合过程中,通过来源分析可以识别不同数据源,确保数据整合的准确性和完整性。
file
影响分析
影响分析(Impact Analysis)主要关注数据的影响范围,即数据在流通过程中如何影响其他数据或系统。通过影响分析,企业可以了解数据变更对下游系统和流程的影响。影响分析通常包括对数据的依赖关系、数据传递路径以及数据变更后的影响范围的详细研究。例如,当某个数据源发生变化时,影响分析能够帮助识别哪些下游系统或报表会受到影响,从而采取相应的调整措施。这样,企业可以提前预判数据变更带来的风险,确保数据流动的稳定性和一致性。此外,影响分析还能帮助企业优化数据流程,通过识别和消除冗余数据流,提升数据处理效率。对于企业的决策过程,影响分析提供了一个透明的视角,使得企业能够基于全面和准确的数据做出更明智的决策。
全链条分析
全链条分析(End-to-End Analysis)则是对数据从源头到目的地的整个生命周期进行全面追踪和分析。全链条分析不仅包括数据的初始采集和最终使用,还涵盖了数据在各个环节中的所有处理步骤。这种分析方式可以提供一个全面的视图,使企业能够了解数据在整个生命周期中的所有变动和处理过程。通过全链条分析,企业可以识别数据在流通过程中的关键节点和薄弱环节,确保数据的质量和一致性。此外,全链条分析还能帮助企业进行数据合规性检查,确保每个环节都符合相关法规和政策的要求。在数据问题排查时,全链条分析能够快速定位问题的根源,提供详细的数据流动记录,帮助企业迅速解决数据质量问题。总之,全链条分析提供了一个全面而深入的视角,使企业能够更好地管理和治理数据,提升数据的可信度和可靠性。
通过对来源分析、影响分析和全链条分析的综合应用,企业可以全面掌握数据的流动情况,确保数据治理的有效性和数据管理的高效性。这些数据血缘分析方法为企业提供了透明、可追溯的数据流动图景,有助于企业在复杂的数据环境中保持数据的准确性、一致性和合规性。
数据血缘的概念除了数据血缘分析,还有数据血缘可视化,数据血缘特征等内容,我们下一篇再见~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/741006.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows 运行 java程序时 无故停止不动 问题

windows 运行 java程序时 无故停止不动 问题。是 cmd 程序 的 快速编辑模式 引起的。去掉即可。 右键点属性-》将 快速编辑模式 的多选框 去掉

盒子模型和浮动、溢出属性、圆形头像、定位、模态框z-index、透明度修改

【一】盒子模型和浮动 【1】盒子模型盒子模型(Box Model)是指在网页设计中,用于描述和布局元素的一种模型。 它将每个元素看作是一个具有四个边界的矩形盒子,包括内容区域(content)、内边距(padding)、边框(border)和外边距(margin)。【2】组成部分内容区域(Conte…

W外链短网址生成,他们家的短网址免费的吗?

W外链作为短网址服务的一种,体现了短网址技术的现代发展趋势,它不仅提供了基础的网址缩短功能,还扩展了一系列高级特性和增值服务,以适应更广泛的市场需求。根据相关参考内容,W外链具有以下特点和优势: 短域名与高级设置:W外链提供了非常短的域名,这有助于提高用户体验…

MTRec论文阅读笔记

MTRec: Multi-Task Learning over BERT for News Recommendation论文阅读笔记 Abstract 存在的问题: ​ 现有的新闻推荐方法通常仅根据新闻标题来学习新闻表征。为了充分利用新闻信息的其他字段(如类别和实体),一些方法将每个字段视为附加特征,并通过细心的池化将不同的特…

毕业设计:基于单片机的能耗分析系统

写在前面 笔者不才,过去一年中一半的时间在准备考研,博客园无心打理,显得荒芜了。到如今临近毕业,找的工作实事求是的讲也只是专业相关,并不完全对口,估计一段时间之内都没法亲自做开发了。虽然去的也是大公司,培养和各方面的保障都不错,但是对于学了四年技术(惭愧地说…

探索前端报表:如何实现无预览打印解决方案或静默打印?

最新技术资源(建议收藏) https://www.grapecity.com.cn/resources/在前端开发中,除了将数据呈现后,我们往往需要为用户提供,打印,导出等能力,导出是为了存档或是二次分析,而打印则因为很多单据需要打印出来作为主要的单据来进行下一环节的票据支撑, 而前端打印可以说是…

【SVN】 设置过滤上传文件

项目级过滤文件 1.1 在项目空白处,右键选择SVN-Properties1.2 New -> Other -> 新建一个“svn:global-ignores”属性1.3 查看效果 选中上传项目,右键-》SVN->Add如图所示,.vs、bin、obj文件都过滤了全局过滤文件配置 2.1 在项目工作根目录上,右键 -> TortosieS…

如何通过文件分发系统,实现能源电力企业文件的安全分发流转?

随着企业业务的快速发展,能源电力企业会在全国乃至全球,设立总部-分部-办事处/网点等多层级的结构,因此会涉及自动化的文件分发的业务场景。文件分发系统是一种将文件从一个地方自动传输到多个接收者的过程,可以提高工作效率,确保信息的及时传递和文件的一致性。文件分发系…

跨境传输需要遵守哪些准则,如何做到有效管控?

在全球化的商业环境中,跨国企业面临着数据跨境传输的挑战。随着业务的扩展,企业需要在不同国家和地区之间高效、安全地传输大量数据。选择合适的跨境传输方案对于保障数据安全、提高业务效率、遵守法律法规至关重要。跨境传输数据需要遵守的准则和规定主要包括以下几点: 1.数…

ip和端口基础知识

TCP/IP体系结构 - 网络通信的基础HTTP协议 - 网站访问的基础其他协议 - HTTPS、ARP、ICMP、DNS①什么是ip地址 <1>IP地址是电子设备在互联网上的唯一标识 <2>用来在互联网中寻找电脑②内网ip和公网ip <1>内网ip:路由以内的网络,可以连接互联网,但是互联…

自建搜索引擎-基于美丽云

Meilisearch 是一个搜索引擎,主程序完全开源,除了使用官方提供的美丽云服务(收费)进行对接之外,还可以通过自建搜索引擎来实现完全独立的搜索服务。Meilisearch 是一个搜索引擎,主程序完全开源,除了使用官方提供的美丽云服务(收费)进行对接之外,还可以通过自建搜索引…

向量点乘为降维,叉乘为升维

本文转自 https://baijiahao.baidu.com/s?id=1787300641186091766&wfr=spider&for=pc 总结:向量叉乘是诞生了一个新的方向,这个方向垂直于原向量组成的平面。点乘的好处是将高维降低到1维,可以在1个维度上讨论数值问题。 上几篇《白话高中数学》聊完了向量怎么来的…