一文读懂数据血缘分析

news/2025/1/11 12:49:27/文章来源:https://www.cnblogs.com/IT-Evan/p/18521802

01什么是数据血缘分析?

数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费。数据血缘分析就是针对数据分析中的血缘关系做分析,主要包含数据来源分析、数据血缘影响分析和数据全链条分析三个部分。

 

02数据血缘的特征有哪些?

① 稳定性:一旦数据血缘关系收集完毕,通常不会再有大的变化。

② 归属性:即便数据从生产端流向消费端,数据的归属关系依然存在。

③ 多源性:一个数据可以来自一个或者多个数据源,也可以由多个数据源组合而成。

④ 可追溯性:数据从产生到消亡的整个生命周期都可以直观地记录和查询,进行追溯。

⑤ 层次性:层次性主要体现在数据的分类、归纳和总结过程中,构成层次结构。

 

03数据血缘的重要性

1、破除数据质疑

数据血缘分析技术可大大提升数据排查效率,让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路各环节有无异常,快速打消终端用户对报告数据可靠性的怀疑。

2、快速评估数据变更影响范围

数据血缘可以对数据对象和数据流与数据图的连接进行可视化,以帮助数据架构师预测移动或更改数据将对数据本身及其下游流程和应用程序产生哪些影响,同时让整个流程的验证和更改也变得更加容易。

3、度量数据资产价值评估

数据血缘可以作为数据资产价值评估的一个度量工具,将原始数据、数据资源到数据产品、数据资产的过程进行量化和显现,如数据成本的记录、数据资产的登记、数据资产化进度追踪等。

4、为数据滥用加上“道德枷锁”

通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向,同时提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有利于数据确权后避免滥用的情况发生。

 

04数据血缘的组成部分

1、元数据

元数据是最基本的数据单元,更多是描述数据的数据,比如身份证号码,数字类型是18位,前两位是省代码,后面几位是出生年月日,这些确定身份证号码是怎么来的数据即是元数据,元数据就像是组成数据血缘的基本元素,也可以说是构成数据血缘的编码规则或体系。

2、主数据

主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户、供应商、账户以及组织单位相关的数据。主数据的价值之一”统一数据标准、统一口径“对于数据血缘分析至关重要,如果缺乏主数据标准管理,数据血缘的流向以及关联的字段极有可能是错误的。

3、业务数据

业务数据是指由企业在业务处理过程中产生的数据,也称交易数据。包括订单合同,营销价格等。数据血缘在业务数据监测与问题定位、数据交圈起到了可追溯可视化的作用,大大提升了业务数据的质量问题。

4、指标数据

指标数据是基础数据按照一定业务规则或一系列公式计算加工得出的数据指标,它具有高价值性,更贴近业务场景的特点,代表着数据的最终业务价值呈现。通过数据血缘分析可以满足查看指标数据拆解过程、体现指标数据计算规则、展示指标数据的多源效果。

 

05数据血缘的建设

数据血缘的建设贯穿了数据的全生命周期,通过一个周期、三种实体、五个类型、五个层级进行整体框架的规划和设计,同时,通过选择合适的数据建设方式,按照数据血缘建设六步曲进行建设。

 

一个周期:即数据的全生命周期,包括数据采集生产、数据加工、数据传输、数据使用消费、数据失效。

三种实体:即数据的颗粒度结构,它们构成了数据血缘的实体结构,包括数据库血缘、数据表血缘、表字段血缘。

五个类型:即数据血缘的五种类型,包括逻辑血缘、物理血缘、时间血缘、操作血缘和业务血缘。

五个层级:即数据血缘在全链路实现过程中所贯穿的各层级,包括血缘采集层、血缘处理层、血缘存储层、血缘接口层、血缘应用层。

 

数据血缘的建设方法

当前主流的数据血缘建设方法有采用开源系统建立数据血缘、引进厂商平台建立数据血缘、选择自建方式建立数据血缘三种方式。每家企业对于建设方式的选择各有不同,主要是由于企业资金投入、内部人员技术水平、人力资源投入等的不同等因素决定的。

 

数据血缘建设六步曲

数据血缘根据建设是进行数据血缘管理的前提,数据血缘工具需要具备数据从属谁、在何时、在何地、为什么和如何更改数据的问题。一个完整的数据血缘项目都应包含以下六大步骤:

 

诚如作者所说,数据血缘不仅仅是一种技术和方法,更是一种数据思维,它能够让我们更深层次理解数据、建设数据、治理数据、运营数据!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/825693.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公司网站用户名密码修改?

登录账户打开公司网站,进入登录页面。 输入当前的用户名和密码,点击登录。进入账户设置登录后,找到并点击账户设置或个人资料选项,通常位于页面顶部的用户头像或用户名旁边。选择修改用户名/密码在账户设置页面中,找到“修改用户名”或“修改密码”的选项。输入新信息修改…

网站打不开怎么办

当遇到网站无法打开的情况时,可以尝试以下几个步骤来排查和解决问题:检查网络连接:确认设备是否已成功连接到互联网。 尝试访问其他网站,看是否只有特定网站无法访问。清除浏览器缓存和Cookies:有时候网站加载不正常是因为浏览器缓存或Cookies的问题。 清除后重新尝试访问…

PbootCMS登录请求发生错误,检查系统会话文件存储目录是否具有写入权限

确定会话文件存储目录PbootCMS默认的会话文件存储目录通常是data/session。检查目录是否存在通过FTP或服务器管理工具,导航到PbootCMS的根目录。 确认data/session目录是否存在。如果不存在,可以手动创建该目录。检查目录权限使用FTP或服务器管理工具检查data/session目录的权…

在箭头函数内,想执行2个行为,但第2个行为却略过

如下示例代码(Javascript):第1个行为提示给用户,当用户点击提示之后,页面重新定向当前页面了,那自然的,第2个行为自然略过了。解决办法,就是使用setTimeout写个超时器,过多少秒之后,自动 执行第2个行为。.then(response => {if (response.data.Status) {alert(&quo…

帝国CMS后台编辑器修改让图片固定宽度高度自适应

找到 fckeditor\editor\dialog\fck_image\fck_image.js 文件。 修改以下代码:GetE(txtWidth).value = 850; GetE(txtHeight).value = 850 * oImageOriginal.height / oImageOriginal.width;850 为默认宽度,可根据需要调整。扫码添加技术【解决问题】专注中小企业网站建设、网…

帝国CMS清空登录操作日志方法

备份数据:在执行任何SQL操作前,请务必备份数据库。 执行SQL语句:清理管理员登录日志:TRUNCATE `[!db.pre!]enewslog`;清理管理员登录失败记录:TRUNCATE `[!db.pre!]enewsloginfail`;清理管理员操作日志:TRUNCATE `[!db.pre!]enewsdolog`;扫码添加技术【解决问题】专注中小…

mysql数据误删后的数据回滚

mysql数据误删后的数据回滚 第一步:下载MyFlash工具 # 创建文件夹 mkdir /back_data cd /back_data# 下载压缩包 wget https://codeload.github.com/Meituan-Dianping/MyFlash/zip/master # 安装编译相关软件 yum install gcc -y yum install glib2 glib2-devel -y# 解压缩包…

[转]创建Visual Studio 2019离线安装包

可以在不同的网络环境和不同的计算机上在线安装微软Visual Studio 2019。微软提供的在线安装工具(Visual Studio web installer)可以让用户在线下载最新版本Visual Studio安装包、补丁程序等。但是在许多场景中,用户并不能连接到互联网,或者由于防火墙的安全策略导致用户不…

[论文阅读] High-Resolution Image Synthesis with Latent Diffusion Models

写在前面 原文:https://arxiv.org/abs/2112.10752 Github:https://github.com/CompVis/latent-diffusion?tab=readme-ov-file 参考:https://stable-diffusion-art.com/how-stable-diffusion-work/ 关键词:stable diffusion,LDMs 阅读理由:对DM高消耗的优化,解决速度问题…

2024 XCPC 哈尔滨 Chengdu 游记

电科你题出得好啊!CCPC Day -1 ​ 第一次坐飞机,起飞后世界瞬间变得好小,白云在我面前流过,河上的船一动不动. 随后出现的积云构成了冰川,剩余稀薄的云雾掩盖下面的城市,成为一片蓝色的海. 视线的尽头,我看到了被深蓝和浅蓝夹着的地平线. 今晚的月亮圆得像人造光源,…

vs code常见的查找快捷键大全

VS Code 提供了多种方法来查找和导航文件,包括快速打开文件、文件资源管理器、全局搜索、查找符号、查找文件中的文本、查找并替换、文件导航和使用命令面板。通过熟练使用这些方法,你可以提高开发效率,更快地找到和打开所需的文件。本文原文来自:vs code常见的查找快捷键大…

Vue全家桶–Vuex状态管理

什么是状态管理复杂的状态管理Vuex的状态管理