kettle从入门到精通 第七五课 ETL之kettle血缘,数据血缘

news/2024/8/20 13:49:53/文章来源:https://www.cnblogs.com/zjBoy/p/18297491

在了解kettle血缘之前,咱们先来了解下什么是数据血缘?

1、数据血缘定义(来自gpt)

数据血缘(Data Lineage)是指在数据管理和数据分析中追踪数据的源头、流向和处理过程的能力。具体来说,数据血缘描述了数据如何被创建、变换和移动,以及这些过程中数据的路径和影响。它有助于理解数据的可靠性、完整性和可信度,是数据治理和合规性的重要组成部分。

在数据血缘中,常见的元素包括:

  1. 数据起源和输入:数据的来源,即数据是从何处获取的,可以是数据库、文件、API等。
  2. 数据转换和处理:数据如何被修改、转换、整合或聚合,包括数据清洗、计算和推断过程。
  3. 数据输出和消费:经过处理后的数据被用于何种用途,可能是生成报表、支持决策、供给其他系统等。

2、阿里数据血缘定义

数据血缘可以用于查看表和表、字段和字段之间的血缘关系,从而辅助业务进行数据的溯源和管理,在作业异常时也可以帮助业务分析上下游作业影响。

 3、数据血缘管理

1)数据血缘基于数据流动,基于etl,假如没有中场景,也就不需要数据血缘。

2)数据血缘分为表级别血缘和字段级别血缘,一般情况下做到表级别血缘就可以了。这里说的表包含表和视图。

4、什么是kettle血缘

kettle是etl工具,所以kettle血缘的意思就是通过kettle的转换文件将血缘关系解析出来,通过页面呈现处理,方便排查问题。

 

4、血缘存储工具

推荐neo4j图数据库,下图基于neo4j创建两个节点,然后建立关系的一个截图。后续会整理介绍下neo4j的相关知识。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/743990.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现元素的曝光监测

我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。本文作者:霁明一些名词解释 曝光 页面上某一个元素、组件或模块被用户浏览了,则称这个元素、组件或模块被曝光了。 视图元素 将页面上展示的…

MySQL - [17] Oracle、SQLServer、MySQL数据类型对比

题记部分 — 业精于勤荒于嬉,行成于思毁于随 —

华为云DTSE助力虎彩鲜檬优化运维效率,助力迁移上云

本文主要介绍了鲜檬摄影在数字化变革中,与华为云紧密合作,借助其DTSE专家团队,成功完成了业务系统改造、技术方案优化及迁移上云。本文分享自华为云社区《虎彩鲜檬数字化产业变革,迁移上云,助力其打造智慧婚拍新纪元》,作者: HuaweiCloudDeveloper。 来源:《华为云DTSE…

【CTF入门】BUUCTF Misc刷题(持续更新)

【CTF入门】BUUCTF Misc刷题 签到 点开发现签到题直接把flag交出来了,直接复制提交即可考点:了解CTF中flag的格式一般为flag{}

Linux 中 sed命令在指定行前添加空行

001、[root@PC1 test]# ls a.txt [root@PC1 test]# cat a.txt 33 aa 44 aa 88 aa 33 aa ff kk 33 aa 88 22 mm 88 33 44 22 99 [root@PC1 test]# sed 2 s/.*/\n&/ a.txt ## 在第二行前添加空行 33 aa 44 aa 88aa 33 aa ff kk 33 aa 88 22 mm 88 33 44 22 99 002、sed[roo…

nuxtjs2.x项目PC移动互相跳转

1、在plugins目录下新建terminalToggle.js,写入以下代码 (function () {let sUserAgent = navigator.userAgent.toLowerCase();let isIpad = sUserAgent.match(/ipad/i) == "ipad";let isIphoneOs = sUserAgent.match(/iphone os/i) == "iphone os";let i…

小车轮子测试(I2C)

I2C以及小车轮子测试I2C总线是PHILIPS公司推出的一种在电子通信控制领域常用的串行通信总线,是一种简单、双向 通信、二线制、同步的串行总线,具有连接线少、控制简单、通信速率高等优点。 端口检测 cd /dev lsI2C读写操作 使用i2cdetect命令检测i2c总线 i2cdetect -l如果红色…

Simple WPF: WPF使用Windows API发送Toast通知

以前看到Windows 10的气泡通知觉得很有意思,但是一直不知道该如何实现。最近一次上网冲浪过程中偶然的机会看到了相关资料就自己来试试。本文介绍了在WPF框架下发送Win10 Toast通知的方法。以前看到Windows 10的气泡通知觉得很有意思,但是一直不知道该如何实现。最近一次上网…

卡通AI图片生成器

AI卡通生成器是一个AI工具,你可以毫不费力地用文本创建美丽的卡通图像! AI卡通生成器简介:创意与轻松相遇的地方!  有了我们创新的人工智能工具,用文字制作迷人的卡通图像就像点击一样简单。无论你是将可爱的人工智能动物带到生活中,还是用人工智能故事漫画讲述引人入胜…

[HGAME 2023 week3]kunmusic wp

今天写了一道Hgame的题,挺有意思的,写个blog记录一下 下载附件得到三个文件,先用dnspy打开dll文件,找到main函数,发现为对资源中data的加密。因此将data直接dump下来,对其进行解密,并将解密后的文件保存为111,脚本如下: file = open(rC:\Users\usr\Desktop\ctf题库\re…

Python中 `__pycache__` 文件夹是什么?

引言 当你编写一个独立的Python脚本时,目录结构看起来可能没什么特别。但随着项目逐渐变得复杂,你引言 当你编写一个独立的Python脚本时,目录结构看起来可能没什么特别。但随着项目逐渐变得复杂,你可能会倾向于将一些功能分离到其他模块或包中。这时,你可能会发现在源文件…

WPF 滚动轮播文字(走马灯效果)

使用 Control 实现自定义控件,源码可加微信号:microsoft-zh