目录
一、前言
1.1 数据治理概念
1.2 数据治理目标
1.3 数据治理要解决的问题
1.3.1 合规性
元数据合规性
数据质量合规性
数据安全合规性
1.3.2 成本
存储资源成本
计算资源成本
二、数据仓库发展阶段
2.1 初始期
2.2 扩张期
2.3 缓慢发展期
2.4 变革期
三、数据治理内容
3.1 元数据治理
3.2 数据质量治理
3.3 数据安全治理
3.4 计算资源治理
3.5 存储资源治理
四、数据治理总结
4.1 模型合规治理
4.2 数据质量合规治理
4.3 数据安全合规治理
4.4 存储资源治理
4.5 计算资源治理
4.6 数据价值治理
五、数据治理如何推动
六、思考与沉淀
一、前言
1.1 数据治理概念
数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。
1.2 数据治理目标
数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)
1.3 数据治理要解决的问题
1.3.1 合规性
-
元数据合规性
各模型、表,子字段等未按照数据标准规范制作
-
数据质量合规性
数据质量问题发生频繁,缺少链路保障
-
数据安全合规性
模型、表/字段未做权限管控,被下游随意引用
1.3.2 成本
-
存储资源成本
无用数据模型较多,某些表存在不必要存储周期
-
计算资源成本
存在无效任务,数据倾斜任务,高读写任务(运行时间长)
数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:
’
二、数据仓库发展阶段
2.1 初始期
- 业务特点:单一、少量的业务模式探索
- 数据诉求:支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)
2.2 扩张期
- 业务特点:快速扩张
- 数据诉求:大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。
2.3 缓慢发展期
- 业务特点:稳增长
- 数据诉求:对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)
2.4 变革期
- 业务特点:发现新的机会,精细化运营
- 数据诉求:快速支持业务创新
三、数据治理内容
3.1 元数据治理
这里的元数据治理主要介绍数据表合规治理,文章指路:
数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次,点赞19次,收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502
3.2 数据质量治理
数据质量治理文章指路:
数仓治理-数据质量治理-CSDN博客文章浏览阅读936次,点赞27次,收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501
数据质量文章指路:
数仓-数据质量-CSDN博客文章浏览阅读1k次,点赞19次,收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501
3.3 数据安全治理
数据安全治理文章指路:
数仓治理-数据安全治理-CSDN博客文章浏览阅读343次,点赞9次,收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502 数据安全文章指路:
数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502 上述的元数据治理、数质量治理、数据安全治理属于合规治理的范畴。
3.4 计算资源治理
计算资源治理见文章:
数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次,点赞34次,收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501
3.5 存储资源治理
存储资源治理见文章:
数仓治理-存储资源治理-CSDN博客文章浏览阅读64次,点赞3次,收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502
四、数据治理总结
4.1 模型合规治理
- 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
- 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
- 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
- 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
- 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;
4.2 数据质量合规治理
- 流程化:包括制定任务上线/变更流程,指标变更流程等;
- dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
- sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
- 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;
4.3 数据安全合规治理
- 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
- 数据脱敏,防止数据泄露;
- 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
- 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
- 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;
4.4 存储资源治理
- 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
- 长期未引用/被使用/临时的表进行下线处理;
- 压缩格式优化/存储格式优化
- 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;
4.5 计算资源治理
- 数据倾斜任务治理;
- 针对消耗大量的cpu/内存的任务进行治理;
- 无效监控项,重复开发的模型、数据价值低的模型及时下线;
- 梳理数据链路并对任务调度进行治理;
- 规划核心任务,分配任务优先级,非核心的任务靠后运行;
- 小文件治理
4.6 数据价值治理
- 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
- ads公共逻辑下沉到dws,实现逻辑复用;
- 建立模型价值度量指标,逐步下线低价值的模型;
- 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)
五、数据治理如何推动
- 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值。
- 实施奖惩措施,让下游积极参与其中。
- 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。
六、思考与沉淀
代补充~