离线数仓-数据治理

目录

一、前言

1.1 数据治理概念

1.2 数据治理目标

1.3 数据治理要解决的问题

1.3.1 合规性

元数据合规性

数据质量合规性

数据安全合规性

1.3.2 成本

存储资源成本

计算资源成本

二、数据仓库发展阶段

2.1 初始期

2.2 扩张期

2.3 缓慢发展期

2.4 变革期

三、数据治理内容

3.1 元数据治理

3.2 数据质量治理

3.3 数据安全治理 

3.4 计算资源治理

3.5 存储资源治理

四、数据治理总结

4.1 模型合规治理

4.2 数据质量合规治理

4.3 数据安全合规治理

4.4 存储资源治理

4.5 计算资源治理

4.6 数据价值治理

五、数据治理如何推动

六、思考与沉淀


一、前言

1.1 数据治理概念

       数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。

1.2 数据治理目标

       数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)

1.3 数据治理要解决的问题

1.3.1 合规性

  • 元数据合规性

       各模型、表,子字段等未按照数据标准规范制作

  • 数据质量合规性

       数据质量问题发生频繁,缺少链路保障

  • 数据安全合规性

      模型、表/字段未做权限管控,被下游随意引用

1.3.2 成本

  • 存储资源成本

      无用数据模型较多,某些表存在不必要存储周期

  • 计算资源成本

      存在无效任务,数据倾斜任务,高读写任务(运行时间长)

   数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:

二、数据仓库发展阶段

2.1 初始期

  • 业务特点:单一、少量的业务模式探索
  • 数据诉求:支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)

2.2 扩张期

  • 业务特点:快速扩张
  • 数据诉求:大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。

2.3 缓慢发展期

  • 业务特点:稳增长
  • 数据诉求:对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)

2.4 变革期

  • 业务特点:发现新的机会,精细化运营
  • 数据诉求:快速支持业务创新

三、数据治理内容

3.1 元数据治理

       这里的元数据治理主要介绍数据表合规治理,文章指路:

数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次,点赞19次,收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502

3.2 数据质量治理

        数据质量治理文章指路:

数仓治理-数据质量治理-CSDN博客文章浏览阅读936次,点赞27次,收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501

      数据质量文章指路:

数仓-数据质量-CSDN博客文章浏览阅读1k次,点赞19次,收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501

3.3 数据安全治理 

      数据安全治理文章指路:

数仓治理-数据安全治理-CSDN博客文章浏览阅读343次,点赞9次,收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502     数据安全文章指路:

数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502      上述的元数据治理、数质量治理、数据安全治理属于合规治理的范畴。

3.4 计算资源治理

        计算资源治理见文章:

数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次,点赞34次,收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501

3.5 存储资源治理

       存储资源治理见文章:

数仓治理-存储资源治理-CSDN博客文章浏览阅读64次,点赞3次,收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502

四、数据治理总结

4.1 模型合规治理

  • 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
  • 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
  • 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
  • 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
  • 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;

4.2 数据质量合规治理

  • 流程化:包括制定任务上线/变更流程,指标变更流程等;
  • dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
  • sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
  • 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;

4.3 数据安全合规治理

  • 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
  • 数据脱敏,防止数据泄露;
  • 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
  • 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
  • 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;

4.4 存储资源治理

  • 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
  • 长期未引用/被使用/临时的表进行下线处理;
  • 压缩格式优化/存储格式优化
  • 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;

4.5 计算资源治理

  • 数据倾斜任务治理;
  • 针对消耗大量的cpu/内存的任务进行治理;
  •  无效监控项,重复开发的模型、数据价值低的模型及时下线;
  • 梳理数据链路并对任务调度进行治理;
  • 规划核心任务,分配任务优先级,非核心的任务靠后运行;
  • 小文件治理

4.6 数据价值治理

  • 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
  • ads公共逻辑下沉到dws,实现逻辑复用;
  • 建立模型价值度量指标,逐步下线低价值的模型;
  • 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)

五、数据治理如何推动

  • 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值
  • 实施奖惩措施,让下游积极参与其中。
  • 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。

六、思考与沉淀

代补充~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/450840.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前后端数据校验

前端校验内容 前端开发中的必要校验,可以保证用户输入的数据的准确性、合法性和安全性。同时,这些校验也有助于提供良好的用户体验和防止不必要的错误提交到后端。 1、必填字段校验: 对于必填的字段,需确保用户输入了有效的数据…

Node.js版本管理工具之_Volta

Node.js包管理工具之_Volta 文章目录 Node.js包管理工具之_Volta1. 官网1. 官网介绍2. 特点1. 快( Fast)2. 可靠(Reliable)3. 普遍( Universal) 2. 下载与安装1. 下载2. 安装3. 查看 3. 使用1. 查看已安装的工具包2. 安装指定的node版本3.切换项目中使用的版本 1. 官网 1. 官网…

02-Java抽象工厂模式 ( Abstract Factory Pattern )

抽象工厂模式(Abstract Factory Pattern)是围绕一个超级工厂创建其他工厂 该超级工厂又称为其他工厂的工厂 在抽象工厂模式中,接口是负责创建一个相关对象的工厂,不需要显式指定它们的类 每个生成的工厂都能按照工厂模式提供对象 …

Redis核心技术与实战【学习笔记】 - 19.Pika:基于SSD实现大容量“Redis”

前言 随着业务数据的增加(比如电商业务中,随着用户规模和商品数量的增加),就需要 Redis 能保存更多的数据。你可能会想到使用 Redis 切片集群,把数据分散保存到不同的实例上。但是这样做的话,如果要保存的…

Docker存储空间清理

不知不觉服务器存储空间被Docker掏空了… 查看Docker空间占用情况 使用docker system df命令,可以加 -v 查看详情 清理Docker不需要的内容 使用docker system prune -a命令清理Docker 所有停止的容器所有没有被使用的networks所有没容器的镜像所有build cache …

深度学习实战 | 卷积神经网络LeNet手写数字识别(带手写板GUI界面)

引言 在深度学习领域,卷积神经网络(Convolutional Neural Network, CNN)是一种广泛应用于图像识别任务的神经网络结构。LeNet是一种经典的CNN结构,被广泛应用于基础的图像分类任务。本文将介绍如何使用LeNet卷积神经网络实现手写…

企业级IT应用运维监控:层次架构设计与实践指南

前言 企业基本都有自己的IT系统,而每个IT系统都有自己的监控系统。企业级的IT应用监控架构是一种综合性的解决方案,涉及到很多层级和相应的工具。随着企业IT系统的规模和复杂程度的不断增加,监控和管理系统也面临着越来越大的挑战。大家有时…

Python实现PDF到HTML的转换

PDF文件是共享和分发文档的常用选择,但提取和再利用PDF文件中的内容可能会非常麻烦。而利用Python将PDF文件转换为HTML是解决此问题的理想方案之一,这样做可以增强文档可访问性,使文档可搜索,同时增强文档在不同场景中的实用性。此…

windows下安装go

下载golang Go 官网下载地址: https://golang.org/dl/ Go 官方镜像站(推荐): https://golang.google.cn/dl/ 选择安装包 验证有没有安装成功 查看 go 环境 说明 : Go1.11 版本之后无需手动配置环境变量&#xff0c…

Docker 安装篇(CentOS)

Docker社区版 Docker从1.13版本之后采用时间线的方式作为版本号,分为社区版CE和企业版EE。 社区版是免费提供给个人开发者和小型团体使用的,企业版会提供额外的收费服务,比如经过官方测试认证过的基础设施、容器、插件等。 1、Docker 要求 C…

2023年全球软件开发大会(QCon上海站2023):核心内容与学习收获(附大会核心PPT下载)

在信息化和全球化日益加速的今天,软件开发技术日新月异,对全球各行各业产生了深远影响。2023年全球软件开发大会(QCon上海站2023)无疑成为行业内外瞩目的焦点。本次大会汇集了全球顶级的软件开发专家、企业领袖、研究者&#xff0…

【开源】JAVA+Vue+SpringBoot实现就医保险管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 科室档案模块2.2 医生档案模块2.3 预约挂号模块2.4 我的挂号模块 三、系统展示四、核心代码4.1 用户查询全部医生4.2 新增医生4.3 查询科室4.4 新增号源4.5 预约号源 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVue…