数仓治理-存储资源治理

目录

一、存储资源治理的背景

二、存储资源治理的流程及思路

三、治理前如何评估

3.1 无用数据表/临时数据表下线评估

3.2 表及分区的生命周期评估

3.3 存储及压缩格式评估

3.4 根据业务场景实现节省存储评估

四、治理后的成效如何评估

一、存储资源治理的背景

           由于早期数仓的存储资源比较充裕,没有考虑到后续集群扩容、存储格式等因素造成的资源紧张的局面,由此需要进行整体的治理优化。

二、存储资源治理的流程及思路

         基于治理的难易程度及影响对治理的优先级进行排期,治理顺序可以是:下线无用的数据表以节省存储 --> 存储格式及压缩格式配置 --> 设置表及分区的生命周期 --> 根据业务情景节省存储。

三、治理前如何评估

3.1 无用数据表/临时数据表下线评估

  • 数据血缘评估

  • 最近30天/60天数据模型检索次数、被下游引用次数、数据模型的读取次数评估

  • tmp名开头数据表评估
-- sql语句
select * 
from 
yx_dwd.dwd_meta_table_detail_df
where ds='2023-09-30'
and table_name like '%dwd_%'

   筛选出来的tmp不一定就是完全废弃的,一些线上的复杂代码仍然需要借助tmp作为临时过度表来存放数据。tmp是否是废弃的需要借助血缘来判断,针对无血缘的数据表统一下线处理来节省存储成本。

 3.2 存储及压缩格式评估

  • 可以通过数据地图单独查看;

  • 可以通过元数据的方式查看数据存储及压缩格式。

3.3 表及分区的生命周期评估

 (1)数据表的存储生命周期

1.数仓分层表的生命周期
ODS层:1年
DWD:3-5年
DWS:10年(部分可永久)
ADS:10年(部分可永久)
DIM:非用户维度3-5年、用户维度建议用拉链表2.临时表生命周期为7或30天,这些临时表不被线上的其他调度任务所引用

 (2)数据表的分区的存储生命周期

数据表分区建议最多2级分区,超过2级分区会造成数据长周期存储等问题。一般而言,
1级分区为业务日期,2级分区是根据业务场景设置的

 (3)表及分区的生命周期评估方式

  • 通过数据表生命周期去查看

  • 数据地图
  • 数据治理360生命周期诊断

3.4 根据业务场景进行节省存储评估

       查看数据存储top所使用的存储方式(例如全量)

四、治理后的成效如何评估

    存储资源治理更多的是会对数仓内部及业务带来价值,对外价值一般是减少部门费用总支出。治理成效的评估指标可以有以下几个方面:

  1.下线各层无用/临时数据表总计xxx个,释放存储资源xxT;

  2.使用parquet格式+snappy压缩,提升压缩比,存储资源由原来的xxxT降低至xxT。

  3.统一v表的生命周期可以节省不必要的存储资源,对于临时表采用7天的存储周期,存储资源由原来的xxxT降低至xxT。

  4.根据不同的业务场景,通过拉链表(用户表推荐使用拉链表),进行增全量的方式存储,存储资源由原来的xxT降低至xxT。 

  5.整体治理后为部门减少了1/3总费用,存储成本由xxx万元降低至xx万元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/449004.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能深度学习发展历程-纪年录

前言 为了理解模型之间的改进关系、明确深度学习的发展目标、提高自身对模型的深度理解、贯彻爱与和平的理念。总之,我做了如下表格。 时间 重大突破 模型改进 详细信息 1847 SGD 随机梯度下降 1995 SVM 支持向量机 1982 RNN 循环神经网络,…

[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉

专属领域论文订阅 关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持 如果你感觉对你有所帮助,请关注我,每日准时为你推送最新论文。 为了答谢各位网友的支持,从今日起…

springboot在线问诊系统-计算机毕业设计源码00211

摘 要 针对医院门诊等问题,对在线问诊进行研究分析,然后开发设计出在线问诊系统以解决问题。在线问诊系统主要功能模块包括首页、轮播图管理、公告信息管理、资源管理、系统用户管理(管理员、患者用户、医生用户)、模块管理&#…

Vue 环境准备

1.安装vscode https://code.visualstudio.com/ 2.安装开发vue所需插件: Vetur —— 语法高亮、智能感知、Emmet等 包含格式化功能, AltShiftF (格式化全文),CtrlK CtrlF(格式化选中 代码,两…

[C语言] 指针详解(1)

一. 指针 利用指针,可以找到相对应内存地址(唯一的一段编号),从而定位数据. (通俗来说,指针就是变量,用来存放内存单元的地址) 保存一段 16进制的 地址编号 二、指针类型/变量: 类型: 基础类型* 如: int* char*指针变量: int* pa pa就为指针变…

Shopee越南本土店好做吗?越南本土Shopee店家如何收款?站斧浏览器

Shopee越南本土店好做吗? 对于越南本土的Shopee店家来说,他们可能会关心Shopee平台的运营情况和是否适合他们开展电商业务。那么,Shopee好做吗?以下是一些相关的讨论点。 用户基础和市场规模 作为东南亚地区最大的电商平台之一…

WPA3,WPA2,WPA的核心要点

目录 WPA是什么? WPA:WiFi protected Access 安全是什么? 安全 认证加密 IEEE 802.11定义了2个阶段:pre-RSNA, RSNA Pre-RSNA: RSNA:robust security network association RSNA Authent…

记录关于node接收上传文件formData踩的坑

1.vue2使用插件formidable实现接收文件,首先接口不可以使用任何中间件,否则form.parse()方法不执行。 const express require(express) const multipart require(connect-multiparty); const testController require(../controller/testController)/…

webpack源码分析——truncateArgs函数

一、truncateArgs 函数 函数功能 该函数可以用于用户界面中的文本截断,确保长文本在有限的显示空间内能够适当显示,并且用户可以了解到部分文本已被省略。 函数参数 args:参数数组。用于输出到界面上maxLength:当前界面上可容纳…

幻兽帕鲁服务器多少钱?Palworld服务器配置价格

腾讯云幻兽帕鲁服务器价格32元起,4核16G12M配置32元1个月、96元3个月、156元6个月、312元一年,支持4-8个玩家;8核32G22M幻兽帕鲁服务器115元1个月、345元3个月,支持10到20人在线开黑。腾讯云百科txybk.com分享更多4核8G12M、16核6…

Pycharm python用matplotlib 3D绘图显示空白解决办法

问题原因: matplotlib版本升级之后显示代码变了,修改为新的 # ax Axes3D(fig) # 原代码 ax fig.add_axes(Axes3D(fig)) # 新代码import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot3d import Ax…

ubantu扩容解决 sudo -i 报无法识别

GParted给ubuntu系统磁盘resize大小时候出现cannot resize read-only file system解决办法_gparted无法调整分区大小-CSDN博客https://blog.csdn.net/ningmengzhihe/article/details/127295333?spm1001.2014.3001.5506 解决磁盘挂载系统目录出现问题: 1、sudo -i…