数据仓库【4】:最佳实践

数据仓库【4】:最佳实践

  • 1、表的分类
    • 1.1、事实表
    • 1.2、维度表
    • 1.3、事务事实表
    • 1.4、周期快照事实表
    • 1.5、累积快照事实表
    • 1.6、拉链表
  • 2、ETL策略
    • 2.1、全量同步
    • 2.2、增量同步
  • 3、任务调度
    • 3.1、为什么需要任务调度?
    • 3.2、常见任务类型
    • 3.3、常见调度工具

1、表的分类

维度建模中的表类型

  • 事实表
  • 维度表
  • 事务事实表
  • 周期快照事实表
  • 累积快照事实表
  • 拉链表

1.1、事实表

  • 一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等
    在这里插入图片描述

1.2、维度表

  • 一般是指对应一些业务状态,代码的解释表。也可以称之为码表
  • 通常使用维度对事实表中的数据进行统计、聚合运算
    在这里插入图片描述

1.3、事务事实表

  • 随着业务不断产生的数据,一旦产生不会再变化,如交易流水、操作日志、出库入库记录
    在这里插入图片描述

1.4、周期快照事实表

  • 随着业务周期型的推进而变化,完成间隔周期内的度量统计,如年、季度累计
  • 使用周期+状态度量的组合,如年累计订单数,年是周期,订单总数是量度
    在这里插入图片描述

1.5、累积快照事实表

  • 记录不确定周期的度量统计,完全覆盖一个事实的生命周期,如订单状态表
  • 通常有多个时间字段,用于记录生命周期中的关键时间点
  • 只有一条记录,针对此记录不断更新
    在这里插入图片描述

1.6、拉链表

  • 拉链表记录每条信息的生命周期,用于保留数据的所有历史(变更)状态
  • 拉链表将表数据的随机修改方式,变为顺序追加
    在这里插入图片描述

实现方式一

  • 使用日期分区表,全量数据记录,每天的分区存储昨天全量数据与当天增量数据合并的结果
  • 数据量大会导致全量表膨胀,存储大量永远不更新的冷数据,对性能影响较大
  • 适用于数据量少的情况
    实现方式二
  • 使用日期分区表,推测数据最长生命周期,存储周期内数据;周期外的冷数据存储到归档表
  • 需要保留多天的分区数据,存储消耗依然很大
    实现方式三
  • 使用日期分区表,以业务实体的结束时间分区,每天的分区存放当天结束的数据;设计一个
    时间非常大的分区,如9999-12-31,存放截止当前未结束的数据
  • 已结束的数据存放到相应分区,存放未结束数据的分区,数据量也不会很大,ETL性能好
  • 无存储浪费,数据全局唯一
  • 业务系统可能无法标识业务实体的结束时间,可以使用其它相关业务系统的结束标志作为此
    业务系统的结束,也可以使用最长生命周期时间或前端系统的数据归档时间

2、ETL策略

2.1、全量同步

  • 数据初始化装载一定使用全量同步的方式
  • 因为业务、技术原因,使用全量同步的方式做周期数据更新,直接覆盖原有数据即可

2.2、增量同步

  • 传统数据整合方案中,大多采用merge方式(update+insert)
  • 主流大数据平台不支持update操作,可采用全外连接+数据全量覆盖方式
    • 如果担心数据更新出错,可以采用分区方式,每天保存最新的全量版本,保留较短周期
      在这里插入图片描述

3、任务调度

3.1、为什么需要任务调度?

  • 解决任务单元间的依赖关系
  • 自动化完成任务的定时执行

3.2、常见任务类型

  • Shell
  • Java程序
  • Mapreduce程序
  • SQL脚本
    在这里插入图片描述

3.3、常见调度工具

  • Azkaban
  • Oozie
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/300544.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

适合引流源码声音鉴定神器网站源码,轻松吸引用户关注

源码介绍 声鉴卡HTML5网页源码,完整可运转,调用wx录音,自动判断声音属性,输出结果 安装教程 只需要把源码上传至主机空间就可以 支持上传二级目录访问!提示一下:wxvx打开效果是最佳的源码里面生成二维码…

深入了解队列:探索FIFO数据结构及队列

之前介绍了栈:探索栈数据结构:深入了解其实用与实现(c语言实现栈) 那就快马加鞭来进行队列内容的梳理。队列和栈有着截然不同的工作方式,队列遵循先进先出(FIFO)的原则,在许多场景下…

工具系列:TensorFlow决策森林_(5)使用文本和神经网络特征

文章目录 设置使用原始文本作为特征使用预训练的文本嵌入同时训练决策树和神经网络构建模型训练和评估模型 欢迎来到 TensorFlow决策森林( TF-DF)的 中级教程。 在本文中,您将学习有关 TF-DF的一些更高级的功能,包括如何处理自…

Floyd(弗洛伊德)算法总结

知识概览 Floyd算法适合解决多源汇最短路问题,其中源点是起点,汇点是终点。时间复杂度是。 例题展示 题目链接 活动 - AcWing 系统讲解常用算法与数据结构,给出相应代码模板,并会布置、讲解相应的基础算法题目。https://www.acw…

Crowd Counting近期研究(附代码资源)

1.Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes paper:https://arxiv.org/abs/2310.10352 code:https://github.com/cha15yq/MRC-Crowd 摘要: 为了减轻训练可靠的人群计数模型所需的繁重标注…

Python - 深夜数据结构与算法之 Recursion

目录 一.引言 二.递归的简介 1.Recursion 递归 2.Factorial 阶乘 3.Template 模版 三.经典算法实战 1.Generate-Parentheses [22] 2.Climbing-Stairs [70] 3.Is-Valid-BST [98] 4.Max-Depth [104] 5.Construct-Binary-Tree [105] 6.Min-Depth [111] 7.Invert-Tree…

buuctf-Misc 题目解答分解97-99

97.[BSidesSF2019]zippy 下载完就是一个流量包 追踪tcp nc -l -p 4445 > flag.zip unzip -P supercomplexpassword flag.zip Archive: flag.zip 压缩包密码 supercomplexpassword 保存为 flag.zip 解压得到flag 98.[GUET-CTF2019]虚假的压缩包 先从虚假的压缩包入手 &am…

智能优化算法应用:基于人工兔算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于人工兔算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于人工兔算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.人工兔算法4.实验参数设定5.算法结果6.参考文…

树莓派,mediapipe,Picamera2利用舵机云台追踪人手(PID控制)

一、项目目标 追踪人手大拇指指尖: 当人手移动时,摄像头通过控制两个伺服电机(分别是偏航和俯仰)把大拇指指尖放到视界的中心位置,本文采用了PID控制伺服电机 Mediapipe Hand简介 MediaPipe 手部标志任务可检测图像…

Dash中的callback的使用 多input 6

代码说明 import plotly.express as pxmport plotly.express as px用于导入plotly.express模块并给它起一个别名px。这样在后续的代码中,你可以使用px来代替plotly.express,使代码更加简洁。 plotly.express是Plotly的一个子模块,用于快速创…

关于Python里xlwings库对Excel表格的操作(十八)

这篇小笔记主要记录如何【设置单元格数据的对齐方式】。前面的小笔记已整理成目录,可点链接去目录寻找所需更方便。 【目录部分内容如下】【点击此处可进入目录】 (1)如何安装导入xlwings库; (2)如何在Wps下…

国企和互联网怎么选?

2023年马上就要结束了,天气还是很冷,大家今年的总结做了吗? 正好这两天看到另外一个我关注的博主更新了一个自己的年终总结。其中有一些话令人印象深刻。 未来对我来说,毫无吸引力。原因很简单,当下已经足够令人清醒、…