数仓项目建设方案——维度建模

news/2025/4/1 22:56:19/文章来源:https://www.cnblogs.com/leo130-blogs/p/18801217

数仓项目建设方案——维度建模式

信息收集

  1. 项目背景
    阐述公司当前的行业,涉及的主要业务,相关数据的大小、分布、更新情况描述,需要解决的相关问题。

  2. 公司当前数据建设现状
    使用的数据库、数据来源系统与方式、现有数据分析组织,所使用的 BI 工具与数仓工具、为什么建立以及当前存在的问题。

  3. 部门架构与相关业务流程
    描述该公司的部门架构,以及相关部门的业务。

  4. 部门相关详情业务说明
    本次作业范围中的部门的业务过程,描述其业务的需要经过的节点、与业务节点相关的系统的数据表,单次业务对数据表行数的影响。

  5. 上层管理与下级部门的诉求与期望
    上层管理者在数据分析大方向上的诉求与期望、管理者在具体的业务中的诉求与期望。

  6. 文本报表与 BI 报表信息
    对现有报表信息进行简单说明,如在什么样的业务中以什么维度对分析了哪些数据。

  7. 相关数据源 PDM 和 ER 图信息
    提供客户现在的数据关系图。

维度建模

  1. 整理业务过程
    确认不同部门下的业务过程、以及其业务节点、绘制业务的价值链(节点链)。

  2. 确认数据粒度
    根据单次业务操作对数据的影响,确认数据的所需使用的颗粒度,确认数据的原子性。

  3. 确定维度
    分析该业务过程中所生成的数据,区分出其中所有的维度,建立维度表,同时根据维度的更新方式和实际情况,确定具体的维度表类型。

  4. 确实事实
    分析该业务过程中所生成的数据,区分其中所有的事实,建立事实表,同时根据事实的产生方式与实际情况,确定具体的事实表类型。

  5. 绘制事实维度模型图
    根据确认的事实与维度绘制模型图,通常以星型模型、雪花模型、星座模型形式呈现。

  6. 绘制数据仓库总线架构
    仓库总线架构、仓库总线矩阵、仓库总线细节矩阵、利益相关矩阵、高层模型等其他相关矩阵模型。

  7. 确认交付模型
    将模型交付给客户进行确认,确认在当前设计的维度下能满足相关部门的数据分析要求,在确认之后,交付给实施开发进行开发作业。

实施开发

  1. 相关数据入仓 ETL
    对数据进行入仓和简单的数据清洗,保存至 ODS 层。

  2. 模型的物理设计与开发
    根据建模提供的各种矩阵模型、确认的事实与维度来建立数据表,根据业务过程来创建作业流,同时进行相应的数据治理工作,该层保存至 DWD 层。

  3. 数据市场搭建
    该层主要通过事实与维度两层次进行连接产生,保存至 DM 层或 DWS 层。

  4. 数据的应用
    将已完成的数据通过 API 或直连的方式提供给 BI 或是其他数据消费端。

数据维护

  1. 修复错误数据
    修复在ETL之后依旧没有清楚的错误数据、或汇总之后导致错误聚合数据等错误数据
  2. 依据反馈迭代
    根据对应部门的用户对数据使用的反馈进行迭代操作,如新增加维度、拓展事实属性、汇总维度等迭代操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/908361.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在机器人和无人机时代,测绘人的出路在哪里?

一、技术革命:当测绘行业按下“加速键”无人机与机器人技术正在重塑测绘行业的底层逻辑。传统测绘依赖人工作业,效率低、成本高且风险大,而无人机凭借其灵活性和高效性,已能快速完成大范围地形测绘,精度可达厘米级,甚至替代人工进入危险区域(如塌方、悬崖等)作业。例如…

openwrt禁止设备联网

一、代码操作 把mac地址换成要禁用的设备mac地址,加到自定义防火墙最后,记得最后重启防火墙生效 /etc/init.d/firewall restart iptables -I INPUT -m mac --mac-source B8:C7:4A:7A:66:2E -j DROP iptables -I FORWARD -m mac --mac-source B8:C7:4A:7A:66:2E -j DROP iptab…

JVM调优原理篇

JVM调优 什么是JVM调优,调优的指标是什么? JVM调优指的就是对当前系统进行性能调优,简单来说就是尽可能使用较小的内存和CPU来让JAVA程序获得更高的吞吐量及较低的延迟。 调优常见的指标:吞吐量:是指不考虑垃圾收集引起的停顿时间或内存消耗,应用达到的最高性能指标。 延…

20241216 实验二《Python程序设计》实验报告

20241216 2024-2025-2 《Python程序设计》实验二报告 课程:《Python程序设计》 班级: 2412 姓名: 曾楷 学号:20241216 实验教师:王志强 实验日期:2024年3月26日 必修/选修: 公选课 (一) 实验内容 1.设计并完成一个完整的应用程序,完成加减乘除模等运算,功能多多益善…

[Windows] TechSweeper 应用程序卸载神器V1.2.1

一.我们改进了程序元素显示,现在超出列宽,可以进行滚动显示二.我们为程序添加了右键菜单,现在功能更加全面三.现在程序出现崩溃时,可以进行错误提示与收集四.现在程序可以进行主题切换了五.添加了作者相关信息六.现在可以打开程序相关注册表了(直接显示 清晰明了)七.现在可…

鸢尾花书 - Book_3《数学要素》 - Chapter1 万物皆数

上面图片摘自原书 一、基础概念普及 1. 向量 若干数字排成一行或一列,并且用中括号括起来,得到的数组叫做向量。 2. 行向量 排成一行 3. 列向量 排成一列 4. 转置 行向量转置得到列向量,反之。 5. 矩阵 有行,有列,像表格。 6. 元素 x[i][j] 代表矩阵 X 中第 i 行第 j 列元…

VMware workstation 17 pro 设置开机自启虚拟机(Windows 11)

首先在软件界面设置需要启动的虚拟机 文件➡配置自动启动的虚拟机在打开的对话框中勾选需要自动启动的虚拟机和设置启动顺序点击确定即可。如果点击确定报错的话,如下图看起来问题可能出在两个方面:要么是vmAutoStart.xml文件不存在,要么是当前用户没有足够的权限去修改这个…

RabbitMQ进阶--集群,分布式事务

一.RabbitMQ集群搭建 RabbitMQ这款消息队列中间件产品本身是基于Erlang编写,Erlang语言天生具备分布式特性(通过同步Erlang集群各节点的magic cookie来实现)。因此,RabbitMQ天然支持Clustering。这使得RabbitMQ本身不需要像ActiveMQ、Kafka那样通过ZooKeeper分别来实现HA方…

企业为何要使用odoo18

在当今快速变化的商业环境中,企业需要高效、灵活且经济实惠的管理工具来保持竞争力。Odoo 18 作为一款开源的企业资源计划(ERP)系统,凭借其全面的功能和独特的优势,成为众多企业的首选。为什么选择 Odoo 18? 1. 全面的功能覆盖 Odoo 18 集成了销售、采购、库存、制造、财…

deepclaude 的使用 直捣黄龙

先说结论,最简单的就是购买deepseek 和 claude 的api之后, 直接使用vscode中的cline插件,其中 cline的plan(计划模式)配置deepseek的api,act(执行模型)配置claude的api 直接上连接: deepseek开放平台 https://platform.deepseek.com/ claude 开放平台 https://con…

CentOS 7安装Docker

1.系统需求CentOS 7或更高版本。 centos-extras仓库必须处于启用状态,该仓库默认启用,但如果禁用了该仓库,请重新启用。 建议使用overlay2存储驱动。 2.使用Yum安装 2.1卸载老版本的Docker 在CentOS中,老版本Docker的软件包名是docker或docker-engine,而Docker CE的软件包…

GMap.NET + WPF:构建高性能 ADS-B 航空器追踪平台

ADS-B 简介ADS - B(Automatic Dependent Surveillance - Broadcast,广播式自动相关监视)是一种先进的航空监视技术。它依靠飞机上的机载设备,自动收集诸如飞机的位置、高度、速度、航向等关键数据,并周期性地以广播的形式向外发送这些信息。地面站和其他装有 ADS-B 接收设…