【大数据面试题】 018 数据仓库的分层了解吗?说说你的理解

一步一个脚印,一天一道面试题。

数据仓库是比较常见的考点。今天就介绍一下数据仓库的分层。本篇文章会较多的图片是来自尚硅谷的。

数据仓库的背景和好处

数据仓库的诞生就和大数据的诞生有很大的相似。大数据的诞生是为了处理超大的数据,并在其中探索海量数据下的价值。而数据仓库的诞生是为了规范大数据初期蛮荒生长后的一套规范(毕竟瞎搞大数据很浪费钱),有了数据仓库,我们能更有效率的在海量数据里找黄金,同时能避免不必要的浪费,减少成本。数据仓库再往后,我认为就是数据治理,但那就是后话了。

数仓分层

来张尚硅谷的数仓分层图先:
数仓总体分层

源数据层(ODS)

在这一层,通常存储原始数据,如日志、埋点数据等。这些数据往往包含了系统的全部操作记录,便于后续对数据进行追溯和分析。
ODS

数据明细层(DWD)

DWD 层通常存储经过清洗和分类的数据,包括统一单位、去除空值等处理后的数据。这一层的数据更加规范和准确,适合用于后续的计算和分析。

DWD数据明细层

维度层(DIM)- 配置和信息表

维度层一般存储与业务相关的配置信息和维度表,用于描述业务实体的属性和特征。例如产品信息、客户信息、地理位置等。

数据轻度汇总层(DWS)

DWS 层存储经过轻度汇总后的数据,通常按照特定维度进行聚合,以方便生成报表和进行分析。这一层的数据已经具有一定的汇总和提炼,适合用于生成业务报表和指标分析。

数据应用层(ADS)

在应用层存储着最终用于应用和业务需求的数据,通常包括用户行为数据、业务指标数据、推荐结果等。这些数据通常被用于生成报表、展示数据分析结果,或支持业务决策和推荐系统运行。

结语: 数据仓库是我们大数据十分重要的组成部分,也能在这套规范里找到处理海量数据的智慧。(虽然很多公司即使用了数据仓库后还是有很多效率,浪费之类的问题,但那就是数据治理的后话了)

我是 jiweilai,祝你变的更强!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/548836.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kerberos验证协议安装配置使用

一、kerberos是什么 Kerberos 是一个网络身份验证协议,用于在计算机网络中进行身份验证和授权。它提供了一种安全的方式,允许用户在不安全的网络上进行身份验证,并获取访问网络资源的权限。 二、安装配置kerberos服务端 1、安装kerberos #检…

如何快速解决msvcr80.dll丢失问题,教你5种方法轻松搞定

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“msvcr80.dll丢失”。MSVCR80.dll文件的丢失可能会引发一系列系统运行与软件功能上的问题。作为一个重要的动态链接库文件,它在Windows操作系统中扮演着关键角色,尤其…

【C++】Stack queue 模拟实现及容器适配器

目录 一、stack 1、stack 基本介绍 2、stack 的使用 3、stack 模拟实现 二、queue 1、queue 基本介绍 2、queue 的使用 3、queue 模拟实现 三、容器适配器 1、什么是适配器 ​2、deque 的基本介绍 3、deque 的基本结构 4、deque 的缺陷 一、stack 1、stack 基本介…

计算机二级(Python)真题讲解每日一题:《十字叉》

描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬ ‪‬‪‬‪‬‪‬‪‬‮‬‪…

数据可信流通:从运维信任到技术信任

1.数据可信流通概念 "数据可信流通"通常指的是确保数据在不同系统、应用程序或者组织之间的传输和交换过程中的可信性、完整性和安全性。在数据流通的过程中,确保数据的真实性、完整性和保密性是非常重要的,尤其是涉及到敏感信息或者重要数据…

本地知识库的底层逻辑是什么?为什么企业需要它?

如果我们将企业比作一座繁华的城市,那么信息就像是城市的建筑,知识库则是城市的地图。知识库不仅可以帮我们存储整理和搜寻信息,而且还可以为我们提供信息的结构以便我们能够更好地理解和利用这些信息。今天,我们要探讨的就是这个…

C++ 优先级队列(大小根堆)OJ

目录 1、 1046. 最后一块石头的重量 2、 703. 数据流中的第 K 大元素 为什么小根堆可以解决TopK问题? 3、 692. 前K个高频单词 4、 295. 数据流的中位数 1、 1046. 最后一块石头的重量 思路:根据示例发现可以用大根堆(降序)模拟这个过程。 class So…

一篇文章搞懂AJAX

目录 1.客户端与服务器 1.1 上网的目的 1.2 服务器 1.3 客户端 2.URL地址 2.1 URL地址的概念 2.2 URL地址的组成部分 3.客户端与服务器的通信过程 3.1 图解客户端与服务器的通信过程 3.2 基于浏览器 的开发者工具分析通信过程 4、服务器对外提供了哪些资源 4.1 例举…

GAMES101 学习 2

Lecture 7:Shading 1(lllumination,Shading and Graphics Pipeline) Visibility / occlusion 解决可见性和遮挡的问题 可见性,Z-buffering Z-Buffer 深度缓存 Idea: Store current min. z-value for each sample (pixel)Needs an additi…

Obsidian使用200+插件与70+种主题分享

主题资源 下载方式一: 网盘下载 密码:a3eu 下载方式二: 链接:https://pan.baidu.com/s/1fOgP8lY29sYxkUAbTlQQCw 提取码:qhxa 下载解压打开红色框文件夹 上面的是插件,下面的是主题 以下介绍安装主题 打开Obsidi…

一个可商用私有化部署的基于JAVA的chat-gpt网站

目录 介绍一、核心功能1、智能对话2、AI绘画3、知识库4、一键思维导图5、应用广场6、GPTS 二、后台管理功能1、网站自定义2、多账号登录支持3、商品及会员系统4、模型配置5、兑换码生成6、三方商户用户打通 结语 介绍 java语言的私有化部署的商用网站还是比较少的 这里给大家介…

DNF的概念和操作命令

yum是linux系统中基于rpm包管理的一种软件管理工具。 在dnf.conf文件中,我们可以配置某个网络服务器位软件源仓库。配置的方法,就是用vim编辑/etc/dnf/dnf.conf这个文件。