【数仓建设系列之一】什么是数据仓库?

一、什么是数据仓库?

数据仓库(Data Warehouse,简称DW)简单来讲,它是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等,为企业决策提供一定程度上的支持和帮助。
在这里插入图片描述

二、数据仓库的特点?
  • 主题性

传统的数据库,更多的可能是考虑到应用层面上的数据组织和结构,因此各个业务之间的数据可能相互独立,相互分离。而数据仓库是对业务系统中各业务数据通过不同主题域特征进行抽象,通过归纳和总结等手段,形成一个更高层次的主题和维度抽象。

  • 集成性

因为数据仓库与传统意义上的数据库不同,它需要接纳各种独立,异构的数据,因此它需要通过ETL(抽取、清洗、转换)功能,将这些数据统一处理并汇总到数据仓库中,而将全部的数据汇总的好处就是数仓中包含了企业所有数据,解决了企业数据孤岛问题,在后期可以为企业提供统一的数据视图。因此,数据入仓前的ETL是数仓建设中尤为关键且有非常复杂的一件事。

  • 稳定性

传统数据库更多的偏向于更新操作(CRUD),而数据仓库则是更多的提供一种可靠的,长久数据的查询和分析能力。在生产场景种,数据一旦写入到数据仓库,大概率会被长期保存且基本不进行修改操作,除非企业针对特定数据设置数据生命周期。因此基于这种更新频率几乎为零的设计再加上数仓的分布式存储与高可用的搭建,保证了数仓的稳定性和完整性。

  • 及时性

数仓不仅仅要存储了管理历史数据,同时还要能够实时接收新的集成数据,通过这种快速反应历史数据与新增数据差异对比的能力,能够快速给决策和分析人员提供参考依据,这也是数仓建设的最终目的。

三、为什么要建设数仓?

​ 随着移动互联网的快速发展,企业数据和数据复杂度也呈几何式增长。到目前为止,数据已经成为了众多企业的核心资产之一。但目前很多企业在不同的业务场景,都拥有众多数据源,企业数据也分布在不同的业务系统中,但决策者在决策时,通常是要结合全公司各个业务数据来综合分析考虑的,而一个高效可靠的数据仓库,能够汇集公司众多结构化和非结构化的数据,能够提供稳定高效的查询分析,能够帮助决策者更加高效的管理和分析企业发展现状与预测未来走势,同时,也能将公司的数据资源转换为真正的企业资产。

​ 接下来,我们将从数据仓库的分类与建模方法中展开讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/73829.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Electron入门,项目启动。

electron 简单介绍: 实现:HTML/CSS/JS桌面程序,搭建跨平台桌面应用。 electron 官方文档: [https://electronjs.org/docs] 本文是基于以下2篇文章且自行实践过的,可行性真实有效。 文章1: https://www.cnbl…

GRPC 学习记录

GRPC 安装 安装 grpcio、grpcio-tools、protobuf、 pip install grpcio -i https://pypi.tuna.tsinghua.edu.cn/simple pip install grpcio-tools -i https://pypi.tuna.tsinghua.edu.cn/simple pip install protobuf -i https://pypi.tuna.tsinghua.edu.cn/simple常用类型 p…

使用 Ansible Galaxy 安装角色

使用 Ansible Galaxy 安装角色 使用 Ansible Galaxy 和要求文件 /home/curtis/ansible/roles/requirements.yml 。从以下 URL 下载角色并安装到 /home/curtis/ansible/roles : http://rhgls.area12.example.com/materials/haproxy.tar 此角色的名称应当为 balancer …

【C++ 记忆站】引用

文章目录 一、引用概念二、引用特性1、引用在定义时必须初始化2、一个变量可以有多个引用3、引用一旦引用一个实体,再不能引用其他实体 三、常引用四、使用场景1、做参数1、输出型参数2、大对象传参 2、做返回值1、传值返回2、传引用返回 五、传值、传引用效率比较六…

【玩转Linux操作】crond的基本操作

🎊专栏【玩转Linux操作】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【Counting Stars 】 欢迎并且感谢大家指出小吉的问题🥰 文章目录 🍔概述🍔命令⭐常用选项 🍔练…

postgresql中基础sql查询

postgresql中基础sql查询 创建表插入数据创建索引删除表postgresql命令速查简单查询计算查询结果 利用查询条件过滤数据模糊查询 创建表 -- 部门信息表 CREATE TABLE departments( department_id INTEGER NOT NULL -- 部门编号,主键, department_name CHARACTE…

考研算法45天:首字母大写 【字符串:简单】

题目前置知识 如何使用scanf输入一个有空格的字符串 如何输入带空格的字符串_我码了的博客-CSDN博客 scanf("%[^\n]",str); 如何用ascll码将字符串的小写换为大写 char a; a a - 32; 题目概况 AC代码 #include <iostream> using namespace std;int main()…

Openlayers 实战 - 地图视野(View)- 图层 -(layer)- 资源(source)显示等级设置

Openlayers 实战 - 地图视野&#xff08;View&#xff09;- 图层 -&#xff08;layer&#xff09;- 资源&#xff08;source&#xff09;显示等级设置 问题原因核心代码完整代码&#xff1a;在线示例 在以往的项目维护中&#xff0c;出现一个问题&#xff0c;使用最新高清底图发…

Flink安装与使用

1.安装准备工作 下载flink Apache Flink: 下载 解压 [dodahost166 bigdata]$ tar -zxvf flink-1.12.0-bin-scala_2.11.tgz 2.Flinnk的standalone模式安装 2.1修改配置文件并启动 修改&#xff0c;好像使用默认的就可以了 [dodahost166 conf]$ more flink-conf.yaml 启动 …

对象内存布局与对象头

对象内存布局 在Hotspot虚拟机里&#xff0c;对象在堆内存中的存储布局可以划分为三个部分&#xff1a;对象头、实例数据、对齐填充。 对象头 在64为系统中&#xff0c;Mark word 占了8个字节&#xff0c;cla ss Pointer 占了8个字节。从jdk1.8开始&#xff0c;存在指针压缩&am…

08-微信小程序视图层

08-微信小程序视图层 文章目录 视图层 ViewWXML数据绑定列表渲染条件渲染模板引用importimport 的作用域include WXSS尺寸单位样式导入内联样式选择器全局样式与局部样式 WXS注意事项页面渲染数据处理 视图层 View 框架的视图层由 WXML 与 WXSS 编写&#xff0c;由组件来进行…

ES踩坑记录之UNASSIGNED分片无法恢复

问题背景 换节点 我们线上有一套ES集群&#xff0c;三台机器&#xff0c;共运行了6个节点。一直在线上跑了几个月也一直没出什么问题。然而好巧不巧&#xff0c;就在昨天&#xff0c;集群中的3号节点磁盘出现故障&#xff0c;导致机器直接瘫痪。本来大家觉得问题不大&#xf…