大数据的几个基本概念
- 数据仓库的基本概念
- 数据仓库与大数据
- OLTP与OLAP
数据仓库的基本概念
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
本质上,就是一个数据库(Oracle、MySQL),一般,只做查询select。
Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。
数据仓库与大数据
下面是数据仓库的搭建过程,红色的部分是大数据的过程,黑色部分是传统数据仓库的过程。
什么是大数据?核心问题
举例:(1)商品推荐 (问题1)大量的订单如何存储?
(问题2)大量的订单如何计算?
(2)天气预报 (问题1)大量的天气数据如何存储?
(问题2)大量的天气数据如何计算?
核心问题:
(1)数据存储:分布式文件系统 HDFS
(2)数据计算:分布式计算模型MapReduce、Spark RDD、Flink分区
-
(A)离线计算、批处理
MapReduce、Spark Core、Flink DataSet -
(B)实时计算、流处理
Storm、Spark Streaming、Flink DataStream
OLTP与OLAP
OLTP:online transaction processing 联机事务处理
如 insert update delete commit rollback
OLAP:online analytic processing 联机分析处理,一般:不会修改(删除)数据
如:select
数据仓库又是一种OLAP的应用