【hadoop】大数据的几个基本概念

大数据的几个基本概念

  • 数据仓库的基本概念
  • 数据仓库与大数据
  • OLTP与OLAP

数据仓库的基本概念

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
本质上,就是一个数据库(Oracle、MySQL),一般,只做查询select。
Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。

数据仓库与大数据

下面是数据仓库的搭建过程,红色的部分是大数据的过程,黑色部分是传统数据仓库的过程。
在这里插入图片描述
什么是大数据?核心问题

举例:(1)商品推荐 (问题1)大量的订单如何存储?
(问题2)大量的订单如何计算?
(2)天气预报 (问题1)大量的天气数据如何存储?
(问题2)大量的天气数据如何计算?

核心问题:
(1)数据存储:分布式文件系统 HDFS

(2)数据计算:分布式计算模型MapReduce、Spark RDD、Flink分区

  • (A)离线计算、批处理
    MapReduce、Spark Core、Flink DataSet

  • (B)实时计算、流处理
    Storm、Spark Streaming、Flink DataStream

OLTP与OLAP

OLTP:online transaction processing 联机事务处理
如 insert update delete commit rollback
OLAP:online analytic processing 联机分析处理,一般:不会修改(删除)数据
如:select

数据仓库又是一种OLAP的应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/15080.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt实现NLP基本任务(实体识别、关系抽取、属性抽取、事件抽取、文本分类)

文章目录 前置:基础函数一、实体识别二、关系抽取三、属性抽取四、事件抽取五、文本分类六、可能存在的问题(报错) 前置:基础函数 import openai import time from tqdm import tqdmdef chatgpt_function(content, keyNone):open…

30.RocketMQ之消费者拉取消息源码

highlight: arduino-light 消息拉取概述 消息消费模式有两种模式:广播模式与集群模式。 广播模式比较简单,每一个消费者需要拉取订阅主题下所有队列的消息。本文重点讲解集群模式。 在集群模式下,同一个消费者组内有多个消息消费者&#xff0…

【Linux】—— 浅谈进程优先级

本期,我们将来聊聊的是关于进程优先级的相关知识!!! 目录 序言 (一)基本概念 (二)查看系统进程 1、PRI and NI 2、PRI vs NI (三)设置优先级 序言 首先…

使用docker安装Nacos,远程连接nacos报错,please check server x.x.x.x ,port 9848 is available

报错: please check server 127.0.0.1 ,port 9848 is available 原因: 当nacos客户端升级为2.x版本后,新增了gRPC的通信方式,新增了两个端口。这两个端口在nacos原先的端口上(默认8848),进行一定偏移量自动生成.。 当客户端升级成2.x版本时&…

传统图像处理之图像美化——图像金字塔

代码实战:图像融合 我将肯巴.沃克和约翰.沃尔融合在了一起。 具体见注释。 import numpy as np import cv2 import scipy.ndimage as ndimageimg cv2.imread("1.png")img1 cv2.imread("2.png")imgcv2.resize(img,(192,192)) img1cv2.resiz…

BERT 论文精读与理解

1.论文题目 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2.论文摘要 本文引入了一种名为 BERT 的新语言表示模型,它代表 Transformers 的双向编码器表示。与最近的语言表示模型(Peters et al., 2018a&#xf…

DRF+Vue.JS前后端分离项目实例(上):使用 Django-Rest-Framework快速实现 RESTful API 接口编程

1. RESTFul API 接口需求及设计 本文以学生信息查询功能为例,采用前后端分离架构,要求后端提供RESTFul 接口。 1.1 本例要求提供如下查询功能: 列表查询、单条查询添加学生信息更改学生信息删除学生信息 1.2 数据库student表结构如下&…

本地部署 ChatPPT

本地部署 ChatPPT 1. 什么是 ChatPPT2. Github 地址3. 安装 Miniconda34. 创建虚拟环境5. 安装 ChatPPT6. 运行 ChatPPT 1. 什么是 ChatPPT ChatPPT由chatgpt提供支持,它可以帮助您生成PPT/幻灯片。支持中英文输出。 2. Github 地址 https://github.com/huimi24/…

开发中易犯错的事务问题

1.不指定rollbackFor 使用spring的声明式事务(即Transactional注解)时,如果不指定rollbackFor,那么当程序发生Error时,事务将不会回滚!!!显然这将导致数据不一致! 如下述…

动态规划--Fibonacci数列 III

描述 众所周知,Fibonacci数列是一个著名数列。它的定义是: 本题要求采用第三种方法:简单的动态规划。 用数组把求出来的 Fibonacci 数列保存下来,以免后面要的时候再算一次。 输入描述 每行一个整数 i ,表示 Fibona…

Linux C程序开发,多线程编程、网络编程

目录 多线程编程 网络编程 Linux C程序开发是指在Linux操作系统下使用C语言进行开发的过程。Linux是一种开源的操作系统,具有稳定性、安全性和灵活性等优点,因此在很多领域都得到了广泛的应用。 多线程编程 多线程编程是指在一个程序中同时运行多个线…

Neo4J 特性CQL语句,函数,Springboot集成

Neo4J Neo4J Neo4J一、Neo4J相关介绍1.为什么需要图数据库方案1:Google方案2:Facebook 2.特性和优势3.什么是Neo4j4.Neo4j数据模型图论基础属性图模型Neo4j的构建元素 5.软件安装 二、CQL语句1.CQL简介2.CREATE 命令3.MATCH 命令4.RETURN 子句5.MATCH和R…