数据挖掘(7.1)--数据仓库

目录

引言

一、数据库

1.简介

2.数据库管理系统(DBMS)

二、数据仓库

数据仓库特征

数据仓库作用

数据仓库和DBMS对比

分离数据仓库和数据库


引言

数据仓库的历史可以追溯到20世纪60年代,当时计算机领域的主要工作是创建运行在主文件上的单个应用,这些应用以报表处理和程序为特征,一般使用早期的程序设计语言如Fortran或COBOL编写。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。到了20世纪70年代,随着计算机技术的发展,数据库管理系统(DBMS)开始出现,用于管理数据和改善访问效率。
1975年,Sperry Univac推出了MAPPER,这是一个数据库管理和报告系统,其中包括世界上第一个专为建设信息中心而设计的平台4GL,这是当代数据仓库技术的先驱。到了20世纪80年代,随着个人计算机(PC)和第四代编程语言(4GL)等更为新颖的技术出现,数据仓库的概念开始出现。

一、数据库

1.简介

数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。

数据:数据库中存储的基本对象,用于描述事物的符号记录

数据库:以一种结构化的方式存储数据的文件系统

数据库由表组成,表由记录组成,记录由字段组成

①:域

②:记录

③:数据

2.数据库管理系统(DBMS)

使用户可以定义,创建和维护数据库并且提供数据库受控访问的一个软件系统。

例如:DB2, Oracle, MS SQL Server, MySQL, MS Access

DBMS的重要功能:

数据存储, 检索 (SQL), 和更新(创建/插入,读取,更新,删除)

事务支持,确保对应一个给定的事务所有更新都做了或者都没

并发控制服务,确保当多个用户同时更新数据库时,数据库正确更新

二、数据仓库

数据仓库是一种语义上一致的仓库,可作为一个决策支持数据模型的物理实现,存储企业作出的战略决策所需要的信息。数据仓库被看做是一个建筑,通过整合来自多个异构数据源而构建,用来支持结构或即席查询,分析报告和做出决策.

数据仓库特征

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

面向主题的

(1)围绕重要的课题或主题,如顾客.产品和销售。
(2)着眼于决策者的数据建模和分析,而不是日常对数据的操作或事务处理。
(3)通过排除对决策支持过程中无用的数据,提供一个围绕特定主题的简明的意见。

集成的

(1) 数据仓库的建立是通过集成和整合多个不同的异构数据源,数据源包括关系型数据库、数据文件和联机事务记录等。
(2)在数据仓库的建立过程中,数据清洗和数据集成技术得到应用。其目的是为了保证在集成不同数据源时,保证数据在命名规则、编码结构和属性度量等方面的一致性。此外,当数据被放人数据仓库时,数据往往经过了一定的转换。

时变的

(1)在时间层面上数据仓库中的数据明显地比操作性数据库中的数据存储时间要长,其表现为操作性数据库中的数据往往存储的是当前的数据,而数据仓库是从历史数据的角度提供数据。例如,数据仓库中存储的是5~10年之间的数据,而操作性数据库中存储的是当前时间段的数据。
(2)在数据仓库中,关键结构都显式或者隐式地包含时间元素。与之不同的是,在操作性数据库中,关键结构不一定包含时间元素。

非易失的

(1)数据仓库物理地分开存放数据,而这些数据都来源于操作性数据库,最极端的情况下,如果数据仓库中的数据被损坏了,还可以通过操作性数据库中的数据信息进行恢复。
(2)在数据仓库中,通常的操作行为如更新数据不会发生。此外,数据仓库并不需要事务处理、恢复、并发控制机制等操作。数据仓库中只有两种类型的数据操作方式:初始化装载数据和访问数据。

数据仓库作用

提升客户关注度

  • 购买模式、购买偏好

微调生产策略

  • 重新配置产品和管理产品组合

分析业务操作和寻找利润来源

管理客户关系

数据仓库和DBMS对比

OLTP (On-Line Transaction Processing,联机事务处理):传统相关DBMS的主要任务。日常运作:购买、库存、金融、生产制造、工资单、登记、会计等

OLAP (On-Line Analytical Processing,联机分析处理):数据仓库系统的主要任务、数据分析和决策

OLTP和OLAP的主要区别

(1)处理对象:

  • OLTP是面向顾客的,为顾客提供事务处理和查询处理等操作;
  • OLAP是面向市场的,为数据分析人员提供数据分析的支持。

(2)数据内容:

  • OLTP处理的数据是当前详细的数据;
  • OLAP处理的数据是历史的数据,合并集成统一后的数据。

(3)数据库的设计:

  • OLTP系统是采用“实体关系"模型,也就是ER图的数据模型和面向应用的数据设计;
  • OLAP往往采用星型模式和面向主题的数据库设计。

(4)视图:

  • OLTP关注的是当前和本地的数据,而不去关注历史的数据信息;
  • OLAP关注的数据是不同演变和不同数据源集成过来的数据信息。

(5)访问模式:

  • OLTP中访问模式包括对数据的更新、查询等操作,这种操作需要并行化的控制和恢复机制;
  • OLAP的数据访问模式主要是只读操作,而且这种读操作大部分是比较复杂的查询操作。

分离数据仓库和数据库

提高两个系统的高性能

  • DBMS ——OLTP(查询、并发控制、恢复)
  • 数据仓库——OLAP (复杂的OLAP查询)

不同功能和不同数据

  • 决策支持需要历史数据,而业务数据库并没有保存

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/2192.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Bootstrap CSS 概览

文章目录 Bootstrap CSS 概览HTML 5 文档类型(Doctype)移动设备优先响应式图像全局显示、排版和链接基本的全局显示排版链接样式 避免跨浏览器的不一致容器(Container)Bootstrap 浏览器/设备支持 Bootstrap CSS 概览 在这一章中&a…

华为、阿里巴巴、字节跳动 100+ Python 面试问题总结(一)

系列文章目录 个人简介:机电专业在读研究生,CSDN内容合伙人,博主个人首页 Python面试专栏:《Python面试》此专栏面向准备面试的2024届毕业生。欢迎阅读,一起进步!🌟🌟🌟 …

逍遥自在学C语言 | 常见的预定义宏

前言 在C语言中,预定义宏是由编译器提供的一组特殊标识符,可以在程序中直接使用,无需进行额外的定义。 预定义宏可以提供有关源文件、行号、日期、时间和函数名等信息,对于调试和日志记录非常有用。 一、人物简介 第一位闪亮登…

打造自己的分布式MinIO对象存储

MinIO是一个对象存储解决方案,它提供了一个与Amazon Web Services S3兼容的API,并支持所有核心S3特性。MinIO旨在部署在任何地方——公共云或私有云、裸机基础架构、协调环境和边缘基础架构。 分布式MinIO如何工作 Server Pool由多个Minio服务节点与其附…

【机器学习】十大算法之一 “PCA”

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

nginxWebUI 远程命令执行漏洞

漏洞介绍 nginxWebUI是一款图形化管理nginx配置的工具,能通过网页快速配置nginx的各种功能,包括HTTP和TCP协议转发、反向代理、负载均衡、静态HTML服务器以及SSL证书的自动申请、续签和配置,配置完成后可以一键生成nginx.conf文件&#xff0c…

Linux--man指令

语法: man [选项] 命令 功能: 查询命令的详细信息,包括man命令本身 选项: -k 根据关键字搜索联机帮助num 只在第num章节找-a 将所有章节的都显示出来,比如 man printf 它缺省从第一章开始搜索,知道就停止…

数据结构期末复习【更新】

数据结构期末复习【更新】 1.模式匹配2.画二叉树(根据中序和后序,前序和中序)及其线索二叉树3.求叶子结点个数4.建立二叉排序树5.广义表6.求存储地址7.代码设计8.哈夫曼树9.最小生成树10.深度遍历、广度遍历、邻接表建立11.哈希表&#xff08…

开关电源-PFC驱动电路的工作原理

PFC驱动电路的工作原理 由于PFC的控制地和MOS管组成的双向开关的源极不共地,因此需要解决开关管浮地驱动问题。 图2 驱动电路图 电路图说明: PFCPWM是DSP的PWM信号;VCC_4V和AGND是DSP侧的电源和控制地;Vccp_14V和AGND_DRV是MO…

深度学习与机器学习区别

深度学习与机器学习区别 本文目录: 一、特征提取方面 1.1、机器学习 1.2、深度学习 1.3、机器学习特征提取 1.4、深度学习特征提取 1.5、深度学习特征提取例子 二、数据量和计算性能要求 三、算法代表 3.1、朴素贝叶斯算法 3.2、决策树 四、神经网络 一、…

FineReport学习2

当原始数据中存储的字段不适宜展现在报表上;或原始数据在数据查询时不易修改,但对显示在报表中的值有要求;或需要根据不同的原始数据在报表中显示不同的值时,就可以利用数据字典做巧妙的转化 设置数据字典 数据列的过滤&#xff…

软件工程——第5章总体设计知识点整理

本专栏是博主个人笔记,主要目的是利用碎片化的时间来记忆软工知识点,特此声明! 文章目录 1.总体设计的基本目的? 2.总体设计的任务? 3.总体设计过程由哪两个阶段组成? 4.总体设计的步骤? 5…