数据仓库的基本概念、基本特征、体系结构

个人看书学习心得及日常复习思考记录,个人随笔。

数据仓库的基本概念、基本特征

数据仓库的定义:数据仓库是一个面向主题的集成的不可更新的随时间不断变化的数据集合,用以更好地支持企业或组织的决策分析处理。

数据仓库中数据的4个基本特征:

  • 数据仓库中的数据是面向主题的
  • 数据仓库中的数据是集成的
  • 数据仓库中的数据是不可更新的
  • 数据仓库中的数据是随时间不断变化的

如前所述,数据仓库产生的原因 ,传统数据库系统主要面向以操作型处理为主的联机事务处理应用,无法满足决策时的分析型处理要求。

主题、主题域、面向主题

主题:抽象概念,在较高层次上将企业信息系统中数据进行综合、归类分析利用的抽象每一个主题基本对应一个宏观分析领域,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。对应某一分析领域的分析对象。

主题是对应某一分析领域的分析对象,所以主题的抽取应由分析的要求而定。概括各种分析领域的分析对象,可综合得到其他主题。每个主题有着各自独立的逻辑内涵,对应一个分析对象。

主题域:通常为关联关系较为紧密的数据主题的集合。以业务需求为导向,将这些数据主题划分到不同的主题域。主题域的确定必须以业务需求为导向并且以数据为驱动共同完成。

面向主题的数据组织方式是基于分析要求将数据组织成一个完备的分析领域(主题域),主题域应具备:

  • 独立性,该主题域可以与其他主题域存在交叉部分,但其必须具备独立内涵,即要求有明确的界限。
  • 完备性,对某一主题的分析处理要求,应能在该主题内找到该分析处理所要求的一切内容,如果对该主题分析处理要求涉及现存主题以外的数据,则应将这些数据增加到该主题中,逐步完善该主题。

主题是一个逻辑上的概念,在实现时如果其数据项过多,则可采用各种划分策略来将其划分。

举例说明:

注意:从数据角度的前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观。

主题域、主题、实体间关系:
在这里插入图片描述

面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。

面向主题的数据组织分为两步:抽取主题、确定每个主题所应包含的数据内容。

“传统的面向应用的数据组织方式” 与 “面向主题的数据组织方式” 区别

传统的面向应用的数据组织方式:将数据按照应用的需求进行划分和组织。每个应用都有自己独立的数据存储和管理系统,数据之间存在较强的耦合性。这种方式下,数据被分散存储在不同的数据库中,不同应用之间的数据共享和交互较为困难。例如,一个企业可能有多个应用系统,如人力资源管理系统、财务管理系统和客户关系管理系统,每个系统都有自己的数据库和数据模型。

面向主题的数据组织方式:将数据按照主题进行组织和集中管理。主题可以是企业的业务领域、业务过程或者业务对象等。这种方式下,数据被集中存储在一个或者少数几个数据库中,不同应用可以共享和访问这些数据。主题导向的数据组织方式可以提高数据的一致性、准确性和可用性,同时也方便了数据的分析和挖掘。例如,一个企业可以建立一个统一的数据仓库,将各个应用系统的数据集成到其中,供企业内部的各个部门使用。

数据仓库中的数据是集成的

数据仓库中的数据是按照主题组织的,主题所涉及的数据往往分散于多个操作型数据库中,或是保存在数据文件中等,因此数据仓库中的数据是从其他数据源中抽取得到的(颗粒归仓)。由于很多数据分散于不同的数据源中,会有重复甚至是不一致的地方(数据不一致问题),因此数据在进入数据仓库前,首先要进行清洗、转换并加以整合,要统一原始数据中所有矛盾之处,如:字段的同名异义、异名同义、单位不统一、字长不一致等,原始数据结构从面向应用转变为面向主题,再进行数据综合和计算

  • 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  • 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

数据仓库中的数据是不可更新的

操作型数据库中的数据通常是根据业务的变化不断更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作

数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。

只有当数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。数据仓库中一般有大量的查询操作,但修改和删除操作较少,通常只需要定期加载和刷新

数据仓库的特点使得数据仓库管理系统(DWMS)可比数据库管理系统(DBMS)简单一些,因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。在数据仓库中,数据库管理系统中与事务相关的并发控制、完整性检查控制可简化甚至可省去。例如:不再需要元组一级的封锁机制,可省去大量的加封解锁操作。但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。

数据仓库中的数据是随时间不断变化的

前述数据仓库中的数据不可更新是针对具体的数据应用而言,数据仓库用户在进行数据分析时一般不进行数据更新操作从数据集成加载进数据仓库到最终被删除的整个数据生存周期中,数据仓库中所有的数据并不是永远不变的
具体表现三个方面:

  • 数据仓库随时间变化不断增加新的数据。数据仓库系统必须不断捕捉联机事务处理数据库(OLTP)中变化的数据,追加到数据仓库中去,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中去。
  • 数据仓库会将不需要的数据转存到其他存储设备(一般会基于数据生命周期以及数据冷热冰分级)。数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就要被退役或归档。只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。在操作型环境中一般只保存有60-90天的数据,而在数据仓库中则需要保存较长时限的数据(如5~10年),以适应决策支持系统(DSS)进行趋势分析的要求。
  • 数据仓库中包含有大量的综合数据,这些数据要随着时间的变化不断地进行重新综合。如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。
    因此,数据仓库中数据的主码一般都包含时间项,以标明数据的历史时期

数据仓库数据的 4个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的
数据集成在一起并保持其语义一致,从而为企业决策提供支持
。数据仓库是一组与分析目标有关的数据集合,这些数据是从现有数据库及外部数据源集成得到的。

数据仓库的发展经历

简单报表阶段该阶段表现形式大部分为数据库和前端报表工具,系统主要目标是解决一些常态化工作中业务报表,以及针对决策分析所需数据汇总并生成简易化报表等。
数据集市阶段该阶段以业务需求为导向进行数据采集、整理,并以多维报表的形式展现支撑分析决策数据
数据仓库阶段:该阶段主要是按照一定的数据模型进行采集、整理,并且能够按照各业务部门需求,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为分析决策提供全面的数据支持

数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此,数据模型的建设,对于我们数据仓库的建设,有着决定性的意义。

数据仓库的体系结构

数据仓库系统由数据源、集成工具、数据仓库与数据仓库服务器、联机分析处理(OLAP)服务器、元数据管理工具与元数据、数据集市、前端分析工具等组成。
在这里插入图片描述

数据源:数据仓库系统基础及源泉,主要包括企业内部数据和外部数据,通常存放于操作型数据库(关系型数据库管理系统)

集成工具:主要包括数据抽取(extracting)、清洗(cleaning)、转换(transformation)、加载(load)、维护工具,简称为ETL工具,完成数据集成工作

  • 数据抽取:指从数据源中选择数据仓库所需数据。针对不同平台、不同结构、不同类型的数据库,设计抽取。
  • 数据清洗:对抽取得到的数据进行清洗,保证其数据质量,以便保证其数据一致性(同名异义、异名同义),统一计量单位、估算默认值等等。
  • 数据转换:将清洗后的数据按照数据仓库的主题组织。
  • 数据加载:将数据装载至数据仓库。

一般而言,ETL工具还负责建立元数据。元数据主要说明数据仓库中数据的来源、加工过程等(自动化)。

数据仓库服务器:负责管理数据仓库中的数据,存储企业级的数据,为整个企业的数据分析提供一个完整、统一的视图。一般由关系型数据库管理系统扩展而成。

OLAP服务器:对分析需要的数据按多维数据模型进行再次重组,以支持用户多角度、多层次的数据分析。其主要实现结构:

  • ROLAP结构:该结构采用关系数据库管理系统或扩展的关系型数据库管理系统来存储和管理数据,用OLAP服务器提供聚集计算、查询优化等功能。各种粒度等数据均以关系表的形式存储在数据库。
  • MOLAP结构:该结构采用多维数组来存储数据。多维数组存储可对数据直接定位、计算速度快、无需索引,但在数据稀疏情况下需要进行数据压缩,以减少存储空间。
  • HOLAP结构:该结构将ROLAP结构和MOLAP结构结合,不仅具备ROLAP结构的可扩展性,而且还具备MOLAP结构计算速度快。
  • 特殊SQL服务器:为了满足联机分析处理需求,一些关系型数据库或数据仓库厂家在原来系统基础上扩展,只读环境下星形模型或雪片模型基础上进行SQL查询提供支持。

前端分析工具:主要包括各种数据分析工具,如查询报表工具、OLAP工具、数据挖掘工具等。
其中OLAP工具主要针对OLAP服务器进行数据分析,而查询报表工具和数据挖掘工具可在数据仓库和OLAP服务器上进行分析。各种数据分析工具除了可从数据仓库中获取数据,还可以从数据集市中获取数据

元数据管理对于数据仓库的可持续发展是必不可少的。

综上所述,在数据仓库系统中,数据从数据源到最终分析结构呈现给用户,其过程:

  1. 抽取适当的源数据。数据仓库不是简单的生产系统业务数据堆积(不是数据垃圾堆),只能选取对现在和将来决策分析有用的业务数据进行抽取。
  2. 数据加工过程。转换、清洗等过程,数据仓库中的数据是面向分析和决策的,按照主题进行组织,必须将业务数据进行重组,数据仓库中主题的数据模式往往与业务系统中的数据模式存在差异。
  3. 建立海量、高效的企业级数据仓库。企业级数据仓库必须建立于海量数据基础之上,服务于大量并发用户,并且满足数据处理速度、查询速度快的要求。
  4. 基于特定的分析主题,建立专门的数据集市。仅依靠数据仓库进行分析,其速度不一定能满足需求,为了支撑某些常用分析的速度快,有必要为这些分析问题分别单独做数据重组和优化,建立数据集市以加快分析速度。
  5. 前端展现应用。最终用户界面必须简易化且功能强大,具备权限控制且易于维护。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/536532.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(黑马出品_高级篇_02)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

(黑马出品_高级篇_02)SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术——分布式事务 今日目标1.分布式事务问题1.1.本地事务1.2.分布式事务1.3.演示分布式事务问题 2.理论基础2.1.CAP定理2.1.1.一致性2.1.2.可用性2…

力扣由浅至深 每日一题.05 合并两个有序列表

神明渡我,我将所有苦难都放过 —— 24.3.13 21. 合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,…

K8s-CRD实战

CRD CRD的全称是CustomResourceDefinition,是Kubernetes为提高可扩展性, 让开发者去自定义资源(如Deployment,StatefulSet等)的一种方法. Controller controller是由controller-manager进行管理,通过API Server提供的接口实时监…

WWW2024 | PromptMM:Prompt-Tuning增强的知识蒸馏助力多模态推荐系统

论文:https://arxiv.org/html/2402.17188v1 代码:https://github.com/HKUDS/PromptMM 研究动机 多模态推荐系统极大的便利了人们的生活,比如亚马逊和Netflix都是基于多模态内容进行推荐的。对于研究,人们也遵循工业界的趋势,进行modality-aware的用户…

GUROBI之数学启发式算法Matheuristics

参考运小筹的帖子:优化求解器 | Gurobi 数学启发式算法:参数类型与案例实现 - 知乎 (zhihu.com) 简言之,数学启发式是算法就是数学规划和启发式算法的融合,与元启发式算法相比,数学启发式算法具有更强的理论性。 在GUR…

手写超级好用的rabbitmq-spring-boot-start启动器

手写超级好用的rabbitmq-spring-boot-start启动器 文章目录 1.前言2.工程目录结构3.主要实现原理3.1spring.factories配置3.2EnableZlfRabbitMq配置3.3RabbitAutoConfiguration配置3.4ZlfRabbitMqRegistrar配置 4.总结 1.前言 由于springBoot官方提供的默认的rabbitMq自动装配不…

计算机网络-第6章 应用层(2)

6.5 电子邮件 电子邮件,把邮件发送到收件人使用的邮件服务器,并放在其中的收件人邮箱中。最重要的两个标准:简单邮件传送协议SMTP,互联网文本报文格式。 SMTP只能传7位ASCII码邮件,93年提出互联网邮件扩充MIME。邮件…

【关注】国内外经典大模型(ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、文心一言、千问等

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

【unity资源加载与优化章】Profiler优化工具详解

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

三星泄露微软 Copilot 新功能:用自然语言操控各种功能

3 月 11 日消息,微软计划本月晚些时候发布新款 Surface 电脑和适用于 Windows 11 的 Copilot 新功能,但三星似乎等不及了,在其即将推出的 Galaxy Book4 系列产品宣传材料中泄露了一些即将到来的 Copilot 功能。 三星官网上发布的图片证实了此…

ubuntu20.04上获取Livox Avia雷达点云数据

若拿到手的Livox Avia激光雷达不知道它的ip信息,可以在官网上LiDAR Sensors - Livox下载上位机软件Livox Viewer,查看IP,下载window版本就可以。雷达通过网线连上电脑后,该软件就可以自动识别出来。按照下图步骤,就可以…

学习vue3第五节(reactive 及其相关)

1、定义 reactive() 创建一个响应式代理对象,不同于ref()可以创建任意类型的数据,而reactive()只能是对象,会响应式的深层次解包任何属性,将其标注为响应式 响应式是基于ES6的proxy实现的代理对象,该proxy对象与原对象…