第十一章数据仓库和商务智能10分

【数据仓库-后端,商务智能-前端】
基本算法:关联关系(牵手-谈恋爱),集群关系(杭州人爱吃酸甜口),决策树,线性回归,贝叶斯,神经网络,时间序列
用法:精准营销,客户价值分析,旅客生命周期价值分析,风险,聚类和集群,实施需求和匹配,社会地位参数,
忠诚度和客户粘度,时间序列。

11.1 引言

数据仓库(Data Warehouse,DW),商务智能(Business Inteligence,BI)

11.1.2 目标和原则【非常重要】

一个组织建设数据仓库的目标通常有:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。

数据仓库建设应遵循如下指导原则:
1)聚焦业务目标
确保数据仓库用于组织最优先级的业务并解决业务问题。
2)以终为始。
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
3)全局性的思考和设计,局部性的行动和建设。
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交
付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不
替换细节数据。
5)提升透明度和自助服务。
上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向
利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。
数据仓库成功的关键是能够准确解释数据。能回答一些基本问题,如“这个数字为
什么是 X”“这个怎么计算出来的”“这个数据哪里来的”。元数据的获取应该作为软件开发周期的一部分,元数据的管
理也应该作为数据仓库持续运营的一部分。
7)协同。
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。
为每种数据消费者提供正确的工具和产品。

11.1.3 基本概念

1.商务智能商务智能两层含义。

第一层含义,商务智能指的是一种理解组织诉求和寻找机会的 数据分析活动 。数据分析的结果用来提高组织决策的成功率。当人们说数据是竞争优势的关键要素时,他们其实是在说商务智能的内在逻辑:如果一个组织向自己的数据“正确提问”,他就能获得关于产品、服务及客户方面的洞见,为实现自己的战略目标做出更好的决策。
第二层含义,商务智能指的是支持这类数据分析活动的 技术集合。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。

2.数据仓库

数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。

4.数据仓库建设的方法【一定会考】

大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball 的影响,他们各有不同的数据仓库建模和实施方法。Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而 Kimball 则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型(参见第 5 章)。虽然 Inmon 和 Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1)数据仓库存储的数据来自其他系统。
2)存储行为包括以提升数据价值的方式整合数据。
3)数据仓库便于数据被访问和分析使用。
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。

【OLTP 尽量少用索引】

【数仓侧重点是 BI,但也可以做 AI,数据湖侧重 AI】
【数仓是ETL,数据湖是ELT】
【数仓是结构化数据,数据湖即可结构化也可非结构化数据】
【进入数仓数据是知道业务场景的,进入数据湖的数据业务场景不明确】
【数仓对已经发生的事情的一个总结和展现,数据湖对未来的一个预测和数据的挖掘】

Q:数仓目标是 BI
A:错,数仓侧重点是 BI。
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数
据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。
Q:数据集市是必须要的产品嘛?
A:错,数据集市是数仓的一小部分,
Q:主数据是必须要的嘛?
A:错,数据源、ETL、核心数据仓库是必须要的。

7.数据仓库架构组件

(1)源系统
(2)数据集成
(3)中央数据仓库

数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系。
②创建索引和外键以支持维度表。
③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。

8.加载处理的方式

数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。
在这里插入图片描述

Q:有几种方法识别增量?
A4 种:时间戳增量加载、日志表增量加载、数据库交易日志、消息增量。
Q:处理数据量最大的方法
A:全量加载。

11.2活动

11.2.3 开发数据仓库和数据集市

通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
2)技术
3)商务智能工具

11.3 工具

11.3.3 商务智能工具的类型

常见的 OLAP 操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
1)切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
5)透视(Pivot)。透视图会更改报表或页面的展示维度。

三种经典的 OLAP 实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP 通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。
星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP 通过使用专门的多维数据库技术支持 OLAP。
3)混合型联机分析处理(HOLAP)。它是 ROLAP 和 MOLAP 的结合。HOLAP 实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

11.4 方法

驱动需求的原型,自助式商务智能,可查询的审计数据。

11.6 数据仓库/商务智能治理

11.6.5 度量指标(3 个)

3 个度量指标:使用指标、主题域覆盖率、响应时间和性能指标。

1.使用指标

数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。这些度量指标表示组织内有多少人正在使用数据仓库。为每个工具授权多少个用户账户是一个很好的开始,特别是对于审计员而言。但是,实际有多少用户连接到该工具是一个更好的度量指标,并且每个时间段由用户社区申请的查询(或与查询相当)数量对于容量规划是更好的技术指标。允许多个分析指标,如审核用户、已生成的用户查询量和使用用户。

2.主题域覆盖率

主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。
将操作源映射到目标是另一种自然的扩展,它强制和验证已经收集的血缘关系和元数据,并可以提供渗透分析,确定哪些部门在使用哪些源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

3.响应时间和性能指标

大多数查询工具会测量响应时间。通过工具检索响应或性能指标。此数据指标代表用户的数量和类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/623919.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3(二):报错调试,vue3响应式原理、computed和watch,ref,props,接口

一、准备工作调试 跟着张天禹老师看前几集的时候可能会遇到如下问题: 1.下载插件:Vue Language Features (Volar)或者直接下载vue-offical 2.npm run serve时运行时出现错误:Error: vitejs/plugin-vue requires vue (>3.2.13) …

【DA-CLIP】图像退化类型检测功能演示代码

背景 在CLIP基础上微调而来,使用图像控制器编码生成退化类型embedding并在训练中对图像编码器进行控制。针对十种退化类型进行了训练。 解决CLIP模型在图像纹理等层面无法针对退化类型识别或识别率较低的问题。 训练数据集情况 GitHub有对应数据集连接 完整代码 项…

零基础小白如何才能学好网络安全?(附:学习路线图及学习资料)

经常有小伙伴在后台留言,问如何才能学好网络安全。比如有小伙伴说,听人说可以先学网页基础,但是自己学了html、CSS,感觉跟网络安全挨不着边,不知道如何入手学习。 其实,网络安全没有大家想的那么神秘&#…

Jenkins上面使用pnpm打包

问题 前端也想用Jenkins的CI/CD工作流。 步骤 Jenkins安装NodeJS插件 安装完成,记得重启Jenkins。 全局配置nodejs Jenksinfile pipeline {agent anytools {nodejs "18.15.0"}stages {stage(Check tool version) {steps {sh node -vnpm -vnpm config…

华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理工具

文章目录 华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理工具1. 介绍2. 下载3. 静音模式、平衡模式、增强模式配置4. 配置电源方案与模式切换绑定5. 启动Ghelper控制面板6. 目前支持的设备型号 华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理…

软件架构动态演化

动态演化是在系统运行期间的演化,需要在不停止系统功能的情况下完成演化,较之静态演化更加困难。 1.动态演化的需求 架构的动态演化主要来自两类需求:①软件内部执行所导致的体系结构改变,例如,许多服务器端软件会在客…

目标检测——YOLO系列学习(一)YOLOv1

YOLO可以说是单阶段的目标检测方法的集大成之作,必学的经典论文,从准备面试的角度来学习一下yolo系列。 YOLOv1 1.RCNN系列回顾 RCNN系列,无论哪种算法,核心思路都是Region Proposal(定位) classifier&am…

【数据结构】遍历二叉树(递归和非递归遍历的先序、中序和后序遍历、层次遍历法)

目录 【数据结构】遍历二叉树(递归和非递归遍历的先序、中序和后序遍历、层次遍历法)一、递归算法先(根)序的遍历算法中(根)序的遍历算法后(根)序的遍历算法 二、非递归算法层次遍历…

【vue】Pinia-2 安装Pinia,使用store

1. 安装Pinia 在项目路径下执行npm install pinia 在package.json中查看 2. 使用store 在main.js中添加 import { createPinia } from pinia const pinia createPinia()修改createApp方法 最后示例如下(三处修改) import { createApp } from vue //…

JRT多服务器同步程序

之前的JRT只部署在一个服务器,实际运用可能会有数台、数十台、或者更多服务器。那么多台服务器就需要程序同步机制。这里借助Rsync同步,但是有个问题是Rsync同步jar之后他不知道是否需要重启站点,为此实现java控制台驱动Rsync,重定…

车载摄像头畸变校正解决方案,打造无畸变高清视界

在车载摄像头日益普及的今天,摄像头图像的畸变问题成为了制约图像质量提升的一大瓶颈。畸变不仅影响画面的美观度,更关键的是它可能导致智能驾驶系统对环境的误判,进而威胁到行车安全。美摄科技凭借其在图像处理领域的深厚实力,推…

cpcie和cpci差别

CPCI总线 •PCI总线作为处理器系统的局部总线,主要目的是为了连接外部设备,而不是作为处理器的系统总线连接Cache和主存储器 •(1) PCI总线空间与处理器空间隔离 •(2) 可扩展性 桥 •(3) 动态配置机制即插即用 •(4) 总线带宽 •(5) 共享总线机制 •…