读DAMA数据管理知识体系指南34数据仓库和商务智能概念

news/2025/3/31 23:23:37/文章来源:https://www.cnblogs.com/lying7/p/18796120

1. 业务驱动因素

1.1. 主要驱动力是运营支持职能、合规需求和商务智能活动

1.2. 用数据来证明他们是合规的,因为数据仓库中包含历史数据,所以经常被用来响应这类要求

1.3. 商务智能支持一直是建设数据仓库的主要原因

2. 目标

2.1. 支持商务智能活动

2.2. 赋能商业分析和高效决策

2.3. 基于数据洞察寻找创新方法

3. 指导原则

3.1. 聚焦业务目标

  • 3.1.1. 确保数据仓库用于组织最优先级的业务并解决业务问题

3.2. 以终为始

  • 3.2.1. 让业务优先级和最终交付的数据范围驱动数据仓库内容的创建

3.3. 全局性的思考和设计,局部性的行动和建设

  • 3.3.1. 让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交付,从而实现更直接的投资回报

3.4. 总结并持续优化,而不是一开始就这样做

  • 3.4.1. 以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据

3.5. 提升透明度和自助服务

  • 3.5.1. 上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值

  • 3.5.2. 向利益相关方公开集成的数据及其流程信息

3.6. 与数据仓库一起建立元数据

  • 3.6.1. 数据仓库成功的关键是能够准确解释数据

3.7. 协同

  • 3.7.1. 与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动

3.8. 不要千篇一律

  • 3.8.1. 为每种数据消费者提供正确的工具和产品

4. 商务智能

4.1. 商务智能为组织、客户及产品提供洞察

4.2. 第一层含义,商务智能指的是一种理解组织诉求和寻找机会的数据分析活动

  • 4.2.1. 数据分析的结果用来提高组织决策的成功率

4.3. 第二层含义,商务智能指的是支持这类数据分析活动的技术集合

5. 数据仓库

5.1. Data Warehouse, DW

  • 5.1.1. 概念始于20世纪80年代

  • 5.1.2. 真正实施数据仓库的建设,要到20世纪90年代

5.2. 将不同来源的数据整合到公共的数据模型中去,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性

5.3. 减少企业建设大量决策支持系统(Decision Support System, DSS)的一种手段,大部分DSS系统使用的都是企业中同样的核心数据

5.4. 提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法

5.5. 数据仓库被公认为企业数据管理的核心

5.6. 一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序

5.7. 数据集市是数据仓库中数据子集的副本

5.8. 企业级数据仓库(EDW)是集中化的数据仓库,为整个组织的商务智能需求服务

6. 数据仓库建设

6.1. 数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程

6.2. 非结构化数据指的是无法通过数据模型预定义的数据

7. 数据仓库建设的核心理念

7.1. 数据仓库存储的数据来自其他系统

7.2. 存储行为包括以提升数据价值的方式整合数据

7.3. 数据仓库便于数据被访问和分析使用

7.4. 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据

7.5. 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析

8. 企业信息工厂

8.1. Inmon

  • 8.1.1. Inmon关于数据仓库的组成是这样描述的:​“面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合”​

8.2. 面向主题的

  • 8.2.1. 数据仓库是基于主要业务实体组织的,而不关注功能或应用

8.3. 整合的

  • 8.3.1. 数据仓库中的数据是统一的、内聚的

8.4. 随时间变化的

  • 8.4.1. 数据仓库存储的是某个时间段的数

8.5. 稳定的

  • 8.5.1. 在数据仓库中,数据记录不会像在业务系统里那样频繁更新

8.6. 聚合数据和明细数据

8.7. 历史的

  • 8.7.1. 业务系统的重心是当前的数据

8.8. CIF的组成部分

  • 8.8.1. 应用程序

    • 8.8.1.1. 应用程序处理业务流程

    • 8.8.1.2. 应用程序产生的明细数据流转到数据仓库和操作型数据存储中,继而用作分析

  • 8.8.2. 数据暂存区

    • 8.8.2.1. 介于业务系统源数据库和目标数据仓库之间的一个数据库
  • 8.8.3. 集成和转换

    • 8.8.3.1. 在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型
  • 8.8.4. 操作型数据存储(ODS)

    • 8.8.4.1. 操作型数据存储是业务数据的集成数据库
  • 8.8.5. 数据集市

    • 8.8.5.1. 数据集市为后续的数据分析提供数据
  • 8.8.6. 操作型数据集市(OpDM)

    • 8.8.6.1. 操作型数据集市是专注于运营决策支持的数据集市
  • 8.8.7. 数据仓库

    • 8.8.7.1. 数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划
  • 8.8.8. 运营报告

    • 8.8.8.1. 运营报告从数据存储中输出
  • 8.8.9. 参考数据、主数据和外部数据

    • 8.8.9.1. 除了来自应用程序的交易数据,企业信息工厂还包括理解交易所需的数据,如参考数据和主数据

8.9. 数据仓库和数据集市的数据与应用程序中的数据不同

  • 8.9.1. 数据的组织形式是按主题域而不是按功能需

  • 8.9.2. 数据是整合的数据,而不是“孤立”的烟囱数据

  • 8.9.3. 数据是随时间变化的系列数据,而非仅当前时间的值

  • 8.9.4. 数据在数据仓库中的延迟比在应用程序中高

  • 8.9.5. 数据仓库中提供的历史数据比应用程序中提供的历史数据多

9. 多维数据仓库

9.1. Kimball

  • 9.1.1. Kimball的多维数据仓库是数据仓库开发的另一个主要模式

  • 9.1.2. Kimball将数据仓库简单地定义为“专为查询和分析而构建的事务数据的副本”

9.2. 多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品X卖了多少)组成

9.3. 数据仓库的总线矩阵展示的是生成事实数据的业务流程和表示维度的数据主题域的交汇

9.4. 业务源系统

  • 9.4.1. 企业中的操作型/交易型应用程序

  • 9.4.2. 这些应用程序产生数据,数据再被集成到操作型数据存储和数据仓库中

9.5. 数据暂存区域

  • 9.5.1. Kimball的暂存区域包括需要集成的流程和用于展示的转换数据,可以与企业信息工厂的集成、转换和数据仓库组件的组合进行类比

9.6. 数据展示区域

  • 9.6.1. 与企业信息工厂中的数据集市类似,关键的架构差异在于“数据仓库总线”的集成范式,如应用于若干个数据集市的共享或一致的维度

9.7. 数据访问工具

  • 9.7.1. Kimball方法侧重于最终用户的数据需求

  • 9.7.2. 需求推动采用适当的数据访问工具

10. 数据仓库架构组件

10.1. 数据仓库环境包括一系列组织起来以满足企业需求的架构组件

10.2. 源系统

10.3. 数据集成

  • 10.3.1. 数据集成包括抽取、转换和加载(此三者英文首字母缩写为E、T、L,通常直接这把三者称为ETL)​、数据虚拟化以及将数据转换为通用格式和位置的其他技术

10.4. 数据存储区域

  • 10.4.1. 暂存区

    • 10.4.1.1. 暂存区是介于原始数据源和集中式数据存储库之间的中间数据存储区域
  • 10.4.2. 参考数据和主数据一致性维度

    • 10.4.2.1. 参考数据和主数据可以存储在单独的存储库中
  • 10.4.3. 中央数据仓库

    • 10.4.3.1. 完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中
  • 10.4.4. 数据结构的设计元素

    • 10.4.4.1. 基于性能考虑而设计的业务主键和代理主键之间的关系

    • 10.4.4.2. 创建索引和外键以支持维度表

    • 10.4.4.3. 用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture, CDC)技术

10.5. 操作型数据存储(ODS)

  • 10.5.1. 操作型数据存储是中央持久存储的一个解决方案,它能支持较低的延迟,因此可以支持业务应用

10.6. 数据集市

  • 10.6.1. 数据集市是一种数据存储,通常用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析

  • 10.6.2. 数据集市面向特定主题域、单个部门或单个业务流程

10.7. 数据立方体(Cubes)

  • 10.7.1. 存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合型存储结构的,它们的名称与底层数据库类型有关

11. 加载处理的方式

11.1. 涉及两种主要的数据集成处理类型

  • 11.1.1. 历史数据加载

    • 11.1.1.1. 历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载
  • 11.1.2. 持续不断的数据更新

    • 11.1.2.1. 需要始终如一地规划和执行,以保证数据仓库中包含最新的数据

11.2. 历史数据

  • 11.2.1. 数据仓库的一个优势是它可以捕获所存储数据的详细历史记录

  • 11.2.2. Data Vault,作为数据暂存处理的一部分,同样进行数据清洗和标准化

11.3. 批量变更数据捕获

  • 11.3.1. 数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务

  • 11.3.2. 因为不同源系统可能需要不同的变更捕获技术,所以加载过程可以包含各种变更检测

  • 11.3.3. 数据库日志技术可能是内部开发应用程序的候选技术,因为购买的供应商应用程序不太可能容忍使用触发器或额外开销进行修改

  • 11.3.4. 时间戳或日志表加载是最常见的技术方式

11.4. 准实时和实时数据加载

  • 11.4.1. 操作型商务智能(或运营分析)的出现推动了更低延迟的需求,将更多实时的或准实时的数据集成到数据仓库中,新的架构方法随之出现,用于处理易变化的数据

  • 11.4.2. 涓流式加载(源端累积)

    • 11.4.2.1. 与夜间窗口批量加载不同,涓流式加载是以更频繁的节奏(如每小时甚至每5分钟)或者以阈值的方式(如每300个事务,每1G数据)进行批量加载
  • 11.4.3. 消息传送(总线累积)

    • 11.4.3.1. 当极小的数据报(消息、事件或事务)发布到消息总线时,实时或接近实时的消息交互就非常有用
  • 11.4.4. 流式传送(目标端累积)​

    • 11.4.4.1. 与在源端定时或按阀值加载不同,目标端系统用缓冲区或队列方式收集数据,并按顺序处理

    • 11.4.4.2. 交互或聚合的结果可能作为数据仓库的额外反馈稍后显示出来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/907452.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

环境检测 温湿度 噪声 建大仁科

环境检测 温湿度 噪声 建大仁科 1、温湿度 wifi版本 配置软件2、噪声 wifi 版本 配置软件 android手机上安装 蓝牙连接配置3、平台下载 RS-RJ-K监控平台-平台软件-温湿度传感器产品说明书下载及选型erwa.cn 二娃测试备忘

C# 13 中的新增功能实操

前言 今天大姚带领大家一起来看看 C# 13 中的新增几大功能,并了解其功能特性和实际应用场景。 前提准备 要体验 C# 13 新增的功能可以使用最新的 Visual Studio 2022 版本或 .NET 9 SDK 尝试这些功能。 Visual Studio 2022安装https://visualstudio.microsoft.com/zh-hans/dow…

Open R1 项目进展第一期

DeepSeek R1 发布已经两周了,而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。这篇文章简单聊聊:Open-R1 在模仿 DeepSeek-R1 流程和数据方面的进展 我们对 DeepSeek-R1 的认识和相关讨论 DeepSeek-R1 发布后社区搞出来的有趣项目这既是项目…

GPU内核实现(下)

3. ELLPACK 内核 ELLPACK SpMV实现沿行并行计算。由于数据已被重新排序为以列为主存储,因此沿ELLPACK数据连续行的内存访问被合并。在下面显示的实现中,假设输入cols和vals数组已经转换为ELLPACK格式。这种格式的一个关键部分是元数据参数,即每行非零的最大数量,它也作为参…

GPU内核实现(上)

GPU内核实现 以下是基于CSR和ELLPACK格式的一些标准SpMV实现。 1. 标量CSR内核 GPU加速SpMV的最简单实现之一是标量内核方法。标量内核分配一个线程来处理SpMV中的每个稀疏点积。稀疏点积由每个线程以顺序方式处理,从而消除了对需要共享内存和/或扭曲级别降低的更高级技术的需…

稀疏矩阵向量乘法介绍

稀疏矩阵向量乘法介绍 稀疏矩阵向量乘法(SpMV)是每个隐式稀疏线性代数求解器。从简单的 Krylov 算法到 multigrid 的算法性能方法在很大程度上取决于 SpMV 实现的速度。因为 SpMV 具有非常低的算术强度,定义为浮点操作数,则实现速度受内存带宽。最大化内存带宽的实现将实现…

推荐关注《AI芯片开发核心技术详解》(1)、《智能汽车传感器:原理设计应用》(2)、《TVM编译器原理与实践》(3)、《LLVM编译器原理与实践》(4)

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

Ollama+OneAPI+Open WebUI 搭建本地大模型

✅Ollama 安装 ✅极简安装 curl -fsSL https://ollama.com/install.sh | sh✅Docker 安装 ❗前提是已安装NVIDIA Container Toolkit # 拉取镜像 docker pull ollama/ollama# 启动容器 docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/o…

洛谷 P1216 [IOI 1994] 数字三角形 Number Triangles (记忆化搜索)

记忆化搜索思路:经典的DP题,看题解大佬个个是状态转移方程...我就写个记忆化搜索吧,这个数据量,只dfs暴搜是过不去的,写完记忆化之后发现有个测试点T了,下载了一波测试点数据,发现全是0,那么初始化dp数组为-1就好了。AcCode: #include<bits/stdc++.h> using nam…

【软件】在Windows和Ubuntu上使用TFTP和NFS

在Windows和Ubuntu上使用TFTP和NFS 零、介绍 最近在玩Linux开发板,在开发的过程中发现需要用到tftp和nfs来帮助传输文件,故此记录如何使用这两种软件。 TFTP(Trivial File Transfer Protocol) :是一种简化的文件传输协议,设计用于在客户端和服务器之间快速传输文件。轻量…

FastAPI Pydantic动态调整Schema

title: FastAPI Pydantic动态调整Schema date: 2025/3/29 updated: 2025/3/29 author: cmdragon excerpt: Pydantic动态Schema支持运行时字段调整和环境变量控制,实现毫秒级配置生效。通过字段级动态注入和条件必填验证,灵活适应业务需求。多租户系统采用条件字段过滤实现数…

【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(4)

比赛链接 本文发布于博客园,会跟随补题进度实时更新,若您在其他平台阅读到此文,请前往博客园获取更好的阅读体验。 跳转链接:https://www.cnblogs.com/TianTianChaoFangDe/p/18799072 开题 + 补题情况 和前三场比起来前期的签到题发挥稳定了许多,没有被卡很久,不过 1001 …