读数据湖仓05数据需要的层次

news/2024/12/22 10:12:09/文章来源:https://www.cnblogs.com/lying7/p/18441997

1. 业务价值

1.1. 技术和商业在这个世界上是相互交织的

  • 1.1.1. 基础数据在商业和技术应用中是不可或缺的

1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持

  • 1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣

  • 1.2.2. 当技术发展偏离这个基本模式时,它就会失去生机甚至消亡

  • 1.2.3. 在任何情况下,商业都将决定技术的最终满意度和价值,商业是推动技术发展的关键

1.3. 赚钱对于企业的长期延续至关重要,它是成功的关键,现金流则是商业活动的生命线

1.4. 从长远来看,所有成功的技术都在某种程度上专注于实现业务目标

  • 1.4.1. 建立和维护基础数据是技术支持业务的最佳方式,可以根据数据基础来做出合理的业务决策

  • 1.4.2. 为基础数据打造坚实的基础设施是一项复杂的任务

  • 1.4.3. 创建基础数据为实现这些目标奠定了基础

  • 1.4.4. 当我们在复杂的技术丛林中挣扎时,很容易忘记最终的目标是实现业务价值

1.5. 技术所有的组成部分必须协同工作

1.6. 协调不同的技术组成部分并非易事

  • 1.6.1. 技术基础由多个技术组成部分组合而成

  • 1.6.2. 每个技术组成部分都与其他部分大不相同

  • 1.6.3. 不同的技术组成部分需要排序才能协同工作

  • 1.6.4. 不同的技术组成部分排序所需的时间框架大不相同

  • 1.6.5. 不同的技术组成部分以不同的速率工作

1.7. 领域

  • 1.7.1. 随着技术逐渐脱离领域,单个组成部分会开始考虑构建自己独特的技术,但也会忽视对业务价值的关注

  • 1.7.2. 技术的组成部分甚至无法与业务流程关联,而是将所有的焦点都集中在技术的复杂性上,并非业务需求上

  • 1.7.3. 随着技术逐渐开始建立自己的领域,支持组织业务的愿景也在逐渐丧失

1.8. 每个技术的组成部分都需要聚焦于构建和辅助业务最核心的基础数据

  • 1.8.1. 只有这样做,才能确保组织的技术能够真正致力于支持组织的业务

2. 数据需要的层次

2.1. 类比马斯洛需要层次论

  • 2.1.1. 需要层次论金字塔底部的两个层次是生存所必需的

2.2. 数据需要层次结构的5个层次,从下向上依次为数据获取,数据传输与存储,数据转换,数据标签、整合与汇聚,数据分析与机器学习

2.3. 具体步骤

  • 2.3.1. 只收集真正需要使用的数据

  • 2.3.2. 数据是可信的,也是可理解的

  • 2.3.3. 需要将数据存储在既方便访问又安全的地方

  • 2.3.4. 把数据转换成员工和应用程序可以使用的格式

  • 2.3.5. 将存储和转换后的数据进行整合,以便从不同系统中获取更全面的数据视图

  • 2.3.6. 将数据与适当的元数据汇聚,应用于报表和业务分析系统

  • 2.3.7. 创建能够进行数据学习的系统,优化业务决策,甚至发明一些创新技术

3. 数据获取

3.1. 数据获取是最底层的数据需要层次,也就是第一个层次

3.2. 我们收集的数据远远超出所需要使用的范围

3.3. 我们更擅长收集大量数据

3.4. 数据的来源有很多,我们可以从数据库接口、传感器、业务系统、设备或物联网系统中获取数据

3.5. 无论数据来自何处,都需要保证数据的完整性、准确性与唯一性,并且不能带有偏见

3.6. 即使是文本数据,也应该从原始来源获取,以避免中间转换导致的信息丢失

  • 3.6.1. 应该保存文本数据对应的元数据,以便未来进行数据溯源

3.7. 数据获取层次的关键在于正确地收集和分类数据

  • 3.7.1. 数据必须是正确且可信的

4. 数据传输与存储

4.1. 数据需要层次结构的第二个层次是数据传输与存储

4.2. 为了确保数据传输的可靠性,源系统必须具备可靠的数据传输机制

4.3. 用于存储结构化数据和非结构化数据的系统也必须是冗余的,以保障数据安全,并提升检索效率

  • 4.3.1. 存储系统还应易于访问

4.4. 批处理或联机事务处理数据传输系统,需要配备验证和回滚程序

4.5. 数据提取、转换和加载过程必须符合业务需求和数据治理准则

4.6. 多年来,关系型数据库和数据仓库一直是结构化数据存储与检索的主要方式

5. 数据转换

5.1. 数据转换是将数据转化为对业务决策有用的形式

5.2. 是数据需要层次结构中最困难的层级之一

5.3. 是第三个层次,它要求同时具备数据知识和业务理解

5.4. 数据转换层次对企业来说是建立竞争优势的关键,它能够将来自多个业务系统的数据整合转换为可用于决策支持系统、专家系统、商业智能系统和业务分析系统的数据资源,同时,它还同数据传输与存储层次密切结合

5.5. 数据转换层次的复杂性在于其需要有效地清洗当前“非常混乱”的数据,并按照企业数据治理委员会指定的格式进行数据转换

  • 5.5.1. 如果基础数据不可信、存储方式不正确,就无法与其他数据进行整合

5.6. 数据转换层次的主要任务包括数据清洗、数据转换、面向报表系统整理数据以及进行数据异常检测

5.7. 数据异常检测的目的是通过数据洞察提前检测并修复潜在问题,避免造成严重的影响,从而节省资金

  • 5.7.1. 如果能够提前检测并修复潜在问题,防止它朝错误的方向发展,就能够避免对业务的影响

6. 数据标签、整合与汇聚

6.1. 数据需要层次结构的第四个层次是数据标签、整合与汇聚,这个层次是业务分析和报告系统的核心

6.2. 通过整合数据以满足应用需求,可以为决策者提供信息和洞察力

6.3. 客观的评价指标体系可用于评估数据整合的效果

6.4. 根据不同维度汇聚数据,形成OLAP立方体,不仅有助于发现数据的分布趋势与关联性,而且有助于发现采集数据异常、数据偏差和序列特征

6.5. 数据标签、整合与汇聚层次的重要之处在于它能够创造数据的价值,因为在这个层次,企业才开始真正地使用数据

6.6. 数据标签、整合与汇聚层次提供了访问数据的入口,其他应用都需要构建在该层次之上

  • 6.6.1. 很多企业在数据标签、整合与汇聚层次中获得了稳健的业务支持能力、成功的实践以及竞争优势

7. 数据分析与机器学习

7.1. 数据需要层次结构中的顶层是数据分析与机器学习

7.2. 该层次使用计算机算法并利用现有数据来解释自身

  • 7.2.1. 一旦它理解了现有数据,就可以预测新数据到来时的趋势

  • 7.2.2. 这是机器学习的基础,这些算法可以对预期结果与实际结果进行试验

  • 7.2.3. 如果我们能够预测即将发生的情况,就可以提前制定适当的行动以应对预期的结果

7.3. 基于数据分析与机器学习层次,企业可以根据数据进行业务决策的优化

7.4. 正确预测并提前制定适当的行动能够使得企业在面对竞争对手时获得真正的数据竞争优势

7.5. 在数据分析不断深入发展的背景下,计算机算法持续进步,拥有模拟人类智能的系统开始出现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/807315.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop详细安装步骤,附带安装完的虚拟机。

Hadoop集群搭建笔记 环境:window11家庭中文版 23H2 VMware16.1.2 镜像:CentOS-7-x86_64-DVD-2009.iso jdk:jdk-8u202-linux-x64.tar.gz hadoop:hadoop-3.3.5.tar.gz 集群分布主机 角色node1(192.168.100.100) NN DN RM NMnode2(192.168.100.101) SNN DN …

Nuxt.js 应用中的 app:redirected 钩子详解

title: Nuxt.js 应用中的 app:redirected 钩子详解 date: 2024/10/3 updated: 2024/10/3 author: cmdragon excerpt: app:redirected 是 Nuxt.js 中的一个钩子,主要用于处理服务器端渲染(SSR)过程中发生的重定向。该钩子在重定向被执行之前被调用,允许开发者在重定向发生前…

全网最适合入门的面向对象编程教程:55 Python字符串与序列化-字节序列类型和可变字节字符串

在Python中,字符编码是将字符映射为字节的过程,而字节序列(bytes)则是存储这些字节的实际数据结构,字节序列和可变字节字符串的主要区别在于其可变性和用途,bytearray是可变的字节序列,允许修改其内容。全网最适合入门的面向对象编程教程:55 Python 字符串与序列化-字节…

Zookeeper 基础学习

Zookeeper 基础学习 ​ Zookeeper 官网: http://zookeeper.apache.org/ 注:以下操作在CentOS7环境操作。 ​ Zookeeper 是 Apache 的一个分布式服务框架,是 Apache Hadoop 的一个子项目。官方文档上这么解释 Zookeeper,它主要是用来解决分布式应用中经常遇到的…

妙用编辑器:把EverEdit变成计算器

妙用编辑器:把EverEdit变成计算器 应用场景 日常工作过程中,会存在需要计算一些数据的场景,调用系统的计算器当然可以完成这项工作,但是需要来回切换,且系统自带的计算器没有表达式计算功能,真是不方便。 解决办法 一般比较流行的文本编辑器都支持脚本语言,比如:EverEd…

轻松搞定Java毕设:为全国大学生提供高效、优质的Java毕业设计代做服务

随着毕业季的临近,许多大学生面临着毕业设计的巨大压力。尤其是对于那些选择计算机相关专业的学生来说,毕业设计通常要求在一个较短的时间内完成复杂的项目开发,这对于技术掌握尚不成熟的学生来说无疑是一个巨大的挑战。再加上其他课程的压力和生活的琐事,毕业设计可能会成…

JAVA毕设代做(项目+论文+源码)

马上就要做毕业设计啦,计算机专业的小伙伴们终于开始紧张啦~ 但是Java相关的毕业设计,真的太难啦,都不知道做什么选题!!! 如果你平时没认真学,那么很可能根本就不知道怎么做毕业设计! 尤其是对于摸鱼上瘾的同学,稍不注意就容易挂掉! 大家现在担心的无非下面几点! 我…

星座图整形技术在光纤通信中的matlab性能仿真,分别对比标准QAM,概率整形QAM以及几何整形QAM

1.算法仿真效果 matlab2022a仿真结果如下(完整代码运行后无水印):2.算法涉及理论知识概要星座图整形技术(Constellation Shaping Techniques)是现代光纤通信系统中提升数据传输效率的关键技术之一,通过优化星座点的布局和调制符号的使用概率,能在不增加系统功率或带宽的…

用难测的期待去对抗既定的焦虑和迷茫

大三到今天,经历了很多,不管是两次开发实习,还是一边秋招一边考公,或是毕业一个月后被鸽转正,又或是无数次的面试和考试,无数次的高铁和大巴,无数次的破而后立......都让我改变了此前狭隘的看法。回顾以往,其实我从很早以前就觉得路好像是直来直去的,一眼能看到底部,…

基于无线传感器网络的节点分簇算法matlab仿真

1.程序功能描述 对传感器网络进行分簇,在分簇过程中考量的有节点能量状态、节点拓扑位置、孤立节点删除等条件。与LEACH算法比较,对比如下几个方面指标: 1.网络从初始状态直到首个节点因能量耗尽而死亡的持续时间。 2.显示了随着时间的变化,一些节点开始死亡,整个网…

《Java 高级篇》八:新特性

Java 中的一些新特性:Lambda 表达式、函数式接口、Stream API。Author: ACatSmiling Since: 2024-10-01Lambda 表达式 Lambda 是一个匿名函数,我们可以把 Lambda 表达式理解为是一段可以传递的代码(将代码像数据一样进行传递)。使用它可以写出更简洁、更灵活的代码。作为一…

高级语言程序设计第二次作业

这个作业属于哪个课程 2024高级语言程序设计 (福州大学 - 计算机与大数据学院)这个作业要求在哪里 高级语言程序设计课程第二次个人作业学号 052205124姓名 林宇作业内容: 1.编写并运行书本第3章3.11 编程练习题目中的第1题~第8题 (1):通过试验(即编写带有此类问题的程序)…