读数据湖仓08数据架构的演化

news/2024/10/6 7:57:21/文章来源:https://www.cnblogs.com/lying7/p/18442095

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

  • 1.1.1. 元数据

  • 1.1.2. 数据模型

  • 1.1.3. 本体

  • 1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

  • 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书

  • 1.2.2. 数据目录的运行方式与此类似,它负责连接组织中的所有文档和数据库

  • 1.2.3. 利用数据目录在基础数据中进行检索,能够节约大量的时间

1.3. 永久维护

  • 1.3.1. 数据目录经常被忽略的一个因素是它总在变化

  • 1.3.2. 数据目录也在不断地被更新维护

  • 1.3.3. 持续不断更新维护数据目录的原因

    • 1.3.3.1. 业务环境持续变化

    • 1.3.3.2. 系统不断变化

    • 1.3.3.3. 不断加入新系统

1.4. 开放

  • 1.4.1. 数据目录应该是开放的,且可供组织中的任何人分析使用,唯一例外的是那些试图对组织发起恶意行为的人

  • 1.4.2. 管理人员

  • 1.4.3. 文员

  • 1.4.4. 日常运营人员

  • 1.4.5. 审计师

  • 1.4.6. 分析人员

1.5. 不同数据类型的内部结构

  • 1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据,就像它可以用于分析基础数据中的详细数据一样

  • 1.6.1. 以独立于基础数据对数据目录进行分析

  • 1.6.2. 与大容量存储器不同,数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

  • 2.1.1. 没有数据架构,就没有坚实的数据基础可依赖

  • 2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构,才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

  • 2.3.1. 应用程序只能读取输入,处理后并生成输出

  • 2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作,从而为组织节省大量工作时间

2.4. 应用程序

  • 2.4.1. 发现还可以编写更加复杂的应用程序

  • 2.4.2. 由于新的应用程序开始处理大量数据,并且生成更多的数据,因此,当时使用的存储介质(如打孔卡片和纸带)已经不足以存储这些数据

2.5. 磁带文件

  • 2.5.1. 随着发展,磁带文件成为数据存储的主要媒介

  • 2.5.2. 相比早期媒介,磁带文件能够存储更多的数据

  • 2.5.3. 与打孔卡片相比,磁带文件有许多优势,如存储成本更低,不需要固定长度的记录,并且可以重复使用

  • 2.5.4. 随着磁带文件的出现,主文件(Master File)的概念随之而来

    • 2.5.4.1. 主文件对于收集和存储组织的主要实体(如客户、产品和运输)的相关数据非常有用,它的理念是将相关信息集中存储在一个地方
  • 2.5.5. 磁带文件可以更有效地存储数据,但是在使用磁带文件时,要想访问单条记录,则必须读取整个文件

    • 2.5.5.1. 导致长时间的低效处理
  • 2.5.6. 虽然磁带文件解决了打孔卡片的众多问题,但也引入了一系列新的挑战

  • 2.5.7. 磁带文件也不能长时间保存数据

    • 2.5.7.1. 当磁带文件存储一段时间后,磁带文件上的氧化物会磨损而导致文件损坏,进而变得毫无价值

2.6. 硬盘存储

  • 2.6.1. 随着硬盘存储系统的出现,我们能够更加便捷地电子化存储和访问数据

  • 2.6.2. 数据库管理系统应运而生,负责管理这些数据

  • 2.6.3. 随着时间的推移,硬盘存储的生产成本逐步降低,最终变得经济实惠

  • 2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据,而不需要遍历整个文件

2.7. OLTP

  • 2.7.1. 由于数据能够快速存取,因此出现了一种被称为联机事务处理(OLTP)的技术

  • 2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分

  • 2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互

  • 2.7.4. 当计算机不可用或响应速度变慢时,业务将会受到影响

  • 2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度

  • 2.7.6. 在历史数据变得愈发重要时,OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

  • 2.8.1. 个人计算机变得非常受欢迎。它的价格低廉,轻量便携,甚至可以随身携带

  • 2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门

  • 2.8.3. 个人计算机赋予终端用户更多自主权

  • 2.8.4. 多年来,IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构

  • 2.8.5. 随着个人计算机的进一步普及,IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

  • 2.9.1. 4GL(Fourth Generation Language,第四代编程语言)处理的技术应运而生

  • 2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程

  • 2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色

  • 2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题

    • 2.9.4.1. 现在面临的挑战不再是找不到数据,而是要找到可信的数据
  • 2.9.5. 数据的不一致性问题是一个架构问题,而非技术问题

    • 2.9.5.1. 增加更多技术只会让问题变得更糟,而不是更好
  • 2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题

  • 2.9.7. 长时间存储数据变得相当必要

    • 2.9.7.1. 在数据仓库应用程序出现之前,事务处理仅能够存储较短时间的数据,通常为几周到一个月

    • 2.9.7.2. 如果应用程序数据存储时间较长,那么事务响应速度会受到影响

    • 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的

      2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

  • 2.10.1. 提供企业数据视图

  • 2.10.2. 可用于分析即时可用的数据

  • 2.10.3. 可通过多种方式重塑粒度数据

  • 2.10.4. 可以将历史数据用于长期分析

  • 2.10.5. 数据仓库的架构持续了相当长的时间,至今仍在使用

2.11. 数据集市

  • 2.11.1. 为了满足对特定领域中数据使用的需求,一种被称为数据集市的架构出现

  • 2.11.2. 数据集市使用数据仓库中已有的粒度数据,并将其重塑为终端用户需求的形式和结构

  • 2.11.3. 通过数据集市,不同部门能够获取一致的数据,因为它们所看到的数据来源是相同的,那就是数据仓库

2.12. ⑩互联网和物联网数据

  • 2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

  • 2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖

  • 2.13.2. 数据湖就会变成数据沼泽,或者也可以称为数据臭水沟

  • 2.13.3. 由于数据湖中的数据是未集成的,因此人们不清楚很多数据的内容

  • 2.13.4. 数据湖巨大无比,这导致人们难以找到他们想要的具体数据

  • 2.13.5. 数据湖中的数据没有进行任何整合,人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联

  • 2.13.6. 由于数据形式非常混乱,人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

  • 2.14.1. 在数据湖混乱的背景下,数据湖仓诞生

  • 2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施,并在将数据存入数据湖仓之前进行集成

  • 2.14.3. 数据湖仓成为一个可行的数据架构,能够满足组织的分析需求

  • 2.14.4. 前数据湖仓是一个成熟的架构,可以满足需求

  • 2.14.5. 未来肯定还会出现架构增强的数据湖仓,以及与数据湖仓不同的形式,以支持新的需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/808910.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VUE2常见问题以及解决方案汇总,vue+element ui 问题以及解决方案汇总(不断更新中)

解决vue项目中 el-table 的 @row-click 事件与行内点击事件冲突,点击事件不生效(表格行点击事件和行内元素点击事件冲突)需要阻止事件冒泡 问题描述 1.点击列的编辑按钮,会触发按钮本身事件,同时会触发行点击事件 2.点击列的元素,会触发本身事件,同时会触发行点击事件 需…

1分钟了解什么是docker和docker-compose?前后端必知必会技能GET啦

@目录前情提要Docker定义:主要功能:命令示例:其他Docker Compose定义:我为什么使用它?主要功能:命令示例:主要区别配置文件:命令行操作:依赖关系管理:实际应用场景单个服务:多服务应用:总结结语欢迎路过的小哥哥小姐姐们提出更好的意见哇~~ 前情提要 本文非常简短,如果需要详…

VUE2常见问题以及解决方案汇总(不断更新中)

vue子组件传递数据给父组件 子组件可以使用 $emit 向父组件传递数据。父组件监听这个事件,并在事件触发时接收数据。 上代码 子组件 (Child.vue) <template><button @click="sendDataToParent">Send Data to Parent</button> </template>&l…

1分钟搞懂K8S中的NodeSelector

@目录NodeSelector是什么?为什么使用NodeSelector?怎么用NodeSelector?POD配置示例yaml配置示例如何知道K8S上面有哪些节点,每个节点都有什么信息呢?1. 使用kubectl命令行工具查看所有节点及其标签2. 使用kubectl命令行工具查看特定节点的标签代码举例常见的NodeSelector节…

谷歌浏览器调试技巧

谷歌浏览器断点调试# “资源(Sources)”面板# 进入浏览器,点击F12,进入调试面板,点击source 切换按钮 会打开文件列表的选项卡。资源(Sources)面板包含三个部分:文件导航(File Navigator) 区域列出了 HTML、JavaScript、CSS 和包括图片在内的其他依附于此页面的文件。…

两种方案手把手教你多种服务器使用tinyproxy搭建http代理

@目录Tinyproxy是什么?特点功能安装方案一:Docker安装安装tinyproxy镜像,启动容器将内部8888端口至外部,ANY代表允许所有ip访问代理获得代理地址安装方案二:系统包管理器Tinyproxy 可以通过包管理器安装。以下是一些常见的 Linux 和 mac发行版的安装命令:MAC电脑Linux配置…

Docker系列-5种方案超详细讲解docker数据存储持久化(volume,bind mounts,NFS等)

@目录Docker的数据持久化是什么?1.数据卷(Data Volumes)使用Docker 创建数据卷创建数据卷创建一个容器,将数据卷挂载到容器中的 /data 目录。进入容器,查看数据卷内容停止并重新启动容器,数据卷中的数据仍然存在再次进入容器,检查文件是否存在使用 Docker Compose 创建数…

基于simulink的风轮机发电系统建模与仿真

1.课题概述使用simulink实现风轮机发电系统建模与仿真,包括风速模型(基本风+阵风+阶跃风+随机风组成),风力机模型,飞轮储能模块等。2.系统仿真结果 3.核心程序与模型 版本:MATLAB2022a风速模块:风力机模块 整体模型4.系统原理简介 4.1 风速模型风速模型在风力发电和其他…

2024-10-06 闲话

2024-10-06 闲话坐在电脑前 1 小时也什么都写不出来。 比如我现在住的地方(在一个房子里面)旁边有一个大冰块,因为这个大冰块在吸热所以我在家里感受到了无尽的寒冷。 于是我读了几本古圣先贤的书,合成了能烧来取暖的蜂窝煤。我又拿了根钻头把蜂窝煤点着了,尾气全部排到房…

报错集

报错集弹性云服务器ECS + 自动分配IP地址 + 配置安全组规则 + 配置并创建桶1.另外一个冲突的操作当前正作用在这个资源上,请等待一段时间后重试。 A conflicting conditional operation is currently in progress against this resource.Please try again 解决方案:桶的名称重…

云锵投资 2024 年 9 月简报

季报摘要行情:双重底结束,牛市启动;未来:长线看多; 期权策略:研发成功。节后正式上线,是未来的主要现金流策略; 微盘策略:非主流策略,三月连涨,未来长持; 本季度量化基金策略业绩:15.89%,优,全国排名:1858/11684;平均 Beta:1.00; 本季度量化股票策略业绩:3…

激活 Ultra Mobile Paygo

淘宝买一张 Ultra Mobile Paygo 电话卡(也叫做美国紫卡)(可选)在 NumberBarn 购买一个手机号。Plan 记得选 Port Away。打开 paygo.ultra.me/activate,填入卡面上的激活码,然后继续。填写相关信息。如果购买了手机号,选择 Transfer an Existing Number。未完待续