读数据湖仓07描述性数据

news/2024/12/22 0:23:43/文章来源:https://www.cnblogs.com/lying7/p/18442042

1. 描述性数据

1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异

1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据

1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据

  • 1.3.1. 分析基础设施是通往详细数据的路线图

  • 1.3.2. 描述性数据会告诉分析人员如何定位所需数据,数据的含义,并指导其组合数据

1.4. 分析人员需要从分析基础设施入手

  • 1.4.1. 描述性数据能为各种分析人员提供帮助,包括数据科学家、业务分析人员、文员,甚至是管理人员

  • 1.4.2. 对任何希望使用基础数据的人来说,描述性数据都是非常有用的

1.5. 数据湖仓的基础数据是非常有价值的

  • 1.5.1. 数据湖仓中最基本的数据是集成到基础数据中的详细数据

  • 1.5.2. 仅有详细数据是不够的,还需要描述性数据,只有将详细数据和描述性数据结合起来,才能使数据湖仓发挥最大的作用

  • 1.5.3. 由于描述性数据描述了基础数据中的详细数据,因此分析人员可以轻松找到所需的详细数据

2. 结构化数据

2.1. 数据模型

  • 2.1.1. 数据模型是对基础数据中结构化数据的抽象表示

  • 2.1.2. 在实体关系图层级上,我们会定义组织的主要实体及其之间的关系

  • 2.1.3. 实体关系图的下一层级是数据项集,用于进一步描述实体

    • 2.1.3.1. 每个实体在实体关系图中都有一个对应的数据项集,其中包括键、属性以及实体之间的关系等

    • 2.1.3.2. 对于每一组数据项集,我们都可以找到其物理定义,包括实际定义、键标识、属性的名称、属性的结构以及索引

  • 2.1.4. 数据模型可以被视为对组织内结构化数据的一种抽象

    • 2.1.4.1. 因为数据可能很快变得非常复杂,抽象可以使得设计师和分析人员更好地访问和分析基础数据中的数据

2.2. 元数据

  • 2.2.1. 在对基础数据中的结构化数据进行基础设施分析时,元数据定义也是很重要的一个部分

  • 2.2.2. 元数据类似于数据模型的物理属性

  • 2.2.3. 元数据确实包含一些数据库管理系统(Database Management System,DBMS)特有的物理特征,这些特征并不包含在数据模型的较低层次中

  • 2.2.4. 在物理层面上,元数据包括数据库管理系统所描述数据的实际定义,例如键、属性和索引等要素

2.3. 结构化数据转换

  • 2.3.1. 名称转换

  • 2.3.2. 编码转换

  • 2.3.3. 度量单位转换

  • 2.3.4.  货币类型转换

  • 2.3.5. 计算转换

  • 2.3.6. 数据选择转换

2.4. 结构化数据源

  • 2.4.1. 在对结构化数据进行基础设施分析时,识别出结构化数据的数据源是其中非常重要的一个步骤

  • 2.4.2. 结构化数据的起始来源是事务数据,我们可以从不同的来源收集与事务相关的数据

  • 2.4.3. 事务数据可以来自不同的数据源

    • 2.4.3.1. 银行柜员活动

    • 2.4.3.2. 自动取款机活动

    • 2.4.3.3. 活期存款交易

    • 2.4.3.4. 航空公司订票

2.5. 数据选择标准

  • 2.5.1. 在对结构化数据进行基础设施分析时,确定数据筛选条件是其中最重要的部分之一

  • 2.5.2. 仅仅识别出需要使用的算法是不够的,还必须明确计算中包括和排除了哪些数据

  • 2.5.3. 使用基础数据进行分析的分析人员需要清楚了解参与计算的数据具体有哪些

2.6. 数据定义语言

  • 2.6.1. 数据定义语言(Data Definition Language,DDL)也是一个非常重要的部分

  • 2.6.2. 数据定义语言用于定义与数据库管理系统相关的数据库结构

  • 2.6.3. 数据定义语言始终包含对定义数据库有用的其他信息

2.7. 数据编码

  • 2.7.1. 编码是指保存在数据库中的有意义的值

2.8. 数据关系

  • 2.8.1. 应用程序支撑的关系

  • 2.8.2. 数据库管理系统支持的关系

  • 2.8.3. 隐含关系

  • 2.8.4. 显式关系

  • 2.8.5. 推理关系

2.9. 在结构化环境中,数据的上下文情境非常明确,主要体现在系统的结构中

  • 2.9.1. 对结构化环境来说,数据的上下文情境明确且显式存在于结构化数据的元数据中

  • 2.9.2. 在结构化环境中,数据的上下文情境由描述性数据本身的元数据提供

3. 文本数据

3.1. 支持文本数据和文本数据分析的描述性数据是一类重要的描述性数据

3.2. 文本环境并没有体现出明确的上下文情境

  • 3.2.1. 人们不会根据上下文情境说话,也不会根据明确的上下文情境写作

  • 3.2.2. 下文情境会隐式地嵌入语言

3.3. 文本数据中也存在上下文情境,但是文本环境中上下文情境的定义方式与结构化环境中的不同

  • 3.3.1. 要理解文本环境中的上下文情境,有必要先消除文本的歧义

  • 3.3.2. 在文本数据分析中,上下文情境与结构化环境中的上下文情境一样重要

3.4. 上下文情境在分析基础设施中扮演着非常重要的角色,可以帮助我们理解数据湖仓中的基础数据

3.5. 本体

  • 3.5.1. 文本数据的描述性数据的主要组成部分是本体

  • 3.5.2. 本体是由两个或多个相关分类标准的集合构成

  • 3.5.3. 一般来说,本体提供对业务或学科的完整描

  • 3.5.4. 通用本体主要包括通常使用的单词和术语,对通用术语而言,通用本体的主题并不重要

  • 3.5.5. 行业本体则包含特定行业的术语,例如,医疗行业有医疗术语,法律行业有法律术语,会计行业有会计术语等

  • 3.5.6. 定制本体包含企业特定的名称

3.6. 分类标准

  • 3.6.1. 文本数据还需要熟悉分类标准

  • 3.6.2. 分类标准仅仅是一个分类词组

  • 3.6.3. 在分类标准中,每个单词都与其他元素具有相同的类别关

  • 3.6.4. 分类标准是本体的一部分

  • 3.6.5. 本体的内容是异构的,而分类标准的内容是同质的

  • 3.6.6. 一个分类标准仅包含与该分类关系相同的分类数据

  • 3.6.7. 与本体不同,分类标准的内容是同质的

  • 3.6.8. 仅仅依靠本体和分类标准进行文本分析是不够的,文本分析还有很多其他要求

3.7. 关联

  • 3.7.1. 文本消歧需要一个元素,那就是寻找隐含在文本中的业务规则

    • 3.7.1.1. 这种形式的业务规则被称为关联

3.8. 上下文情境

  • 3.8.1. 与业务规则相关的是上下文情境的处理过程,而上下文情境则是文本消歧的本体和分类标准解决方案的必要组成部分

  • 3.8.2. 通过将本体和分类标准作为指南,可以消除许多文本的歧义,但是很多其他形式的文本并没有采用本体和分类标准

  • 3.8.3. 法律合同和实验室报告就是典型的非自由格式文本

    • 3.8.3.1. 单词的含义通常需要通过文本数据的上下文情境进行推导

3.9. 文本数据源

  • 3.9.1. 语音对话

    • 3.9.1.1. 语音对话需要进行转录,并且在此过程中往往会损失一定程度的准确性
  • 3.9.2. 电子邮件

    • 3.9.2.1. 电子邮件则依赖对垃圾邮件的过滤能力,以及清理和删除系统开销数据的能力

    • 3.9.2.2. 如果不对垃圾邮件进行过滤,电子邮件流的大小将不断增长,最终难以处理

  • 3.9.3. 印刷资料

    • 3.9.3.1. 印刷资料需要通过光学字符识别进行转录,而其准确性与油墨打印的清晰度、字体以及纸张的稳定性等多种因素有关
  • 3.9.4. 电子文本

  • 3.9.5. 互联网

    • 3.9.5.1. 互联网取决于互联网数据所在的站点,每个互联网站点都是不同的,并且会经常发生变化
  • 3.9.6. 每一种文本数据来源都有自己的特点

4. 模拟/物联网数据

4.1. 尽管大多数机器的监测数据都不重要,但偶尔也会出现引起人们极大兴趣的模拟/物联网数据

4.2. 需要进行数据蒸馏,将乏味的数据与有趣的数据分离开

4.3. 算法

  • 4.3.1. 蒸馏算法是一种特别有趣的算法,这种算法具有智能,可以用于判断模拟/物联网数据是否有用

4.4. 阈值

  • 4.4.1. 除了用于分离模拟/物联网数据的算法以外,将定义的数据阈值作为参数进行进一步分析也很有意义

  • 4.4.2. 算法的阈值决定了将记录写入访问文件的边界

  • 4.4.3. 偶尔会出现超出正常范围的测量值,测量值可能过高或过低

    • 4.4.3.1. 异常的记录将被写入访问概率较高的文件

    • 4.4.3.2. 记录是否被写入则取决于所设置的算法阈值

4.5. 时间排序

  • 4.5.1. 时间排序方法可能会采集到分析人员感兴趣的模拟/物联网数据

  • 4.5.2. 分析人员可以为预期的、感兴趣的活动选择一个时间段,在这个时间段内发生的所有记录都会被采集

  • 4.5.3. 与依靠预先设定阈值不同,分析人员也可以通过使用时间排序方法来监控活动

4.6. 数据源

  • 4.6.1. 某些机器以一种速度收集数据

  • 4.6.2. 其他机器则可能以另一种速度收集数据

  • 4.6.3. 某些机器具有很高的精度

  • 4.6.4. 有些机器的精度则很低

  • 4.6.5. 采用一种测量方法来收集数据

  • 4.6.6. 使用不同的测量方法

5. 数据血缘

5.1. 所有不同类型的数据都包含能够反映数据血缘的数据

5.2. 在组织中,数据从一个数据库流向另一个数据库是很常见的现象

5.3. 对使用数据湖仓基础数据进行工作的分析人员来说,数据血缘是非常有用的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/808325.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索JVM的堆内存分布:官方图片展示

序章 截取Java官方的 堆内存分布相关图片 到本文。Java Platform, Standard Edition HotSpot Virtual Machine Garbage Collection Tuning Guide Java 21 https://docs.oracle.com/en/java/javase/21/gctuning/preface.html下载为 pdf,搜索 Figure,截取其中的 堆内存分布相关…

快乐数学3勾股定理延伸

3 勾股定理延伸 我们一直低估了勾股定理。上一章表明它适用于任何有平方项的公式。 3.1 理解该定理在任意直角三角形中如果 a=3 和 b=4,那么 c=5。很简单吧?那么,关键的一点是 a 和 b 成直角(注意小红框)。一个方向的移动对另一个方向没有影响。 这有点像南北与东西的关系…

Docker系列-超级详细教你Linux安装并使用docker compose,如何使用docker-compose安装sqlserver

docker compose是什么? Docker Compose 和docker功能一样,为了运行容器服务,但是docker compose比docker更好的一点是:允许你在一个 YAML 文件中定义多个容器及其配置,并通过一条命令启动和管理这些容器。 为什么要使用docker compose? 通过 Compose,您可以使用 YML 文件…

手把手非常详细图文并茂教你 Docker 部署 SQL Server

前提条件linux服务器 服务器装好了Docker 引擎 1.8 及更高版本 至少 2 GB 的磁盘空间 至少 2 GB 的 RAM搜索镜像 docker search mssql-server拉取镜像 找到适合你的版本,拉取镜像,下面这个是我从官方文档里直接找到的镜像哇~ docker pull mcr.microsoft.com/mssql/server:202…

git报错集

报错集 1.打标签报错 前戏:在开发了基础的项目功能后,在推送到远端仓库后,打算给提交的版本打标签,报错了 $ git push origin --tags fatal: unable to access https://github.com/ICP-team/仓库名.git/: Failed to connect to github.com port 443 after 21072 ms: Could…

财务知识-20个常用的会计分录

财务知识——20个常用的会计分录

工具推荐:搜索和删除Windows上重复文件的神器:AllDup

​ AllDup是一款免费的重复文件查找工具,它能够帮助用户快速识别和管理计算机上的重复文件。这些文件可能包括文本、图片、音乐、视频等多种类型。AllDup使用快速查询算法,可以有效地搜索和定位重复项,从而帮助用户释放硬盘空间,组织文件结构,并提高系统性能。 下载地址:h…

工具推荐:完全免费的电脑 Epub 阅读器软件 Jane Reader

​ Jane Reader是一款现代化的电子书阅读器,支持EPUB格式,旨在提供类似于纸质书籍的阅读体验。它具有简洁、清爽的界面,支持自动多栏、多主题、直排模式等功能,并提供了一系列个性化设置,如自定义边距、行高、字体大小等。Jane Reader还内置了常用字体,如宋体、黑体、仿宋…

工具推荐:开源免费的文件备份恢复工具:Kopia

​ Kopia是一个开源的备份和恢复工具,适用于Windows、macOS和Linux操作系统。它提供了命令行界面(CLI)和图形用户界面(GUI),支持增量备份、客户端端到端加密、数据压缩和重复数据删除等功能。Kopia的设计注重安全性和效率,支持多种存储后端,如本地磁盘、网络文件系统或…

工具推荐:最佳快捷键启动、控制软件:HotkeyP

​HotkeyP是一款功能强大的热键管理软件,它允许用户自定义键盘快捷键来执行各种操作,如打开文件、运行程序、控制系统命令等。软件提供了高度的个性化定制,用户可以根据自己的工作流程和习惯来设置快捷键,从而提高工作效率。此外,HotkeyP还支持宏命令,用户可以通过宏来自…

博客网站搭建

关于我的博客网站搭建过程自定义博客网站搭建教程 搭建效果 浏览网址:https://www.cnblogs.com/Love-XiaoMeng前期准备博客园:你需要在此注册一个账号,同时你需要在博客园右上角开通我的博客然后你需要在博客后台管理网站中完成好相应设置如图,同时你需要注意一定要开启JS权…

FM的正交解调法

1.FM的模拟调制过程 ​ FM信号是一种频率调制信号,其携带的信息保存在其信号的频率中,通过改变载波的频率来实现基带数据的传输。 其函数表达式如下: \[s(t) = A*cos(w_c*t + K_f*\int m(\tau) d\tau) \]其中: A:表示载波幅度。 \(m(\tau)\):表示基带信号。 \(w_c\):表示载…