1、表结构数据
表结构数据——以字段或记录作为数据的引用、操作及计算的基本单位的数据。
表的数据结构是方形的,要求不同字段记录行数相同。
- 字段——整列数
- 记录——整行数
- 维度——业务角度
- 度量——业务行为的结果
- 维度字段——文本型
- 度量字段——数值型
2、事实表&维度表
维度表:只包含维度信息
事实表:既包含维度信息又包含度量信息的表
3、表结构数据特征
特征1
- 第一行为标题行(所有字段名构成的)
- 第二行以后 称为 记录
- 字段名不能重名(唯一字段名可定位精确)
- 一个字段只能有一种数据类型(表结构-基本单位是字段)
特征2:所有字段记录行数相同
- 存在空值(空置在计算机程序中,用null来记录;可用于数据占位)
- 处理缺失值
处理缺失值
根据数据类型以及生成信息重要程度的不同,使用不同方法处理
①文本型字段
影响不大:不进行处理,或者可以用其他没有实际业务含义的文本字符对缺失值进行替换
影响大:让业务人员核查确认后替换,或删除。
②数值型字段
略麻烦,综合考虑该数值型字段所代表的度量意义,以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。
特征3:一个表中有且只有一个主键
主键的物理意义——表的行识别符
- 单字段主键:
- 多字段联合主键:主键可以由多个字段构成;
- 非空不重复 (主键中不能存在空值;不能有2个以上重复值存在;)
- 定位记录行、字段名+主键值定位具体数值
- 多以“xxID”、“xxNo”、“xx编号”等名称命名
记录值的字符数相同,在不同位数字符的组合代表不同的含义(eg:身份证号;前6位出生地,出生日期,性别等;)
备注:一个字段只能有一种数据类型;字段中可出现null值,一行记录可以有不同数据类型。
主键的业务意义 ——表的业务记录单位。
在一个数据表中的所有非主键字段都要围绕主键展开
4、表结构数据获取方法
4.1 “应用”与“引用”
数据来源 (无本质差异;使用的方式会有差异)
1.将数据源导出的数据应用在 电子表格工具上,就成为以单元格为基本单位的表格结构数据
2.将数据源引用到表结构数据分析工具上,以字段为基本单位的表结构数据
3.在获取数据上不同:应用&引用的区别
表格结构数据——应用从数据源到导出的表结构数据——引用数据源;更加保证数据时效性与准确性
4.2 数据管理系统
4.2.1 关系型数据库管理系统(RDBMS)
关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享
- 3级嵌套关系
多个不同的数据表构成一个数据库,多个不同的数据库构成一个关系型数据库管理系统。
- OLTP
On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程。
基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一
- 可量化、结构化数据
- 提供大部分数据源
- 不善于分析
4.2.2 商业智能系统-BI(Business Intelligence)
用于为企业决策者快速提供完整、准确、深入的数据分析结构,帮助企业决策者实现商业洞察
- 强于分析
- 多功能模块构成
- 两种主要类型:
4.2.2 ETL(Extract-Transform-Load)
用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ELT:先抽取之后加载到数据仓库,再进行清洗及转换;(根据加载对象数据仓库的处理能力越强,处理数据量越大,清洗转换逻辑越复杂,就倾向于ETL)
若加载功能较弱,就用ETL的顺序。
4.2.4 数据仓库DW(Data Warehouse)
用来存储分析所需要的的不同数据源上的所有相关数据信息
4.2.5 OLAP(Online Analytical Processing,联机分析处理)
用来连接信息孤岛、创建多维数据模型;观测网
OLAP——联机分析处理,是搭建多维数据模型的处理过程
OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
一个完整的BI项目,先后要涉及到:
ETL——DW——olap——数据可视化 4个软件‘
还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。