(10)Hive的相关概念——文件格式和数据压缩-编程知识

一、文件格式

1.1 列式存储和行式存储

1.1.1 行存储的特点

1.1.2 列存储的特点

1.2 TextFile

1.3 SequenceFile

1.4 Parquet

1.5 ORC

二、数据压缩

2.1 数据压缩-概述

2.1.1 压缩的优点

2.1.2 压缩的缺点

2.2 Hive中压缩配置

2.2.1 开启Map输出阶段压缩（MR 引擎）

2.2.2 开启Reduce输出阶段压缩

2.3 Hive中压缩测试

一、文件格式

Hive数据存储的本质还是HDFS，所有的数据读写都基于HDFS的文件来实现。为了提高对HDFS文件读写的性能，Hive提供了多种文件存储格式：TextFile、SequenceFile、ORC、Parquet等。不同的文件存储格式具有不同的存储特点，有的可以降低存储空间（列式存储），有的可以提高查询性能（行式存储）。Hive的文件格式在建表时指定，默认是TextFile。

1.1 列式存储和行式存储

1.1.1 行存储的特点

查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

1.1.2 列存储的特点

每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。TextFile和 SequenceFile的存储格式都是基于行存储的，ORC和Parquet是基于列式存储的。

1.2 TextFile

TextFile是Hive中默认的文件格式，也是最常见的数据文件格式，存储形式为按行存储。Hive设计时考虑到为了避免各种编码及数据错乱的问题，选用了TextFile作为默认的格式。建表时不指定存储格式即为TextFile，导入数据时把数据文件拷贝至HDFS不进行处理。

1.3 SequenceFile

SequenceFile是Hadoop里用来存储序列化的键值对，即二进制的一种文件格式。SequenceFile文件也可以作为MapReduce作业的输入和输出，hive也支持这种格式。

--sequencefile表
create table tb_sogou_seq(stime string,userid string,keyword string,clickorder string,url string
)
row format delimited fields terminated by '\t'
stored as sequencefile;insert into table tb_sogou_seq
select * from tb_sogou_source;  -- tb_sogou_source表 是txt文件格式

下图是插入原始txt文件（tb_sogou_source）大概有1.07G1260万条数据存储成SequenceFile的文件大小。

1.4 Parquet

Parquet是一种支持嵌套结构的列式存储文件格式。作为大数据系统中OLAP查询的优化方案，它已经被多种查询引擎原生支持，并且部分高性能引擎将其作为默认的文件存储格式。

--Parquet格式
create table tb_sogou_parquet(stime string,userid string,keyword string,clickorder string,url string
)
row format delimited fields terminated by '\t'
stored as parquet;insert into table tb_sogou_parquet
select * from tb_sogou_source; -- tb_sogou_source表 是txt文件格式

下面图示是插入原始txt文件（tb_sogou_source）大概有1.07G1260万条数据存储成Parquet的文件大小。

1.5 ORC

ORC（OptimizedRC File）文件格式也是一种Hadoop生态圈中的列式存储格式；它最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。

--ORC格式
create table tb_sogou_orc(stime string,userid string,keyword string,clickorder string,url string
)
row format delimited fields terminated by '\t'
stored as orc;insert into table tb_sogou_orc
select * from tb_sogou_source;

下面图示是插入原始txt文件（tb_sogou_source）大概有1.07G1260万条数据存储成ORC的文件大小。