解决hive表新增的字段查询为空null问题

Hive分区表新增字段,查询时数据为NULL的解决方案

由于业务拓展,需要往hive分区表新增新的字段,hive版本为2点多。

于是利用

alter table table_name add columns (col_name string )

新增字段,然后向已存在分区中插入数据,以为问题就解决了。

结果一查询发现新增字段的值全部为null。

这是怎么回事,怀疑是不是数据没有插入成功,于是查看日志确实是写入成功了,后换了impala和presto 两种引擎查询,发现两个结果都有值,如果直接到目录下查看数据文件会发现确实有值。

经排查,这是hive 的bug,用Hive版本比较低,会出现这个问题。据说最新的版本已经没有这个问题了(未验证)。

1. 问题追溯
为了复现这个问题,今天把这个问题追溯下。

1.新增一张学生测试表并向分区插入数据

create table if not exists test.student(id string comment '编号',user_name string comment '姓名',age int comment '年龄')comment '学生表'partitioned by(dt string comment '分区字段,格式yyyymmdd')stored as parquetTBLPROPERTIES('parquet.compression'='SNAPPY');

其中dt为分区,往学生表新增一个分区,并插入记录测试。

insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7 from test.table_name limit 10

2.新增两个字段 class 、grade 并插入数据

alter table test.student add columns(class string);alter table test.student add columns(grade string);
insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

3.查询数据

select * from test.student where dt ='20220112'

在这里插入图片描述

发现刚新增的class grade 字段显示都为NULL,并不是我们期望。

但impala和presto 两种引擎查询是能够正常显示的。

4.再往表新增’20220113’分区

insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

5.再查询这个分区

select * from test.student where dt ='20220113'

在这里插入图片描述

发现查询

select * from test.student where dt ='20220112'

还是依旧为NULL

由此我们可以得出这样一个结论

分区在增加字段前存在,新增字段值为NULL的情况

分区在增加字段前不存在,正常

3.解决方案
1.删除分区或者重新建表

这种情况分区较多亦或是数据量较大,都不推荐使用。

2.针对分区执行

对于在增加字段前已经存在的分区,需要再执行

alter table test.student partition(dt='20220112') add columns(grade string);alter table test.student partition(dt='20220112') add columns(class string);

我们再来看看’20220112’分区字段class和grade显示是否正常

select * from test.student where dt ='20220112'

在这里插入图片描述

从结果我们可以看到,已经正常显示了。

3.在往表添加字段时加上cascade

第二种方案,要是我们表里有很多分区,这样处理就显得有些繁琐了,不知有没有更优雅的处理方式,答案是肯定的,那就是在修改列时加上cascade

alter table test.student add columns (`number` string ) cascade;
insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级','N202209010101' from test.table_name limit 10
select * from test.student where dt ='20220113'

在这里插入图片描述

总结:

1.对于在增加字段前已经存在的分区,需要再执行

alter table test.student partition(dt='20220112') add columns(column_name string);

2.在往表添加字段时加上cascade

alter table test.student add columns (column_name string ) cascade;

个人觉得第二种解决方案操作比第一种要方便得多。推荐使用。

由于笔者知识及水平有限,文中错漏之处在所难免,如有不足之处,欢迎交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/454989.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【leetcode题解C++】77.组合 and 216.组合总和III and 17.电话号码的字母组合

77. 组合 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1: 输入:n 4, k 2 输出: [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4], ] 示例 2: 输入&#xff1a…

安卓三防平板丨三防平板电脑丨智能农业应用

随着科技的不断发展,越来越多的新型设备被应用于各个行业,其中包括农业行业。三防平板作为一种具有防水、防尘、防摔的特性的电子设备,不仅具有优异的性能,而且在农业行业应用广泛。下面,本文将从以下几个方面探讨三防…

计算机网络——新型网络架构:SDN/NFV

1. 传统节点与SDN节点 1.1 传统节点(Traditional Node) 这幅图展示了传统网络节点的结构。在这种设置中,控制层和数据层是集成在同一个设备内。 以太网交换机:在传统网络中,交换机包括控制层和数据层,它不仅负责数据包的传输&…

07、全文检索 -- Solr -- Solr 全文检索 之 为索引库添加中文分词器

目录 Solr 全文检索 之 为索引库添加中文分词器添加中文分词器1、添加中文分词器的 jar 包2、修改 managed-schema 配置文件什么是 fieldType 3、添加 停用词文档4、重启 solr5、添加【*_cn】动态字段,并为该字段设置中文分词器6、演示分词器的区别演示 text_cjk 这…

go test单元测试详解

目录 介绍&测试范围 测试函数 执行机制 常用执行模式 子测试 帮助函数Helper() 测试覆盖率 介绍&测试范围 go test测试是go自带的测试工具,主要包括单元测试和性能测试两大类。 包括了工程目录下所有以_test.go为后缀名的源代码文件,这…

【Lammps】Zhou势函数拟合(python程序)

【Lammps】Zhou势函数拟合(python程序) Zhou合金势主要用于金属的分子动力学模拟 ,下面将主要对lammps自带程序生成相关合金势函数。 早期的Zhou势用Fortran编写,在使用之前需要进行对源代码进行编译,操作较为麻烦&am…

物联网ARM开发-STM32之RTC浅谈

RTC 一.RTC简单介绍 RTC好比我们用来记录时间的一个钟表,他里面有年月日,还可以记录星期,小时,分钟等。是Real Time Clock的缩写,译为实时时钟,本质上是一个独立的定时器。 1. 1 与通用定时器的区别 可以…

jenkins 发布远程服务器并部署项目

安装参考另一个文章 配置maven 和 jdk 和 git 注意jdk的安装目录,是jenkins 安装所在服务器的jdk目录 注意maven的目录 是jenkins 安装所在服务器的maven目录 注意git的目录 是jenkins 安装所在服务器的 git 目录 安装 Publish Over SSH 插件 配置远程服务器 创…

Python 实现 五子棋小游戏【附源码】

引言 五子棋是一种古老而深受欢迎的策略游戏,它具有简单的规则和无穷的变化。作为一种传统的中国棋类游戏,五子棋已经在世界范围内流行起来,并成为智力挑战和休闲娱乐的优秀选择。 规则和玩法: 五子棋使用一个15x15的棋盘&#x…

【RK3288 Android6 T8, 突然无声音问题排查】

文章目录 【RK3288 Android6 T8, 突然无声音问题排查】问题描述问题调查patch 【RK3288 Android6 T8, 突然无声音问题排查】 问题描述 页面上方突然出现音量进度条,小铃铛图标显示静音状态,不再播报语音 手动去安卓设置内查看&a…

【el-tree 文字过长处理方案】

文字过长处理方案 一、示例代码二、关键代码三、效果图 一、示例代码 <divstyle"height: 600px;overflow: auto"class"text item"><el-treeref"tree":data"treeData":props"defaultProps"class"filter-tree&…

活字格V9 嵌入的html与活字格页面数据交互

不想看分析请直接跳到解决方案 项目场景&#xff1a; 活字格V9 嵌入的html与活字格页面的数据交互&#xff08;传值&#xff09;&#xff0c;嵌入的html用了WebSocket来控制硬件&#xff0c;获取的数据无法回传到活字格页面上&#xff0c;且嵌入的html无法使用活字格内置的js及…