hive分区表增加字段会导致新增字段无法显示值的BUG

对hive分区表新增字段后,在执行插入分区的动作,会发现其实数据文件中已经有新字段值了,但是在查询的时候新字段的值还是显示为null。

比如我们做一个简单的问题重现

我们先创建一个分区表xj_test1,往分区dt=201501中插入一条数据:

create table xj_test1(a string,b string) partitioned by (
dt string)
row format delimited fields terminated by ',';

INSERT OVERWRITE TABLE xj_test1 PARTITION(dt=201501)
select '1','1' from dual


然后我们新加一个字段:

alter table xj_test1 add columns (c string);

再往上面的那个分区中插入数据:

INSERT OVERWRITE TABLE xj_test1 PARTITION(dt=201501)
select '1','1','1' from dual

按照常理的话,现在查询201501分区的数据,应该显示1,1,1 。但是新加的字段c的值为null,在hdfs上该分区目录下面的数据文件中确实已经有c字段的值了,只是查询不出来。

原因是修改表结构以后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表分区下面对应的CD_ID还是原来表的CD_ID,

比如我这边测试表叫:xj_test1,分区字段叫dt

查看表的CD_ID:select CD_ID from SDS where LOCATION='hdfs://n1:8020/user/hive/warehouse/xj_test1' ,(假设我们这里查出来表的新的CD_ID值为35178)

查看表的所有分区的CD_ID:SELECT * FROM SDS WHERE LOCATION LIKE 'hdfs://n1:8020/user/hive/warehouse/xj_test1/dt=%'

我们需要手工更新一下现有分区的CD_ID的值为表CD_ID的值:

UPDATE SDS SET CD_ID=35178 WHERE LOCATION LIKE 'hdfs://n1:8020/user/hive/warehouse/xj_test1/dt=%'

然后我们再去查询一下表xj_test1,字段c的值可以正常的显示出来了。


当然,删除分区重建也是可以的,具体选择哪种方法根据实际情况决定,毕竟删除分区是会删除数据的,如果不允许删除原来的数据,建议还是修改元数据。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值