前言
最近工作上需要用到大数据平台,之前没用过大数据相关的工具,所以踩了不少坑。今天就把在分区表中添加字段的坑分享出来,避免再次踩坑。
背景
今天接到一个需求,在原有的 hive 分区表中需要添加一个字段,并且原来的数据中这个字段还是需要赋值。后续这个值是由 ETL 任务去拉取的,所以只需要解决好原来的数据。
解决方案
- 为了数据不丢失,先把原表备份,备份表名叫 xxx_temp(备份表这里不给出语句)。
- 备份完了之后,开始把原表结算复制一份,然后添加新加的字段,复制表名叫 xxx_temp1。
- 在把原表的数据复制到 xxx_temp1 的同时,把新加的字段也赋值上去。
- 把原表的数据 truncate 掉,然后添加新字段(这里为了尝试,先用了另外一个备份表 xxx_temp2)。
- 把复制表(xxx_temp1)中的数据 insert 到原表里面,任务完成。
具体操作
代码如下:
-- 创建表,这里需要用 like,不能用 as,如果用 as 分区表的分区是不会复制到新表上
create table 库名.xxx_temp1 like 库名.xxx;
-- 新增表字段
alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");
-- 如果上面用了 like,里面的