pyspark给hive表增加自增列

47 篇文章 7 订阅

一般增加自增列可以考虑row_number() over(partition by XX order by XX) as rank

但是需要给hive表全局加上自增列,并且没有字段可供排序时,partition by和order by后无表字段可用。

这种情况只能考虑用row_number() over(order by 1),即每一行记录多出个1,然后对1进行排序,取排序号作为自增id列,但是这样结果会出现一个问题:

记录结果会被打乱,因为无论spark还是mr本质是分布式进行的,运行多个task,每个task读取数据表一部分的数据,进行order by1处理,最后再来一次归并排序,因为排序字段都是1,所以结果会按照多个task的结果进行union,由于task是shuffle后随机出来的,所以union的最终结果,其记录与原始记录的顺序肯定不一致。

要解决这个问题,需要让spark只开启一个task去处理读取的所有表数据,即重分区为1,然后再去用row_number() over(order by 1) as rank去获取自增列。

select row_number() over(order by 1) as id, tmp.sub_task_id, tmp.root_id
from (
select /*+ COALESCE(1) */ * from table where event_day = '20220223'
) tmp;

这里/*+ XXX */,中间存储的是重分区算子coalesce(1);这种方式能设置的算子有限,一般就是sql中用于设置重分区。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值