pyspark给hive表增加自增列

最新推荐文章于 2023-03-30 14:57:43 发布

攻城狮Kevin

最新推荐文章于 2023-03-30 14:57:43 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/wx1528159409/article/details/123122554

版权

Hive 同时被 2 个专栏收录

66 篇文章 16 订阅

订阅专栏

Spark

47 篇文章 7 订阅

订阅专栏

一般增加自增列可以考虑row_number() over(partition by XX order by XX) as rank

但是需要给hive表全局加上自增列，并且没有字段可供排序时，partition by和order by后无表字段可用。

这种情况只能考虑用row_number() over(order by 1)，即每一行记录多出个1，然后对1进行排序，取排序号作为自增id列，但是这样结果会出现一个问题：

记录结果会被打乱，因为无论spark还是mr本质是分布式进行的，运行多个task，每个task读取数据表一部分的数据，进行order by1处理，最后再来一次归并排序，因为排序字段都是1，所以结果会按照多个task的结果进行union，由于task是shuffle后随机出来的，所以union的最终结果，其记录与原始记录的顺序肯定不一致。

要解决这个问题，需要让spark只开启一个task去处理读取的所有表数据，即重分区为1，然后再去用row_number() over(order by 1) as rank去获取自增列。

select row_number() over(order by 1) as id, tmp.sub_task_id, tmp.root_id
from (
select /*+ COALESCE(1) */ * from table where event_day = '20220223'
) tmp;

这里/*+ XXX */，中间存储的是重分区算子coalesce(1)；这种方式能设置的算子有限，一般就是sql中用于设置重分区。

攻城狮Kevin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark给hive表增加自增列

一般增加自增列可以考虑row_number() over(partition by XX order by XX) as rank但是需要给hive表全局加上自增列，并且没有字段可供排序时，partition by和order by后无表字段可用。这种情况只能考虑用row_number() over(order by 1)，即每一行记录多出个1，然后对1进行排序，取排序号作为自增id列，但是这样结果会出现一个问题：记录结果会被打乱，因为无论spark还是mr本质是分布式进行的，运行多个task，
复制链接

扫一扫