数据本地性，引起task分配不均executor执行慢

最新推荐文章于 2023-06-16 10:16:31 发布

GOD_WAR

最新推荐文章于 2023-06-16 10:16:31 发布

阅读量1k

点赞数

分类专栏：问题文章标签： executor task 分配不均数据本地性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/young_0609/article/details/105755301

版权

问题专栏收录该内容

10 篇文章 1 订阅

订阅专栏

如下问题讨论：

哥们给出的结论是repartition导致的数据倾斜。那么接下来，我们就仔细分析一下不是数据倾斜原因。

那哥们数是repartition导致的数据倾斜原因，是由于前三行数据输入和输出都是好几百兆，而后面的都是只有几个MB的输入，0B输出，所以下结论是数据倾斜。

数据倾斜往往指的是同一个stage内部：有的task数据量大，有的task数据量小，task间数据量大小差距比较大，而这个明显不是。这个是executor的页面，可以看complete task列，会发现前三行占据了几乎所有task执行，完成的task数是其余的十几二十倍。这个就是导致前三行输入输出数据量比较大的原因。

数据本地性是导致这个问题的根本原因。由于数据本地性task调度会优先调度到数据所在的executor机器，假如机器executor存在执行中的task会等待一个时间，在这个时间内task执行完，新task会直接调度到该executor上。如此往复，导致executor处理的task差距比较大。

官网给出了关于spark调度task的时候数据本地性降级的等待时间配置。

很简单，将3s设置为0s，然后结果就是task不会等待数据本性降级，就立即调度执行。

很多人禁用数据本地性的时候，直接给参数设置为0，没带单位导致不生效。

其实，根源还是kafka 创建topic的时候 partition数目没有够。单个parition的吞吐量是可以达到数万qps，但是结合业务逻辑，不同的数据输出位置，吞吐量会急剧下降，所以topic分区数，应该根据处理逻辑和落地位置，磁盘数，综合考虑设置。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据本地性，引起task分配不均executor执行慢

如下问题讨论：哥们给出的结论是repartition导致的数据倾斜。那么接下来，我们就仔细分析一下不是数据倾斜原因。那哥们数是repartition导致的数据倾斜原因，是由于前三行数据输入和输出都是好几百兆，而后面的都是只有几个MB的输入，0B输出，所以下结论是数据倾斜。数据倾斜往往指的是同一个stage内部：有的task数据量大，有的task数据量小，task间数据量大小...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。