记录一次定位spark shuffle总是报connection reset by peer的问题

最新推荐文章于 2024-06-03 14:57:29 发布

zhuge134

最新推荐文章于 2024-06-03 14:57:29 发布

阅读量5.4k

点赞数 2

分类专栏：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuge134/article/details/86556319

版权

大数据同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

问题描述：spark使用dynamicAllocation模式，开启external shuffle service，并且yarn上也正常起了spark-shuffle service ，在shuffle过程中，executor总是报connection reset by peer异常，导致拉取shuffle数据失败，任务失败。

尝试了以下措施：

1. spark.shuffle.blockTransferService=nio

2. 怀疑是服务器最大打开文件数达到上限，导致socket拒绝连接，通过ulimit -a 查看最大文件打开数为65536

3. 调大nodemanager启动内存为2g（很早就意识到应该从nodemnager找原因）

4. 服务器开启jstatd，然后用jvisualvm监控，没有发现内存溢出或内存耗尽的情况，看gc曲线也正常

5. jstat -gccause为发现fullgc

6. 减少executor数量上限为6，以为是连接数过多导致

试了以上方法都没有作用，

后来通过查看nodemanager日志才定位到原因，原来是netty包版本与spark shuffle使用的netty包版本冲突，导致spark shuffle服务的线程报NoSuchMethodError，进而关闭连接，所以executor端收到connection reset by peer异常，通过替换netty包解决，将spark jars目录下的netty包拷到nodemanager的lib目录下，注意hdp有hadoop的lib目录和yarn的lib目录，两个都要替换最后问题解决。

总结：定位问题思路真的很重要，有问题不要急着胡乱搞一通，没有思路可以静下来想一想，思考问题可能出现的环节，连接重置其实很简单，无非就是连接两端的问题，找到两端跟连接相关的进程进行定位，主要通过查看日志。对于各种超时的情况很有可能是内存耗尽，jvm长时间fullgc导致，尤其对于分布式应用一般会使用心跳机制检测存活。

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
记录一次定位spark shuffle总是报connection reset by peer的问题

问题描述：spark使用dynamicAllocation模式，开启external shuffle service，并且yarn上也正常起了spark-shuffle service ，在shuffle过程中，executor总是报connection reset by peer异常，导致拉取shuffle数据失败，任务失败。尝试了以下措施：1. spark.shuffle.blockT...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。