Shuffle Read Time调优

最新推荐文章于 2021-12-16 18:16:11 发布

初心江湖路

最新推荐文章于 2021-12-16 18:16:11 发布

阅读量4.5k

点赞数

分类专栏：大数据 Spark 文章标签： shuffle read time优化 spark调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43878293/article/details/95751422

版权

先看第一张Spark任务执行时间轴的图：
红色部分是任务反序列化时间，黄色部分是shuffle read时间，绿色是实际计算任务执行时间，这里我们先不讨论任务反序列化时间长，下一篇文章说任务反序列化时间长怎么解决
在这里插入图片描述

1、首先shuffle read time是什么？
shuffle发生在宽依赖，如repartition、groupBy、reduceByKey等宽依赖算子操作中，在这些操作中会对Dataset数据集按照给定的规则重新洗牌，洗牌完成之后会落盘。然后对应的分区会被对应任务fetch到任务所在节点进行计算。这个fetch的过程所消耗的时间就是shuffle read time。
2、shuffle read time长短跟什么相关？
数据量、网络IO、资源、参数配置、并发度
3、以上图片里这种情况，可以看到shuffle read time比较均匀，优化方式：

如果使用的序列化方式不是kryo，先将序列化和反序列化方式换成kryo
将以下两个参数做适当调整
spark.reducer.maxReqsInFlight=512
单次最大拉取请求数，这个设置过大容易造成分区数据所在节点压力大，设置太小会大大影

最低0.47元/天解锁文章

初心江湖路

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Shuffle Read Time调优

先看第一张Spark任务执行时间轴的图：红色部分是任务反序列化时间，黄色部分是shuffle read时间，绿色是实际计算任务执行时间，这里我们先不讨论任务反序列化时间长，下一篇文章说任务反序列化时间长怎么解决1、首先shuffle read time是什么？shuffle发生在宽依赖，如repartition、groupBy、reduceByKey等宽依赖算子操作中，在这些操作中会对Da...
复制链接

扫一扫

专栏目录

初心江湖路 CSDN认证博客专家 CSDN认证企业博客

码龄6年

101: 原创

24万+: 周排名

75万+: 总排名

17万+: 访问

: 等级

2290: 积分

46: 粉丝

78: 获赞

9: 评论

359: 收藏

私信

关注

热门文章

分类专栏

Flink 3篇
Kafka 8篇
Hive 6篇
Redis 2篇
GC 4篇
HBase 1篇
Structured Streaming 2篇
数据仓库 4篇
Hadoop 4篇
MySQL 2篇
HDFS 5篇
Spark Streaming 1篇
Spark SQL 1篇
大数据 29篇
Spark 23篇
数据结构 5篇
数据库 7篇
Yarn 3篇
设计模式 1篇
Java 17篇
算法 12篇
锁 2篇

最新评论

CAS原理及其优缺点、总线锁、缓存锁
蓝兔猪: 我认为在java中CAS并不存在ABA问题，因为CAS整个过程本身就是原子性，只是将硬件CAS思想用到了其他地方，出现了ABA问题。
为什么会有接口和抽象类
慕然回首，已学到深处: 非常好，下次继续
如何设置Spark Executor Memory的大小
weixin_47177883: spark.executor.memoryOverhead 这个参数并不是可使用的堆外内存吧
Flink的计算方式
好好学习/天天向上: 讲的不赖，我非常认同分治这一点。一个任务拆分成多个子任务，然后将子任务结果汇总到一起
yarn application常用命令及显示示例
涤生大数据: 我在大佬的评论区瑟瑟发抖,有机会希望能和博主一起交流

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。