Spark-Shuffer调优
Shuffle调优一:调节 map 端缓冲区大小
在 Spark 任务运行过程中,如果 shuffle 的 map 端处理的数据量比较大,但是map 端缓冲的大小是固定的,可能会出现 map 端缓冲数据频繁 spill 溢写到磁盘文件中的情况,使得性能非常低下,通过调节 map 端缓冲的大小,可以避免频繁的磁盘IO 操作,进而提升 Spark 任务的整体性能。
map 端缓冲的默认配置是 32KB,如果每个 task 处理 640KB 的数据,那么会发生 640/32 = 20 次溢写,如果每个 task 处理 64000KB 的数据,机会发生 64000/32=2000次溢写,这对于性能的影响是非常严重的。
Shuffle调优二:调节 reduce端拉取数据缓冲区大小
Spark Shuffle 过程中, shuffle reduce task 的 buffer 缓冲区大小决定了 reduce task每次能够缓冲的数据量,也就是每次能够拉取的数据量,如果内存资源较为充足,适当增加拉取数据缓冲区的大小,可以减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。
reduce 端数据拉取缓冲区的大小可以通过 spark.reducer.maxSizeInFlight 参数进行设置,默认为 48MB,该参数的设置方法如下代码所示:
val conf = new SparkConf().set(“spark.reducer.maxSizeInFlight”, “96”)