Spark优化——推测执行机制_spark2.2推测机制-CSDN博客

本文链接：https://blog.csdn.net/wx1528159409/article/details/106528526

Spark job中，一个stage什么时候完成，取决于stage下最后一个task的完成时间。

task的完成时间也被很多因素影响，比如partition的分配，executor的资源使用情况，host的运行状态，集群网络等等。很多情况下因为运行环境导致的task跑的过慢，或者直接卡死，让task可以重新跑起来是可以缓解这个问题的，也就是Spark中的推测执行机制（speculation）。

--conf spark.speculation=true
--conf spark.speculation.interval=100
--conf spark.speculation.quantile=0.9
--conf spark.speculation.multiplier=1.5

1. 当spark.speculation设置为true时，就会对task开启推测执行，也就是在一个stage下跑的慢的tasks有机会重新启动；

2. spark.speculation.interval，100ms，Spark检测tasks推测机制的间隔时间；

3. spark.speculation.quantile，0.9，当一个stage下多少百分比的tasks运行完毕后才开启推测执行机制，0.9即90%的任务都运行完毕后开启推测执行；

4. spark.speculation.multiplier，1.5，一个task的运行时间是所有task的运行时间中位数的几倍时，才会被认为该task需要重新启动。

当启动了推测执行后，spark会获取先完成的task结果并且将task标记为完成，所以也不会出现数据冲突和重复。