Hadoop --- 推测执行Speculative Execution

最新推荐文章于 2022-11-22 15:46:59 发布

库昊天

最新推荐文章于 2022-11-22 15:46:59 发布

阅读量573

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangguosb/article/details/86507775

版权

大数据专栏收录该内容

57 篇文章 2 订阅

订阅专栏

问题

MapReduce模型将一个作业分解为多个任务并行执行，以缩短执行时间。这种模型的特点是，整个作业的运行时间由最后完成的一个任务决定。如果少数任务运行缓慢，则会影响作业的整体进度。

推测执行

任务运行缓慢的原因有很多，很难检测到具体原因。Hadoop提供了一种优化措施，当检测到某个任务运行缓慢时，Hadoop会启动另一个与该任务完全相同的任务，并最终选用最先成功运行完成任务的计算结果作为最终结果。

适用场景

集群机器处理能力存在明显差异时，比如某台机器硬件老化、负载过高，或者Docker机所在的宿主机超卖严重等等。实际上，集群规模越大，这些情况出现的概率会越大。

不适用场景

任务之间存在固有的不均衡特点，比如数据倾斜等；
Map/Reduce任务处理逻辑非幂等；

配置参数

推测执行可以配置为集群维度的，也可以配置为作业或者Map/Reduce维度的。实际生产中，建议集群维度开启推测执行。需要注意的是，当推测执行的任务过多时会影响整个集群的吞吐量。个人建议，有自研能力的功能不妨可以尝试针对作业的优先级设置是否开启推测执行，而不是整个集群。
在这里插入图片描述

检测策略

某个任务的运行时间超过整个作业的平均运行时间某个阈值，并且该任务自身运行时间超过某个阈值。

参考：

https://zhuanlan.zhihu.com/p/22348162

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

497
原创

288
点赞

1192
收藏

1349
粉丝

关注

私信

热门文章

分类专栏

NoSQL 1篇
缓存 4篇
订单系统设计 7篇
数据结构与算法
Netty 38篇
Java基础 93篇
Linux 38篇
JVM 32篇
TCP协议 16篇
常见问题排查 26篇
方案设计 35篇
Mysql 26篇
Zookeeper 25篇
Http协议 18篇
分布式理论 12篇
Spring 18篇
Mqtt协议 20篇
杂谈 47篇
面试系列 51篇
RocketMQ 1篇
Spring-Boot 29篇
Spring Cloud 1篇
大数据 57篇
Mybatis 5篇
前端 2篇
Antlr 5篇
Docker 4篇

最新评论

HIVE---TBLPROPERTIES
别等我回来: 请问：内部表建表auto.purge设置为ture时，删除表会自动删除数据不，以及使用auto.purge建表是一定要指定存储路径嘛
微信支付：普通商户 VS 服务商
Tom195: 只有服务商可以分账，单商户不可以
HTTP2二进制协议
chenheigui: 我想问下，为啥二进制协议解析效率高？
Java并发之volatile
CSDN-Ada助手: SpringBoot的注解方式IOC，是否可以看成是一种语言而不用理解它是怎么实现的？
缓存查看利器hcache
喜欢小新的小白: 博主发的是 x64 可执行的文件，你用不是 x64的肯定不行

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。