SPARK 数据本地化(spark.locality.wait)

1.概念:task在执行前都会获取数据的分区信息进行分配,总是会优先将其分配到它要计算的数据所在节点,尽可能的减少网络传输

2.过程:一般会默认3s,重试5次的去分配,一旦超时失败,将会选择一个比上一个本地级别差的级别再一次分配,如果发生了数据传输,那么task首先通过blockmanager获取数据,如果本地没有数据,则通过getRemote方法从数据所在节点的blockmanager获取数据并返回至task所在节点

3.级别

PROCESS_LOCAL:进程本地化,性能最好。指代码和数据在同一个进程中,也就是同一个executor中;计算数据的task由executor执行,此时数据在executor的blockmanager里
NODE_LOCAL:节点本地化。代码和数据在同一个节点中,数据存储为节点的hdfs block数据块,task在节点的某个executror执行;或者数据和task在同一个节点不同的executor中,数据需要跨进程传输

NO_PREF:数据从哪里获取都一样,比如从数据库中获取数据,对于task而言没有区别

RACK_LOCAL:数据和task在一个机架的两个节点上,数据需要通过网络在节点之间进行传输

ANY:数据和task可能在集群中的任何地方,而且不在一个机架中,性能最差

4.调节:spark.locality.wait参数默认是3s,默认情况下,以下几个参数都是以spark.locality.wait为默认值,

spark.locality.wait.process
spark.locality.wait.node
spark.locality.wait.rack

实际情况中通过调节不同值达到最优的计算分配效果

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值