SPARK 数据本地化（spark.locality.wait）

最新推荐文章于 2020-09-21 16:08:10 发布

玉羽凌风

最新推荐文章于 2020-09-21 16:08:10 发布

阅读量6.4k

点赞数 1

分类专栏： SPARK 文章标签： spark 本地性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouyan8603/article/details/84197190

版权

SPARK 专栏收录该内容

51 篇文章 1 订阅

订阅专栏

1.概念：task在执行前都会获取数据的分区信息进行分配，总是会优先将其分配到它要计算的数据所在节点，尽可能的减少网络传输

2.过程：一般会默认3s,重试5次的去分配，一旦超时失败，将会选择一个比上一个本地级别差的级别再一次分配，如果发生了数据传输，那么task首先通过blockmanager获取数据，如果本地没有数据，则通过getRemote方法从数据所在节点的blockmanager获取数据并返回至task所在节点

3.级别

PROCESS_LOCAL：进程本地化，性能最好。指代码和数据在同一个进程中，也就是同一个executor中；计算数据的task由executor执行，此时数据在executor的blockmanager里
NODE_LOCAL：节点本地化。代码和数据在同一个节点中，数据存储为节点的hdfs block数据块，task在节点的某个executror执行；或者数据和task在同一个节点不同的executor中，数据需要跨进程传输

NO_PREF：数据从哪里获取都一样，比如从数据库中获取数据，对于task而言没有区别

RACK_LOCAL：数据和task在一个机架的两个节点上，数据需要通过网络在节点之间进行传输

ANY：数据和task可能在集群中的任何地方，而且不在一个机架中，性能最差

4.调节：spark.locality.wait参数默认是3s,默认情况下，以下几个参数都是以spark.locality.wait为默认值，

spark.locality.wait.process
spark.locality.wait.node
spark.locality.wait.rack

实际情况中通过调节不同值达到最优的计算分配效果

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SPARK 数据本地化（spark.locality.wait）

1.概念：task在执行前都会获取数据的分区信息进行分配，总是会优先将其分配到它要计算的数据所在节点，尽可能的减少网络传输2.过程：一般会默认3s,重试5次的去分配，一旦超时失败，将会选择一个比上一个本地级别差的级别再一次分配，如果发生了数据传输，那么task首先通过blockmanager获取数据，如果本地没有数据，则通过getRemote方法从数据所在节点的blockmanager获取数据...
复制链接

扫一扫

专栏目录

博客等级

码龄14年

148
原创

375
点赞

1182
收藏

135
粉丝

关注

私信

热门文章

分类专栏

最新评论

windows安装npm教程
仕过红尘: npm install npm -g的时候会提示无法升级，需要高版本的nodejs，这个怎么弄啊，要回退低版本吗还是升级nodejs，这个不弄，就没有global
windows安装npm教程
qaqqwqovotat: 按下Windows键 + R来打开“运行”对话框。输入“cmd”并按下Ctrl + Shift + Enter。这将直接以管理员身份打开命令提示符。
windows安装npm教程
qaqqwqovotat: 按下Windows键 + R来打开“运行”对话框。输入“cmd”并按下Ctrl + Shift + Enter。这将直接以管理员身份打开命令提示符。
windows安装npm教程
此ID涉嫌违规已被禁用: 而你我的英雄
windows安装npm教程
blankpps: 删掉.npmrc文件就行了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。