spark shuffle文件寻址过程

Shuffle 文件寻址

1) MapOutputTracker
MapOutputTracker 是 Spark 架构中的一个模块,是一个主从架构。
管理磁盘小文件的地址。

  • MapOutputTrackerMaster 是主对象,存在于 Driver 中。
  • MapOutputTrackerWorker 是从对象,存在于 Excutor 中。
    2) BlockManager
  • BlockManager 块管理者,是 Spark 架构中的一个模块,也是一个 主从架构。
  • BlockManagerMaster,主对象,存在于 Driver 中。
    BlockManagerMaster 会在集群中有用到广播变量和缓存数据 或者删除缓存数据的时候,通知 BlockManagerSlave传输或者删除数据。
  • BlockManagerSlave,从对象,存在于 Excutor 中。

BlockManagerSlave 会与 BlockManagerSlave 之间通信。

无论在 Driver 端的 BlockManager 还是在 Excutor 端的BlockManager 都含有三个对象:
1 DiskStore:负责磁盘的管理。
2 MemoryStore:负责内存的管理。
3 BlockTransferService:负责数据的传输。

3) Shuffle 文件寻址图
在这里插入图片描述
4) Shuffle 文件寻址流程
a) 当 map task 执行完成后,会将 task 的执行情况和磁盘小文件
的地址封装到 MpStatus 对象中,通过
MapOutputTrackerWorker 对象向 Driver 中的
MapOutputTrackerMaster 汇报。
b) 在所有的 map task 执行完毕后,Driver 中就掌握了所有的磁
盘小文件的地址。
c) 在 reduce task 执行之前,会通过 Excutor 中
MapOutPutTrackerWorker 向 Driver 端的
MapOutputTrackerMaster 获取磁盘小文件的地址。
d) 获取到磁盘小文件的地址后,会通过 BlockManager 连接数据
所在节点,然后通过 BlockTransferService 进行数据的传输。
e) BlockTransferService 默认启动 5 个 task 去节点拉取数据。默
认情况下,5 个 task 拉取数据量不能超过 48M。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值