Hadoop MapTask/ReduceTask各阶段耗费时间的测试

最新推荐文章于 2022-10-08 08:00:00 发布

zhxue123

最新推荐文章于 2022-10-08 08:00:00 发布

阅读量1.9k

点赞数

分类专栏： BigData 文章标签： hadoop 化工测试 merge 磁盘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhxue123/article/details/6859685

版权

io.block.size：64M

mapred.mapinput.min.splitsize：512M

io.sort.mb：512M

每个maptask的输入为512M的数据，在每个maptask中，发生了3次spill缓存溢写。

下面是通过日志统计出的各个细分阶段所用的时间：

每个TaskTracker都使用一个队列保存JobTracker分发过来的Task，我们将一个Task出队列的时间作为时间原点。

1. Hadoop首先将有关Task的文件（job.split，job.xml以及job.jar）从HDFS拷贝到TaskTracker的本地文件系统中，使用了不到1s的时间。这是因为job.split本来就在本地磁盘上。

2. 当所有需要的资源都已经被拷贝到本地后，Hadoop为这个Task启动一个TaskRunner线程，TaskRunner完成一些初始化工作，比如创建临时文件夹等等，最后TaskRunner启动一个子进程Child。此阶段耗时2s。

3. 子进程Child与TaskTracker进程通信，获得运行Task需要的JvmTask对象。此阶段耗时2s。

4. Child进程一开始有一些初始化工作，耗时2s。然后开始真正的运行maptask。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop MapTask/ReduceTask各阶段耗费时间的测试

io.block.size：64Mmapred.mapinput.min.splitsize：512Mio.sort.mb：512M每个maptask的输入为512M的数据，在每个maptask中，发生了3次spill缓存溢写。下面是通过日志统计出的各个细分阶段所用的时间：每个TaskTracker都使用一个队列保存JobTracker分发过来的Task，我们将一个Ta
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。