TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响

在1个master和16个slave节点的Hadoop环境中,通过Terasort实验研究了不同数量的map和reduce任务对性能的影响。实验表明,reduce task数量接近或略大于节点数时,性能最优;而map任务数量过多会导致性能下降。Killed map Task Attempts主要由speculative执行机制引起,可通过设置mapred.map.tasks.speculative.execution为false优化。1G和10G数据中,Input Split Size设为128M时性能最佳,且数据量增大可能导致更多Failed tasks。
摘要由CSDN通过智能技术生成

 

一、           实验环境


1master节点, 16slave节点: CPU:8GHZ , 内存: 2G

网络:局域网


二、           实验描述


   通过Hadoop自带的Terasort排序程序,测试不同的map taskreduce task数量,对Hadoop性能的影响。

   实验数据由程序中的teragen程序生成,数据量为1GB10GB

   通过设置mapred.min.split.size,从而调节map task的数量;设置mapred.reduce.tasks,从而调节reduce task的数量;

   dfs.replication的值设为3,其它参数默认。


三、           实验结果与分析


 

Ø  实验一

 

                表1、改变reduce task(数据量为1GB)

Map task = 16

Reduce task

1

5

10

15

16

20

25

30

45

60

总时间

892

146

110

92

88

100

128

101

145

104

Map 时间

24

21

25

50

21

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值