大数据:Hadoop常见参数控制+调优策略

Hadoop常见参数控制+调优策略

hadoop常见参数
配置所在文件参数参数默认值
hdfs-site.xmldfs.namenode.support.allow.format 格式化指令:hadoop namenode -format 作用是生成新的Fsimage文件和Edits文件。也会清空之前的元数据true默认是生效的. 把参数变为false,可以使此指令失效
hdfs-site.xmldfs.heartbeat.interval3默认心跳间隔周期是3s.如果集群网络状况不好,可以适当调大此参数
hdfs-site.xmldfs.blocksize134217728块大小,默认是128MB.一般不调此大小. 但是如果要调节,必须是1024的整数倍
hdfs-site.xmldfs.namenode.checkpoint.period 可以通过指令手动合并: hadoop dfsadmin -rollEdits3600此参数是Fsimage和Edits文件的合并周期,默认是3600s
hdfs-site.xmldfs.stream-buffer-size4096获取的输入流或输出流默认自带缓冲区, 大小是4096字节. 可以适当调大此参数,但必须是1024整数倍
mapred-site.xmlmapreduce.task.io.sort.mb100溢写缓冲区大小,默认是100MB.可以适当调大此大小. 一般可以控制在200MB~350MB之间.主要看服务器的配置情况
mapred-site.xmlmapreduce.map.sort.spill.percent0.8溢写阈值, 默认是80%.主要,不要将此参数调成1.一般百分比参数都不动
mapred-site.xmlmapreduce.reduce.shuffle.parallelcopies5是reduce 默认的Fetch线程数, 调节的策略:让线程数尽可能进阶或等于Map任务数,达到并行抓取的效果
mapred-site.xmlmapreduce.job.reduce.slowstart.completedmaps0.05此参数是Reduce的启动比例,默认是5%. 比如100个map任务,有5个map任务完成,reduce就开始工作.
mapred-site.xmlio.sort.factor10此参数是Merge的合并因子,默认是10.可以适当调大此参数,也可以减少I/O
mapred-site.xmlmapred.compress.map.outputfalse对Map任务最后生成的结果文件是否开启压缩.默认是不开启的.开启压缩的好处在于可以减少网络数据的传输,节省带宽. 开启压缩,会导致占用更多的CPU资源.
mapred-site.xmlmapred.map.tasks.speculative.executiontrueMap任务的推测执行机制.此机制默认就是开启. MR框架会检测 运行明显慢于其他map任务的任务,然后对于慢任务,会在其他服务器上启动备份任务. 最后哪个运行快,就用哪个,然后将慢任务kill 掉. 此机制的目的是为了弥补job运行的短板机制. 注:如果当集群的计算资源比较紧张时,可以将此机制关掉.
mapred-site.xmlmapred.reduce.tasks.speculative.executiontrueReduce任务的推测执行机制
MR调优策略

Map Task和Reduce Task调优的一个原则就是

1.减少数据的传输量

2.尽量使用内存

3.减少磁盘IO的次数

4.增大任务并行数

5.除此之外还有根据自己集群及网络的实际情况来调优。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值