hadoop通过调优shuffle过程提高mapreduce性能

 

map端的调优属性:
属性名称类型默认值说明
mapreduce.task.io.sort.mbint100排序map输出时所使用的内存缓冲区的大小,已兆字节为单位
mapreduce.map.sort.spill.percentfloat0.80map输出内存缓冲和用来开始磁盘溢出写过程的记录边界索引,这两者使用比例的阀值
mapreduce.task.io.sort.fatorint10排序文件时。一次最多合并的流数。这个属性也在reduce中使用,将此值增加到100是很常见的
mapreduce.mao.combine.minspillsint3运行combiner所需的最小溢出文件数(如果已经指定combiner)
mapreduce.map.output.compressbooleanfalse是否压缩map输出
mapreduce.map.output.compress.codecClass nameorg.apache.hadoop.io.compress.DefaultCodec用于map输出的压缩编码器
mapreduce.shuffle.max.threadsint0每个节点管理器的工作线程数,用于将map输出到reduce。这是集群范围的设置,不能由单个作业设置。0表示使用Netty默认值,即两倍于可用的处理器
属性名称类型默认值描述
mapreduce.reduce.shuffle.parallelcopiesint5用于把map输出复制到reducer的线程数
mapreduce.reduce.shuffle.maxfetchfaiuresint10在声明失败之前,reducer获取一个map输出所花的最大时间
mapreduce.task.io.sort.factorint10排序文件时一次最多合并的流的数量,这个属性也在map端使用
mapreduce.reduce.shuffle.input.buffer.percentfloat0.70在shuffle的复制阶段,分配给map输出的缓冲区占堆空间的百分比
mapreduce.reduce.shuffle.input.merge.percentfloat0.66map输出缓冲区(由mapred.job.shuffle.input.buffer.percent定义)的阀值使用比例,用于启动合并输出和磁盘溢出写的过程
mapreduce.reduce.merge.in.mem.thresholdint1000启动合并输出和磁盘溢出写过程的map输出的阀值数,0或更小的数意味着没用阀值限制,溢出写行为由mapreduce.reduce.shuffle.merge.percent单独控制
mapreduce.reduce.input.buffer.percentfloat0.0在reduce过程中,在内存中保存map输出的空间占整个堆空间的比例。reduce阶段开始时,内存中的map输出大小不能大于这个值。默认情况下,在reduce任务开始之前,所有map输出都合并到磁盘上,以便reducer提供尽可能多的内存。然而,如果reducer需要的内存较少,可以增加此值来最小化访问磁盘的次数。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值