hadoop streaming 版本兼容问题

转载一篇同事的文章:

使用hadoop streaming的脚本,在从hadoop 1.0迁移到2.7.1时遇到问题:

使用1.0时,map的outputkey是Text正确,迁移到2.7.1时报错,修改为LongWritable正常。

为保证代码统一,在1.0上map的outputkey也使用LongWritable,报错,要求修改为Text,修改后正常。

解决办法,使用Text,在2.7.1 版本的streaming shell脚本中增加:

 -Dmapreduce.map.output.key.class=org.apache.hadoop.io.Text\

分析原因应该是hadoop streaming所使用的map outputkey默认值在版本升级时发生了变化,即:1.0默认为Text,2.0默认为LongWritable。

 

验证:

1.0中写死的代码:

jobConf_.setOutputKeyClass(Text.class);
jobConf_.setOutputValueClass(Text.class);
publicvoidsetOutputKeyClass(Class<?> theClass) {
  setClass("mapred.output.key.class", theClass, Object.class);
}

keyClass = (Class<K>)job.getMapOutputKeyClass();
publicClass<?> getMapOutputKeyClass() {
  Class<?> retv = getClass("mapred.mapoutput.key.class",null, Object.class);
 if(retv == null) {
    retv = getOutputKeyClass();
 }
  returnretv;
}
publicClass<?> getOutputKeyClass() {
  returngetClass("mapred.output.key.class",
 LongWritable.class, Object.class);
}

虽然默认值是LongWritable,但由于已经设置了mapred.output.key.class,所以在1.0中无法修改map outputkey参数,只能使用Text。

 

2.0中代码:

maptask中代码同1.0中的形式,得到默认值LongWritable。但在StreamJob类中并未对mapreduce.map.output.key.class 进行设置值,所以最终使用的是LongWritable。

idResolver.resolve(jobConf_.get("stream.map.output",
    IdentifierResolver.TEXT_ID));
jobConf_.setClass("stream.map.output.reader.class",
  idResolver.getOutputReaderClass(), OutputReader.class);
// 这两个条件均未满足。
if(isMapperACommand || jobConf_.get("stream.map.output") != null) {
  // if mapper is a command, then map output key/value classes come from the
  // idResolver
  // 正常这两句可以设置map outputkey和value为Text,可惜上面条件未满足
  jobConf_.setMapOutputKeyClass(idResolver.getOutputKeyClass());
  jobConf_.setMapOutputValueClass(idResolver.getOutputValueClass());
 
  if(jobConf_.getNumReduceTasks() == 0) {
    jobConf_.setOutputKeyClass(idResolver.getOutputKeyClass());
    jobConf_.setOutputValueClass(idResolver.getOutputValueClass());
  }
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值