mapreduce中一些坑

今天写了一个mapreduce程序,功能是根据query的pv次数,对pv进行排序。

但是写了三个小时,却都没有搞定。最后在同事Wuzhen的搞定下,才输出了正确结果。


总结一下原因。

1. 需要对输入进行转码。转码语句为:

String line = new String(value.getBytes(), 0, value.getLength(), "GBK");

2. 输出编码,需要指定。指定语句为:

job.setOutputFormatClass(GbkOutputFormat.class);

3. 注意OutputPath为目录

当时我把输入路径设置如下,但是跑完代码,却发现文件大小总是为0,找了很久原因,才发现在query_sort.txt下面还有一个为part-00000的文件!!!!!!!!!

/user/webrank/luliujie/segmentation/query_sort.txt

4. 上面三个问题解决后。我发现输出只有query,没有pv次数。

这个时候,我发现发现原来,我在reduce的输出key为LongWritable,当把它通过下面语句,转为Text时,输出就正常了。

new Text(key.toString())。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值