hadoop 实现二级排序

在 Hadoop 中,默认情况下是按照 key 进行排序,如果要按照 value 进行排序怎么办?
有两种方法进行二次排序,分别为:buffer and in memory sort 和 value-to-key conversion。
buffer and in memory sort
主要思想是:在 reduce()函数中,将某个 key 对应的所有 value 保存下来,然后进行排序。 这种方法最大的缺点是:可能会造成 out of memory。
value-to-key conversion
主要思想是:将 key 和部分 value 拼接成一个组合 key(实现 WritableComparable 接口或者调 setSortComparatorClass 函数),这样 reduce 获取的结果便是先按 key 排序,后按 value 排序的结果,需要注意的是,用户需要自己实现 Paritioner,以便只按照 key 进行数据划分。
Hadoop 显式的支持二次排序,在 Configuration 类中有个 setGroupingComparatorClass()方法,
可用于设置排序 group 的 key 值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值