MapReduce的自定义排序、分区和分组

本文详细介绍了如何在MapReduce中实现自定义排序、分区和分组。通过实现WritableComparable接口来定义排序规则,覆盖Partitioner类以定制分区策略,以及自定义GroupingComparator实现特定的分组条件。这些方法使得MR程序能够根据具体需求灵活处理数据。
摘要由CSDN通过智能技术生成

1.自定义排序(WritableComparable)

  1. 我们写mr程序来处理文本时,经常会将处理后的信息封装到我们自定义的bean中,并将bean作为map输出的key来传输。上一文我用图解分析了mr程序的基本流程。而mr程序会在处理数据的过程中(传输到reduce之前)对数据排序(如:map端生成的文件中的内容分区且区内有序)。

  2. 我们自定义bean来封装处理后的信息的话,我们可以自定义排序规则来挑选bean中的某几个属性来作为排序的依据,这样就很灵活了。

import org.apache.hadoop.io.WritableComparable;

public class Person implements WritableComparable<Person> {
    private String name;   //姓名
    private int age;     //年龄
    private int charm;   //魅力值
    // 如果空构造函数被覆盖,一定要显示的定义一下,否则反序列化时会抛异常。
    public Person() {
    } 
    public Person(String name, int age, int charm) {
        super();
        this.name = name;
        this.age = age;
        this.charm = charm;
    }
    public String getName() {
        return name;
    }
    public void 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值