MapReduce的自定义排序、分区和分组

最新推荐文章于 2023-05-09 09:25:37 发布

zzw_1024

最新推荐文章于 2023-05-09 09:25:37 发布

阅读量3.4k

点赞数 2

分类专栏：大数据 hadoop mapreduce 文章标签： hadoop mapreduce 分区排序

本文链接：https://blog.csdn.net/wusdsf/article/details/75040840

版权

本文详细介绍了如何在MapReduce中实现自定义排序、分区和分组。通过实现WritableComparable接口来定义排序规则，覆盖Partitioner类以定制分区策略，以及自定义GroupingComparator实现特定的分组条件。这些方法使得MR程序能够根据具体需求灵活处理数据。

摘要由CSDN通过智能技术生成

1.自定义排序（WritableComparable）

我们写mr程序来处理文本时，经常会将处理后的信息封装到我们自定义的bean中，并将bean作为map输出的key来传输。上一文我用图解分析了mr程序的基本流程。而mr程序会在处理数据的过程中（传输到reduce之前）对数据排序（如：map端生成的文件中的内容分区且区内有序）。
我们自定义bean来封装处理后的信息的话，我们可以自定义排序规则来挑选bean中的某几个属性来作为排序的依据，这样就很灵活了。

import org.apache.hadoop.io.WritableComparable;

public class Person implements WritableComparable<Person> {
    private String name;   //姓名
    private int age;     //年龄
    private int charm;   //魅力值
    // 如果空构造函数被覆盖，一定要显示的定义一下，否则反序列化时会抛异常。
    public Person() {
    } 
    public Person(String name, int age, int charm) {
        super();
        this.name = name;
        this.age = age;
        this.charm = charm;
    }
    public String getName() {
        return name;
    }
    public void