MapReduce中的WritableComparable 排序

1、排序概述

排序是MapReduce框架中最重要的操作之一。
MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。
默认排序是按照字典顺序排序,且实现该排序的方法是快速排序

对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序
对于ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序

2、排序分类

(1)部分排序
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。
(2)全排序
最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在
处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce所提供的并行架构。
(3)辅助排序:(GroupingComparator分组)
在Reduce端对key进行分组。应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部
字段比较不相同)的key进入到同一个reduce方法时,可以采用分组排序。
(4)二次排序
在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。

3、自定义排序 WritableComparable

bean 对象做为 key 传输,需要实现 WritableComparable 接口重写 compareTo 方法,就可以实现排序。

@Override
public int compareTo(FlowBean bean) {
	int result;
	// 按照总流量大小,倒序排列
	if (this.sumFlow > bean.getSumFlow()) {
		result = -1;
	}else if (this.sumFlow < bean.getSumFlow()) {
		result = 1;
	}else {
		result = 0;
	}
	return result;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
假设有一个销售数据的文件,每行记录包含销售日期、销售额和销售地点,格式如下: ``` 2019-05-01,2000,New York 2019-05-02,1500,Beijing 2019-05-02,3000,Shanghai 2019-05-03,2500,New York ``` 现在需要使用MapReduce对这个文件按照销售额进行排序,可以按照以下步骤实现: 1. 编写Mapper类,将每行记录拆分成键值对,其键为销售额,值为原始记录。Mapper类的代码如下: ```java public class SalesMapper extends Mapper<LongWritable, Text, DoubleWritable, Text> { private DoubleWritable sales = new DoubleWritable(); private Text record = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] fields = value.toString().split(","); double salesAmount = Double.parseDouble(fields[1]); sales.set(salesAmount); record.set(value.toString()); context.write(sales, record); } } ``` 2. 编写Reducer类,将每个键值对按照键(销售额)进行排序后输出。Reducer类的代码如下: ```java public class SalesReducer extends Reducer<DoubleWritable, Text, DoubleWritable, Text> { public void reduce(DoubleWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException { for (Text value : values) { context.write(key, value); } } } ``` 3. 在Driver类配置Job,并将Mapper和Reducer类作为任务的输入和输出。其,需要使用`job.setSortComparatorClass`方法设置自定义的排序比较器,以实现按照销售额进行排序。 ```java public class SalesSorter { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Sales Sorter"); job.setJarByClass(SalesSorter.class); job.setMapperClass(SalesMapper.class); job.setReducerClass(SalesReducer.class); job.setOutputKeyClass(DoubleWritable.class); job.setOutputValueClass(Text.class); job.setSortComparatorClass(DoubleWritableComparator.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 4. 编写自定义的排序比较器DoubleWritableComparator,实现按照Double类型的键(销售额)进行排序。代码如下: ```java public class DoubleWritableComparator extends WritableComparator { protected DoubleWritableComparator() { super(DoubleWritable.class, true); } @Override public int compare(WritableComparable a, WritableComparable b) { DoubleWritable aw = (DoubleWritable) a; DoubleWritable bw = (DoubleWritable) b; return -aw.compareTo(bw); // 按照销售额从大到小排序 } } ``` 5. 在命令行执行以下命令启动MapReduce任务: ``` hadoop jar path/to/jar SalesSorter input output ``` 其,`path/to/jar`是你的Java程序打包成的jar文件的路径,`input`是输入文件的路径,`output`是输出文件的路径。 执行完毕后,输出文件的记录将按照销售额从大到小排序

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南洲.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值