MapReduce 二次排序总结

阿武z

于 2020-02-15 18:18:48 发布

阅读量325

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/xw514124202/article/details/104331870

版权

本文详细介绍了MapReduce的二次排序，包括需求背景、解决方案的四个步骤：改装Map结构以组合新Key值，自定义分区确保相同字段的Key进入同一Reduce，设置Key比较函数进行多级排序，以及设置分组比较器决定不同Key的Reduce分配。通过这些步骤，实现了对MapReduce输出的复杂排序需求。

摘要由CSDN通过智能技术生成

需求

1、输入数据：
keyA	1
keyB	3
keyB	77
keyB	54
keyA	2
keyC	22
keyC	221
keyC	20

2、目标输出
keyA	1,2
keyB	3,54,77
keyC	20,22,221

解决思路

在这里插入图片描述

STEP 1. 改装Map结构，组合成一个新的Key值

MR框架不管是默认排序或者是自定义排序都只是对Key值进行排序，但我们可以将原始数据的Key值和其对应的Value值 组合成一个新的Key值。即原始数据的Map改装如下：

keyA,1	1
keyB,3	3
keyB,77	77
..

STEP 2. 自定义分区 setPartitionerClass，将Key第一个字段相同放到一个Reduce中

对新的Key 进行排序，需要自定义分区处理器（如果新Key的 第一个字段相同，放到同一个Reduce中进行分组合并）
Map Shuffer 分区操作后，输出的数据流如下：

最低0.47元/天解锁文章

阿武z

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MapReduce 二次排序总结

需求

解决思路

STEP 1. 改装Map结构，组合成一个新的Key值

STEP 2. 自定义分区 setPartitionerClass，将Key第一个字段相同 放到一个Reduce中

STEP 2. 自定义分区 setPartitionerClass，将Key第一个字段相同放到一个Reduce中