分组Top N问题(二) - Hadoop MapReduce实现

最新推荐文章于 2024-08-20 07:30:00 发布

zeb_perfect

最新推荐文章于 2024-08-20 07:30:00 发布

阅读量5.8k

点赞数 3

分类专栏：微服务及云计算学习总结文章标签： hadoop mapreduce top n groupingcomparator partation

本文链接：https://blog.csdn.net/zeb_perfect/article/details/53335207

版权

本文探讨了如何使用Hadoop MapReduce解决分组Top N的问题，通过分析Mapper和Reducer阶段的工作原理，提出了一种利用TreeSet在Reducer端求解的方案，并详细解释了如何自定义groupingcomparator、partitioner来优化性能。

摘要由CSDN通过智能技术生成

前言：

在Hadoop中，排序是MapReduce的灵魂，MapTask和ReduceTask均会对数据按Key排序，这个操作是MR框架的默认行为，不管你的业务逻辑上是否需要这一操作。

技术点：

MapReduce框架中，用到的排序主要有两种：快速排序和基于堆实现的优先级队列（PriorityQueue）。

Mapper阶段：

从map输出到环形缓冲区的数据会被排序（这是MR框架中改良的快速排序），这个排序涉及partition和key，当缓冲区容量占用80%，会spill数据到磁盘，生成IFile文件，Map结束后，会将IFile文件排序合并成一个大文件（基于堆实现的优先级队列），以供不同的reduce来拉取相应的数据。

Reducer阶段：

从Mapper端取回的数据已是部分有序，Reduce Task只需进行一次归并排序即可保证数据整体有序。为了提高效率，Hadoop将sort阶段和reduce阶段并行化，在sort阶段，Reduce Task为内存和磁盘中的文件建立了小顶堆，保存了指向该小顶堆根节点的迭代器，并不断的移动迭代器，以将key相同的数据顺次交给reduce()函数处理，期间移动迭代器的过程实际上就是不断调整小顶堆的过程（建堆→取堆顶元素→重新建堆→取堆顶元素...），这样，sort和reduce可以并行进行。

分组Top n分析：

在数据处理中，经常会碰到这样一个场景，对表数据按照某一字段分组，然后找出各自组内最大的几条记录情形。针对这种分组Top N问题，我们利用Hive、MapReduce等多种工具实现一下。

场景模拟：

对类如下users表记录，取出不同grade下得分最多的两条记录

id	grade	score
1	  A    	10
2	  A   	40
3	  B   	30
4	  C   	20
5	  B   	10
6	  D   	40
7	  A   	30
8	  C   	20
9	  B   	10
10	  D   	40
11	  C   	30
12	  D   	20

最简单的办法是:

1、在maper阶段以grade为key，score为value，输出进入下一阶段
2、经过shuffle之后，相同grade的数据会发送给同一个reducer
3、然后，我们就可以在reducer中遍历某个grade的一组values，
4、这一组values对于score来说是无序的，进而需要在reducer中缓存这一组values，然后排序从而取到这一组values中的Top n记录。

Reduce端TreeSet方法进阶：

需要说明的是，求Top n，更简单的方法可以直接用内置的TreeMap或者TreeSet，这两者是基于红黑树的一种数据结构，内部维持key的次序，但每次添加新元素，其排序的开销要大于堆调整的开销。例如要找最大的10个元素，那么创建的是小顶堆。小顶堆的特性是根节点是最小元素。不需要对堆进行再排序，当堆的根节点被替换成新的元素时，需要进行堆化，以保持小顶堆的特性。