前言:
在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作。
技术点:
MapReduce框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列(PriorityQueue)。
Mapper阶段:
从map输出到环形缓冲区的数据会被排序(这是MR框架中改良的快速排序),这个排序涉及partition和key,当缓冲区容量占用80%,会spill数据到磁盘,生成IFile文件,Map结束后,会将IFile文件排序合并成一个大文件(基于堆实现的优先级队列),以供不同的reduce来拉取相应的数据。
Reducer阶段:
从Mapper端取回的数据已是部分有序,Reduce Task只需进行一次归并排序即可保证数据整体有序。为了提高效率,Hadoop将sort阶段和reduce阶段并行化,在sort阶段,Reduce Task为内存和磁盘中的文件建立了小顶堆,保存了指向该小顶堆根节点的迭代器,并不断的移动迭代器,以将key相同的数据顺次交给reduce()函数处理,期间移动迭代器的过程实际上就是不断调整小顶堆的过程(建堆→取堆顶元素→重新建堆→取堆顶元素...),这样,sort和reduce可以并行进行。
分组Top n分析:
在数据处理中,经常会碰到这样一个场景,对表数据按照某一字段分组,然后找出各自组内最大的几条记录情形。针对这种分组Top N问题,我们利用Hive、MapReduce等多种工具实现一下。
场景模拟:
对类如下users表记录,取出不同grade下得分最多的两条记录
id grade score
1 A 10
2 A 40
3 B 30
4 C 20
5 B 10
6 D 40
7 A 30
8 C 20
9 B 10
10 D 40
11 C 30
12 D 20
最简单的办法是:
1、在maper阶段以grade为key,score为value,输出进入下一阶段2、经过shuffle之后,相同grade的数据会发送给同一个reducer
3、然后,我们就可以在reducer中遍历某个grade的一组values,
4、这一组values对于score来说是无序的,进而需要在reducer中缓存这一组values,然后排序从而取到这一组values中的Top n记录。
Reduce端TreeSet方法进阶:
需要说明的是,求Top n,更简单的方法可以直接用内置的TreeMap或者TreeSet,这两者是基于红黑树的一种数据结构,内部维持key的次序,但每次添加新元素,其排序的开销要大于堆调整的开销。例如要找最大的10个元素,那么创建的是小顶堆。小顶堆的特性是根节点是最小元素。不需要对堆进行再排序,当堆的根节点被替换成新的元素时,需要进行堆化,以保持小顶堆的特性。
案例实现步骤:
以TreeSet方法为例,在maptask阶段以grade为key,score为value,分发给reducetask,然后在reducetask阶段定义一个TreeSet<