hadoop实现全局排序的思路

最新推荐文章于 2022-09-06 08:47:39 发布

zongquanliu

最新推荐文章于 2022-09-06 08:47:39 发布

阅读量754

点赞数

分类专栏：数据挖掘与机器学习文章标签： hadoop 全局排序

本文链接：https://blog.csdn.net/zongquanliu/article/details/45851229

版权

数据挖掘与机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

排序思路
借鉴快速排序的思路：假设为升序排序，那么每完成一次partition，pivot左边所有元素的值都小于等于pivot，而pivot右边的所有元素的值都大于等于pivot，如果现在有N个pivot，那么数据就被map成了N+1个区间，让reducer个数等于N+1，将不同区间的数据发送到相应区间的reducer；hadoop利用shuffle操作将这N+1份数据自动排序，reduce操作只需要接收中间结果后直接输出到文件即可。
由此归纳出用hadoop对大量数据排序的步骤：
1）、对待排序数据进行抽样；
2）、对抽样数据进行排序，产生pivot（例如得到的pivot为：3,9,11）；
3）、Map对输入的每条数据计算其处于哪两个pivot之间，之后将数据发给相应的reduce（例如区间划分为：<3、[3,9)、>=9，分别对应reducer0、reducer1、reducer2）；
4）、Reduce将获得数据直接输出