MR 全局排序——单reducer

最新推荐文章于 2021-02-15 17:30:44 发布

Devin01213

最新推荐文章于 2021-02-15 17:30:44 发布

阅读量587

点赞数

本文链接：https://blog.csdn.net/ym01213/article/details/103029228

版权

本文探讨如何利用MapReduce实现全局排序，通过两种方式：一是添加base_count变量利用字典序；二是配置参数。在map阶段，key加base_count确保长度一致，reduce阶段还原key并利用MapReduce内置排序功能。通过设置reduce任务数为1，确保所有数据进入一个分区，实现全局升序排序。此外，还介绍了配置参数的方式进行全局排序。

摘要由CSDN通过智能技术生成

利用MapReduce框架完成上述全局排序，将怎样来处理呢？我们知道，map的输出结果是键值对的形式，框架先将一行行的键值数据分区，同一个分区的数据聚集在一起，每个分区内的数据按照key排序，然后每个分区内的数据会被分发到对应的reduce处理，最后reduce输出结果，这个过程叫shuffle。依据此，设定一个reduce task，即强制把map输出的结果都分到一个分区中，也就交给了一个reduce处理，再以第一个字段为key，交由MapReduce去排序。

方式一：通过添加一个变量base_count，利用字典序进行全局排序

map_sort.py

key加上base_count，使得结果key长度一致，可以用字典序进行排序。

#! /usr/bin/python

import sys

base_count = 10000
try:
        for line in sys.stdin:
                ss = line.strip().split('\t')
                key = ss[0]
                val = ss[1]

                new_key = base_count + int(key)

                print "%s\t%s" %(new_key,val)
except Exception:
    print "map error"

red_sort.py

在reduce中，key要减去base_count，以此还原成原先的key。

最低0.47元/天解锁文章

Devin01213

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MR 全局排序——单reducer

利用MapReduce框架完成上述全局排序，将怎样来处理呢？我们知道，map的输出结果是键值对的形式，框架先将一行行的键值数据分区，同一个分区的数据聚集在一起，每个分区内的数据按照key排序，然后每个分区内的数据会被分发到对应的reduce处理，最后reduce输出结果，这个过程叫shuffle。依据此，设定一个reduce task，即强制把map输出的结果都分到一个分区中，也就交给了一个red...
复制链接

扫一扫

专栏目录