MR 全局排序——多reducer

最新推荐文章于 2022-10-07 20:58:47 发布

Devin01213

最新推荐文章于 2022-10-07 20:58:47 发布

阅读量579

点赞数

本文链接：https://blog.csdn.net/ym01213/article/details/103033924

版权

在数据量大的情况下，使用单reducer进行全局排序的方式明显效率较低，可次采用多reducer的方式。

map_sort.py

在map中进行分桶，分桶方式自定。

#! /usr/bin/python

import sys

base_count = 10000
try:
        for line in sys.stdin:
                ss = line.strip().split('\t')
                key = ss[0]
                val = ss[1]

                new_key = base_count + int(key)

                partition_id = 1
                if new_key <= (10000+10100) / 2:
                        partition_id = 0

                print "%s\t%s\t%s" %(partition_id, new_key, val)
except Exception:
    print "map error"

red_sort.py

#! /usr/bin/python

import sys

try:
        for line in sys.stdin:
                partition_id, key, val = line.strip().split('\t')
                print '\t'.join([key,val])
except Exception:
    print "reduce error"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Devin01213

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MR 全局排序——多reducer

在数据量大的情况下，使用单reducer进行全局排序的方式明显效率较低，可次采用多reducer的方式。map_sort.py在map中进行分桶，分桶方式自定。#! /usr/bin/pythonimport sysbase_count = 10000try: for line in sys.stdin: ss = line....
复制链接

扫一扫