python 实现Hadoop的partitioner和二次排序

最新推荐文章于 2023-03-16 20:02:16 发布

置顶

VIP文章 Tech_Hog

最新推荐文章于 2023-03-16 20:02:16 发布

阅读量3.6k

点赞数

分类专栏： Hadoop 文章标签： python hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whaoxysh/article/details/25482753

版权

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Partition->Reduce->Output。

Partition负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。

Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。
使用方法：
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
一般配合：
-D map.output.key.field.separator

-D num.key.fields.for.partition使用。
map.output.key.field.separator指定key内部的分隔符
num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key

示例：
1. 编写map程序mapper.sh；reduce程序reducer.sh; 测试数据test.txt

mapper.sh:

#!/bin/sh cat

reducer.sh:

#!/bin/sh sort

test.txt内容：

1,2,1,1,1

1,2,2,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

1,2,3,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

2. 测试数据test.txt放入hdfs，运行map-reduce程序

$ hadoop streaming /

-D stream.map.output.field.separator=, /

-D stream.num.map.output.key.fields=4 /

-D map.output.key.field.separator=, /

-D num.key.fields.for.partition=2 /

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

-input /app/test/test.txt /

-output /app/test/test_result /
-mapper ./mapper.sh /

-reducer ./reducer.sh /

-file mapper.sh /

-file reducer.sh /

-jobconf mapre.job.name="sep_test"

$ hadoop fs –cat /app/test/test_result/part-00003

1,2,1,1 1

1,2,2,1 1

1,2,3,1 1

$ hadoop fs –cat /app/test/test_result/part-00004

1,3,1,1 1

1,3,1,1 1

1,3,2,1 1

1,3,2,1 1

1,3,3,1 1

1,3,3,1 1

通过这种方式，就做到前4个字段是key，但是通过前两个字段进行partition的目的

注意：

-D map.output.key.field.separator=, /

这个分隔符使用TAB键貌似不管用

Hadoop Streaming 是一个工具，代替编写Java的实现类，而利用可执行程序来完成map-reduce过程

工作流程　：　

InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles

理解 :　

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 实现Hadoop的partitioner和二次排序

Hadoop Streaming 是一个工具，代替编写Java的实现类，而利用可执行程序来完成map-reduce过程工作流程　：　InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles理解 :　1 输入文件，可以是指定远程文件系统内的文件夹下的 *2 通过集群自己分解到各个PC
复制链接

扫一扫

专栏目录

Tech_Hog CSDN认证博客专家 CSDN认证企业博客

码龄13年

30: 原创

24万+: 周排名

126万+: 总排名

41万+: 访问

: 等级

4418: 积分

65: 粉丝

49: 获赞

20: 评论

194: 收藏

私信

关注

热门文章

分类专栏

python 25篇
Hadoop 41篇
推荐系统 7篇
新闻 8篇
R语言 5篇
机器学习&数据挖掘 21篇
算法 15篇
数据分析 16篇
Linux 13篇
remix 3篇
工具 9篇
中兴名臣之曾国藩 4篇
设计模式 1篇
数据库 6篇

最新评论

Kettle总结
呗特儿曼: 文章二的标题Kettle打错了
Linux中 “there are stopped jobs”问题的解决方案
郝姬友: 赞
计算广告学中的GFP、GSP和VCG对比
weixin_45277073: “根据期望收益最大来排序，这里的期望收益指的bid*ctr，被点击的广告主付的费用为bid(i+1)*ctr(i+1)/ctr(i)”请问一下这里的广告费用的计算公式里的CTR是预估CTR还是实际CTR呢，也就是说直接影响的广告主费用的CTR是实际的还是机器预估的呢？
vim中使用正则表达式
IT_Shero: :%s/t\([aou]\)g/h\1t/g 将所有tag、tog和tug分别改为hat、hot和hut（注意用group的用法和使用\1引用前面被匹配的字符）。
vim中使用正则表达式
IT_Shero: 函数式第二个例子，圆括号没加\，估计是网页显示的时候给弄丢了 [code=html] 【:%s/^\(\<\w\+\>\)/\=(line(".")-10) .".". submatch(1)】 [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。