mr中理解分区和分组(转)

最新推荐文章于 2021-06-28 19:36:20 发布

wwq_vracle

最新推荐文章于 2021-06-28 19:36:20 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwq_vracle/article/details/100135053

版权

原文链接：https://blog.csdn.net/qq_21292551/article/details/50261391

1.MapReduce中数据流动
（1）最简单的过程： map - reduce
（2）定制了partitioner以将map的结果送往指定reducer的过程：　map - partition - reduce
（3）增加了在本地先进性一次reduce（优化）过程：　map - combin(本地reduce) - partition -reduce

自定义一个分区方案，默认通过key的hash值
job中添加设置：
结果参考：

2.Mapreduce中Partition的概念以及使用
1)Partition的原理和作用
得到map给的记录后，他们该分配给哪些reducer来处理呢？hadoop采用的默认的派发方式是根据散列值来派发的，但是实际中，这并不能很高效或者按照我们要求的去执行任务。例如，经过partition处理后，一个节点的reducer分配到了20条记录，另一个却分配道了10W万条，试想，这种情况效率如何。又或者，我们想要处理后得到的文件按照一定的规律进行输出，假设有两个reducer，我们想要最终结果中part-00000中存储的是"h"开头的记录的结果,part-00001中存储其他开头的结果，这些默认的partitioner是做不到的。所以需要我们自己定制partition来根据自己的要求，选择记录的reducer。自定义partitioner很简单，只要自定义一个类，并且继承Partitioner类

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
mr中理解分区和分组(转)

原文链接：https://blog.csdn.net/qq_21292551/article/details/502613911.MapReduce中数据流动（1）最简单的过程：map-reduce（2）定制了partitioner以将map的结果送往指定reducer的过程：　map-partition-reduce（3）增加了在本地先进性一次reduce（优化）...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。