hadoop 自定义分区

置顶小码农叔叔

已于 2022-08-09 20:29:10 修改

阅读量1.3w

点赞数 23

分类专栏： hadoop 大数据文章标签： hadoop自定义分区 hadoop 自定义分区总结 hadoop 使用自定义分区

于 2022-01-03 11:23:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangcongyi420/article/details/122284302

版权

大数据同时被 2 个专栏收录

21 篇文章 21 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

13 篇文章 2 订阅

订阅专栏

本文介绍了Hadoop中的分区概念，详细讲解了默认的hash分区规则，并通过实例展示了如何自定义分区。通过自定义分区步骤，可以按业务需求将数据分配到不同分区，例如按人物姓氏分配到特定分区。同时，文章总结了自定义分区时ReduceTask数量与分区数量的关系，以及可能遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

分区概念

分区这个词对很多同学来说并不陌生，比如Java很多中间件中，像kafka的分区，mysql的分区表等，分区存在的意义在于将数据按照业务规则进行合理的划分，方便后续对各个分区数据高效处理

Hadoop分区

hadoop中的分区，是把不同数据输出到不同reduceTask ，最终到输出不同文件中

hadoop 默认分区规则

hash分区
按照key的hashCode % reduceTask 数量 = 分区号
默认reduceTask 数量为1，当然也可以在driver 端设置

以下是Partition 类中摘取出来的源码，还是很容易懂的
在这里插入图片描述

hash分区代码演示

下面是wordcount案例中的driver部分的代码，默认情况下我们不做任何设置，最终输出一个统计单词个数的txt文件，如果我们在这段代码中添加这样一行
在这里插入图片描述

再次运行下面的程序后，会出现什么结果呢？

public class DemoJobDriver {

    public static void main(String[] args) throws Exception {

了解本专栏

超级会员免费看

小码农叔叔

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
37
评论
hadoop 自定义分区

hadoop 自定义分区总结
复制链接

扫一扫

专栏目录

评论 37

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小码农叔叔 谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。