hadoop的三大核心组件之MapReaduce

最新推荐文章于 2023-12-13 11:19:53 发布

Zzreal

最新推荐文章于 2023-12-13 11:19:53 发布

阅读量6.2k

点赞数 1

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zonzereal/article/details/79042055

版权

本文详细介绍了Hadoop MapReduce的核心组件，包括自定义序列化类、Mapper、Reducer、Partitioner、Combiner、Driver以及自定义输入和输出格式的工作原理。通过代码示例和流程解析，帮助读者深入理解MapReduce的运作机制。

摘要由CSDN通过智能技术生成

Hadoop的三大核心组件之MapReaduce

MapReduce是什么？

MR是一个分布式计算框架，它是Hadoop的一个程序，不会产生进程。

MR部分需要结合代码来理解学习，由于代码篇幅原因不方便截图，代码已经贴到github上，注释也挺详细，有需要的朋友可以去看，传送门：https://github.com/ZzzzZzreal/HadoopKeyPoints

(DATA文件夹是代码测试使用的数据，RESULT文件夹是代码测试结果)

======================================================================

A、自定义序列化类

代码及注释参见--https://github.com/ZzzzZzreal/HadoopKeyPoints/blob/master/HadoopKeyPoints/src/main/java/MyComparator.java

有时候，默认的数据类型不能满足我们的需求时，需要我们自定义序列化类，实现WritableComparable。在自定义的序列化类中，最重要的是重写compareTo方法以及序列化反序列化方法。序列化和反序列化的内容需要重点关注，容易犯低级错误。

★二次排序：compareTo方法也可以实现二次排序的功能，但会产生大量的序列化反序列化实例，浪费资源；比较优化的方法是在自定义序列化类中的一个静态内部类--Comparator，继承WritableComparator，在这个类中的compare方法中写排序的逻辑。需要对这个内部类进行注册。

B、Mapper---Mapper对来的每一条数据进行一次计算（这里的计算指的时代码逻辑，这句话的意思就是每来一条数据走一次map方法）

代码及注释--h

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hadoop的三大核心组件之MapReaduce

Hadoop的三大核心组件之MapReaduceMapReduce是什么？MR是一个分布式计算框架，它是Hadoop的一个程序，不会产生进程。MR部分需要结合代码来理解学习，由于代码篇幅原因不方便截图，代码已经贴到github上，注释也挺详细，有需要的朋友可以去看，传送门：https://github.com/ZzzzZzreal/HadoopKeyPoints(DATA文件夹
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。