MapReduce的流程

-晚雪

已于 2023-03-07 20:25:16 修改

阅读量107

点赞数

分类专栏： Hadoop理论知识文章标签： mapreduce 大数据

于 2022-12-03 18:23:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51524477/article/details/128161201

版权

Hadoop理论知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

一、map前的操作

1. 将要处理的数据进行分片操作

2.为每一个分片分配一个MapTask任务

三、shuffle过程

2.分区partitioner

3.combiner （非必须）

4.分组GroupingComparator

一、map前的操作

这一大步由MapReduce框架自动完成

1. 将要处理的数据进行分片操作

按照一个特定的切片大小，将待处理数据分为逻辑上的多个split

注意：是针对每一个文件进行切片，不同文件不放在一起进行分片操作

Q1：如何实现切片操作

由 FileInputFormat 实现类的 getSplits() 方法完成的

该方法返回的是 List<InputSplit>，返回一组 InputSplit

InputSplit 封装了每一个逻辑切片的信息，包括长度和位置信息

Q2：如何确定切片大小呢

FileInputFormat中默认的切片机制（用户无额外操作时，默认这样切片）

（1）简单地按照文件的内容长度进行切片

　　（2）切片大小，默认等于 block 大小 【128M】

　　 （3）切片时~~不考虑数据集整体~~，而是逐个针对每一个文件单独切片

注意：若文件大小小于128M，则将这一个文件作为一个切片

2.为每一个分片分配一个MapTask任务

每一个MapTask在接收到FileSplit之后按行读取

将每一行转换为map端的输入数据类型：<一行文本的起始偏移量，一行文本的内容>

-------<LongWritable Text>

（字节偏移量：下一行记录开始位置=上一行记录的开始位置+上一行字符串内容的长度）

二、Mapper

map()方法：编写满足程序需求的代码

三、shuffle过程

发生在map阶段后，reduce阶段前

1.排序sort

①默认排序

默认按照key进行字典排序

②自定义排序

2.分区partitioner

① 默认分区

按照key的hashcode值%reducetask的个数 进行分区

② 自定义分区

3.combiner （非必须）

在mapper对输出结果进行一次合并

4.分组GroupingComparator

① 默认分组

将相同的key进行分组

② 自定义分组

四、Reducer

reduce()方法：编写满足程序需求的代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

-晚雪 CSDN认证博客专家 CSDN认证企业博客

码龄4年

21: 原创

129万+: 周排名

63万+: 总排名

8761: 访问

: 等级

176: 积分

345: 粉丝

6: 获赞

1: 评论

36: 收藏

私信

关注

热门文章

分类专栏

最新评论

IDEA+Scala
CSDN-Ada助手: 非常感谢您分享关于“IDEA+Scala”的博客，这篇文章让我们更深入了解了这一技术。我们鼓励您继续分享有关Scala的知识和经验，比如Scala在大数据处理中的应用、Scala实现Web应用程序、Scala并发编程等方面，这些主题都非常值得深入探讨。期待您的更多优质博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。