MapReduce流程

boyzwz

已于 2022-05-29 21:59:00 修改

阅读量463

点赞数

文章标签： mapreduce hadoop 大数据

于 2022-05-26 20:55:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zwyoozwz/article/details/124991429

版权

mapreduce 必须构建在hdfs之上的一种大数据离线分布式计算框架

切片 split:

在 MapReduce 中，执行 Map 之前，首先将输入文件按指定大小 split 切分成小片（是逻辑上的切片，而不是真正意义上的切分）默认为 128M，每切分一小片生成一个 Map 任务（即每读取文件 128M 产生一个 Map 任务），当最后一片与上一个切片大小加起来小于128*1.1时，则会这两片生成一个 Map 任务。

split 和 block 大小默认一致,为了减少由于 split 和 block 之间大小不一致,导致的多余的网络之间的传输。

执行 MapTask：

map 默认从所属切片读取数据，每次读取一行（默认读取器）到内存中（map 种的逻辑作用在每一行上）。

每一个 Map 任务都有一个环形缓冲区（默认100M），Map 任务产生的数据会写入环形缓冲区（内存中），当写入的数据达到缓冲区的阈值时（默认80%即80M），则会开始将缓冲区中的数据向磁盘中溢写（每次溢写都会产生一个新的溢写文件），而Map中的数据则可以继续写入缓冲区。

在溢写到磁盘之前，会对数据进行分区，排序（快速排序）

在 reduce 拉取溢写文件之前，每个 Map 任务产生的溢写文件会进行一次合并（归并排序），生成一个大的溢写文件。

执行 ReduceTask：

当 Map 任务完成后，Reduce 从每一个 Map 拉取数据（同一个分区的数据被拉取到同一个 Reduce中），那么每个 map 都会产生一个小文件。

Reduce 在对每一个 map 任务的结果进行合并（归并排序），聚合得到结果。

MapReduce 工作过程中， Map 阶段处理的数据如何传递给 Reduce 阶段，这是 MapReduce 框架中关键的一个过程，这个过程叫作 Shuffle 。

MapReduce的资源调度：

MapReduce 1.x：

JobTracker：

主节点，单点，负责调度所有的作用和监控整个集群的资源负载。

MapReduce 2.x：

核心思想：将 MRv1 中 JobTracker 的资源管理和任务调度两个功能分开，分别由ResourceManager 和 ApplicationMaster 进程实现

ResourceManager：

主节点，负责整个集群的资源管理和调度。

ApplicationMaster：

负责与 ResourceManager 协商资源，并和 NodeManager 协同来执行和监控 Container。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce流程

mapreduce必须构建在hdfs之上的一种大数据离线分布式计算框架切片split:在MapReduce中，执行Map之前，首先将输入文件按指定大小split切分成小片（是逻辑上的切片，而不是真正意义上的切分）默认为128M，每切分一小片生成一个Map任务（即每读取文件128M产生一个Map任务），当最后一片与上一个切片大小加起来小于128*1.1时，则会这两片生成一个Map任务。执行MapTask：map默认从所属切片读取数据，每次读取一行（默认读取器）...
复制链接

扫一扫

boyzwz CSDN认证博客专家 CSDN认证企业博客

码龄2年

23: 原创

77万+: 周排名

55万+: 总排名

2万+: 访问

: 等级

242: 积分

5: 粉丝

10: 获赞

3: 评论

102: 收藏

私信

关注

热门文章

最新评论

DataX 的使用
ETLCloud数据集成社区: "文章很实用，感谢博主分享。我们企业最近新出了ETLCloud数据集成工具，欢迎大家去体验，提供大量数据集成和转换功能，支持多种数据源的连接和转换操作，欢迎大家加入我们的社区，一起交流下，提提不同的建议！！我们官网链接：https://etlcloud.cn/"
关于Flink
boyzwz: https://gitee.com/anhuisjxy_mllib_fiy/bigdata17.git

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。