Hadoop3教程（九）：MapReduce框架原理概述

最新推荐文章于 2024-07-06 22:58:00 发布

经年藏殊

最新推荐文章于 2024-07-06 22:58:00 发布

阅读量882

点赞数

分类专栏：大数据技术文章标签： mapreduce 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlh2220133699/article/details/133840945

版权

大数据技术专栏收录该内容

37 篇文章 9 订阅

订阅专栏

文章目录

简介
参考文献

简介

这属于整个MR中最核心的一块，后续小节会展开描述。

整个MR处理流程，是分为Map阶段和Reduce阶段。

一般，我们称Map阶段的进程是MapTask，称Reduce阶段是ReduceTask。

其完整的工作流程如图：

在这里插入图片描述

Map阶段具体的工作任务是啥呢？

1） map阶段决定，根据数据源，可以选择根据什么方式来读取数据；

默认情况下，map阶段读数据，是按行读，读取到的KV里，K是偏移量（可以理解成行数），V是这一行的内容。那map阶段是不是只能这么行读呢？

不是。

这里就要介绍一个组件，叫做InputFormat，它就是用来控制数据的读取形式。

Hadoop中的InputFormat有好几种实现，如FileInputFormat、TextInputFormat和CombineTextInputFormat等。

2）数据在被读进来之后，就会交给Mapper来进行自定义业务逻辑的处理；

3）接着进行shuffle，这是一个非常复杂的过程，可以在这里进行排序、分区、压缩、合并等等，堪称MapReduce中最核心的环节。

最后进入reduce阶段，也有一个组件，叫做OutputFormat，用来控制数据的输出形式。同样的，它也有好几种实现，默认的OutputFormat是把数据写进文件里，那我想写进数据库里，可不可以呢？

当然可以，自定义OutputFormat就可以。

接下来的几节就会围绕这个流程做展开讲述：

InputFormat
Shuffle机制
OutputFormat
Join应用

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop3教程（九）：MapReduce框架原理概述

简单介绍MapReduce的框架处理流程，后续小节会分阶段详细展开描述
复制链接

扫一扫

专栏目录

经年藏殊 CSDN认证博客专家 CSDN认证企业博客

码龄10年

117: 原创

17万+: 周排名

9万+: 总排名

12万+: 访问

: 等级

1566: 积分

202: 粉丝

188: 获赞

16: 评论

220: 收藏

私信

关注

热门文章

分类专栏

最新评论

SQL进阶理论篇（八）：SQL查询的IO成本
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/617828219。
SQL实践篇（三）：什么是Redis
白话机器学习: 优质好文，博主的文章细节到位，内容干货很多，感谢博主的分享，期待博主持续带来更多好文！
SQL进阶理论篇（十三）：数据库的查询优化器是什么？
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617765882。
SQL进阶理论篇（十）：数据库中的锁
小C真的很菜: 博主的技术面很广哦，小菜鸟求带，可以加你微信和您交流吗
SQL进阶理论篇（十）：数据库中的锁
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617754213。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。