MapReduce面试题总结1

noworldling

已于 2022-08-12 15:54:46 修改

阅读量2.9k

点赞数 4

分类专栏： hadoop 大数据 mapreduce 文章标签：大数据 hadoop

于 2022-04-12 15:47:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46002001/article/details/124125960

版权

文章目录

1.介绍一下MR
2.Split
3. Map
4. Shuffle
- 4.1 Map端的Shuffle
- 4.2 Reduce 端的 Shuffle 阶段
5. Reduce阶段

1.介绍一下MR

MapReduce是Hadoop中负责计算部分。主要分为split、map、shuffle、reduce四个阶段，以wordcounter为例解释：
1）Split：MapReduce会将输入文件进行切块（默认以128M为单位进行切割），每一份代表每一行。
2）Map：解析每一行中的每个单词，并标记1，表示此单词出现了一次
3）Shuffle：将每一份中相同的单词分组到一起，并按照字母顺序进行升序排序
4）Reduce：将每一组中的单词出现次数进行累加求和。
最后将整理好的数据输出到HDFS中。

2.Split

2.1 分片概念

这里的分片只是逻辑分片，根据文件的字节索引进行分割。比如0—1MB位置定义为第一个分片，1MB-2MB定义为为第二个分片，依次类推……而原来的大文件还是原来的大文件，不会受到影响.
因此，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。

2.2 分片数量与Map Task数量的关系

Map Task的个数等于split的个数。 mapreduce在处理大文件的时候，会根据一定的规则，把大文件划分成多个分片，这样能够提高map的并行度。划分出来的就是InputSplit，每个map处理一个InputSplit，因此，有多少个InputSplit，就有多少个map task。

2.3 由谁来划分分片？

主要是 InputFormat类 来负责划分Split。InputFormat类有2个重要的作用：

1）将输入的数据切分为多个逻辑上的InputSplit，其中每一个InputSplit作为一个map的输入。

2）提供一个RecordReader&

最低0.47元/天解锁文章

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
MapReduce面试题总结1

文章目录1.介绍一下MR2.Split2.1 分片概念2.2 分片数量与Map Task数量的关系2.3 由谁来划分分片？2.4 分片的大小2.5 默认分片大小与Block分块大小相同的原因是什么？3. Map4. Shuffle4.1 Map端的Shuffle4.2 Reduce 端的 Shuffle 阶段5. Reduce阶段1.介绍一下MRMapReduce是Hadoop中负责计算部分。主要分为split、map、shuffle、reduce四个阶段，以wordcounter为例解释：1）Spl
复制链接

扫一扫

专栏目录

noworldling CSDN认证博客专家 CSDN认证企业博客

码龄5年

59: 原创

38万+: 周排名

156万+: 总排名

7万+: 访问

: 等级

672: 积分

215: 粉丝

60: 获赞

12: 评论

431: 收藏

私信

关注

热门文章

分类专栏

hadoop 20篇
大数据 26篇
mapreduce 9篇
刷题 16篇
算法 2篇
数据结构 10篇
zookeeper 2篇
数据仓库 7篇
Spark 1篇
剑指offer 10篇
面向对象 10篇
Java 13篇
stream
二叉树 1篇
继承 6篇
力扣 5篇
hive 1篇
李宏毅

最新评论

MAC利用VM进行Hadoop集群搭建保姆级教程（1）-----模板虚拟机环境准备
百日萌新786: 没有user目录呀吗是不是usr目录？
MAC利用VM进行Hadoop集群搭建保姆级教程（2）-----静态IP配置
qiaomaiya: 你好，想问一下，为什么我的Mac主机无法访问虚拟机呢？不是ssh root@虚拟机IP地址不就可以了吗，我的虚拟机之间可以pin通，希望大佬解答
数据中台详解
Kyrie_wen: 感谢讲解，有跟着文章介绍下载觉得datax还是挺不错的支持分布式部署，稳定性好，支持高可用性和容错性，也下了另外几个talend、informatica，etlcloud这几个平台，针对这个板块去做尝试，对数据中台有大概的理解
Java斗地主案列分析
2201_75961072: 牌的花色要怎么输入？
MapReduce学习总结（5）-----MapReduce工作机制
Horizon⸙: 你好，6 继承Reducer类，里面的方法是 setup()、reduce()、cleanup()吧

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。