大数据面试题（三）：MapReduce核心高频面试题

Lansonli

已于 2022-11-23 08:40:55 修改

阅读量1.3k

点赞数 20

分类专栏：大数据入门核心技术文章标签：大数据 mapreduce hadoop

于 2022-11-23 08:39:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoweite1/article/details/127993272

版权

大数据入门核心技术专栏收录该内容

259 篇文章 307 订阅 ¥49.90 ¥99.00

订阅专栏

文章目录

MapReduce核心高频面试题

一、ReduceTask工作机制

二、请描述mapReduce有几种排序及排序发生的阶段？

1、排序的分类

2、自定义排序WritableComparable

3、排序发生的阶段

三、请描述mapReduce中shuffle阶段的工作流程，如何优化shuffle阶段？

四、请描述mapReduce中combiner的作用是什么，一般使用情景，哪些情况不需要，及和reduce的区别？

五、如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？

六、MapReduce怎么实现 TopN？

七、有可能使 Hadoop 任务输出到多个目录中么？如果可以，怎么做？

八、简述hadoop实现join的几种方法及每种方法的实现

1、reduce side join

九、请简述hadoop怎样实现二级排序

十、Hadoop中RecordReader的作用是什么？

十一、给你一个1G的数据文件。分别有id,name,mark,source四个字段，按照mark分组，id排序，手写一个MapReduce?其中有几个Mapper？

1、在map端对mark排序，在reduce端对id分组

2、几个mapper

MapReduce核心高频面试题

一、ReduceTask工作机制

1、Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

2、Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

3、Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

4、Reduce阶段：reduce()函数将计算结果写到HDFS上。

了解本专栏

关注

20
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
26
评论
大数据面试题（三）：MapReduce核心高频面试题

如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key的 hashcode 值摸运算（%）reduce 的数量，得到的数字就是“分区号”。
复制链接

扫一扫

专栏目录

Lansonli

CSDN认证博客专家 CSDN认证企业博客

码龄8年

2022年度博客之星大数据领域TOP 2

1357: 原创

718: 周排名

92: 总排名

272万+: 访问

: 等级

6万+: 积分

19万+: 粉丝

1万+: 获赞

1万+: 评论

2万+: 收藏

私信

关注

分类专栏

最新评论

Spark实时（五）：InputSource数据源案例演示
全栈小5: 干货很多，文章内容实用性很好，技术点讲解的很到位。期待大佬的持续更新！支持！也期待大佬的指点哦【Spark实时（五）：InputSource数据源案例演示，博主这篇文章，值得一看】
Spark实时（五）：InputSource数据源案例演示
失散多年的哥哥: 面对这个问题，我们需要拿出新水平、达到新境界，通过新举措、新发展，形成新突破，为此，我们必须重视新方法、看清新形式、理准新要求，只有这样，我们才能在新期待、新关系中，用好新本领、展现新风貌、走出新高度，新知识造就新事物、新实践获得新成果。一定要认识到其中的重要性，明了紧迫性、坚持自觉性、拿出主动性，以全局性、前瞻性的眼光把握时代性、坚持实践性，特别要有针对性，面对战略性、长期性的任务，我们需要考虑到其复杂性与艰巨性，调动积极性与创造性，有计划性、敏锐性的干好事情，所以说博主的文章正好解决了我的问题，感谢博主分享
大数据学习指南从入门到精通
数据小羊: 非常感谢作者分享这篇精彩的技术文章💖👀！文章不仅深入浅出地讲解了相关技术点，而且通过实例让理论知识更加生动、易于理解。作者的努力和热情从字里行间都能感受到，这不仅极大地丰富了我的技术视野👁💖，也激发了我深入探究该技术的兴趣。期待作者未来更多的作品，再次表示感谢和敬意🙏！
大数据基础：Hadoop之MapReduce重点架构原理
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619160314。
PostgreSQL基础（十五）：PostgreSQL的主从操作
YY_Ylx_XX: 博主能不能来篇abap教程？

最新文章

2024

目录

评论 26

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Lansonli 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。