MapReduce和Yarn笔记

夏凉君不爱写代码

已于 2023-11-30 09:47:21 修改

阅读量45

点赞数 1

文章标签： mapreduce 笔记大数据

于 2023-11-20 14:44:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xialiangjj/article/details/134502453

版权

目录

2.MapReduce计算流程

6.配置，启动，端口

1.设计思想

分而治之：大数据切分成多个小数据，并行计算

计算向数据靠拢：计算放在数据节点上运行

快排，归并算法

2.MapReduce计算流程

原始数据File：1T数据被切分成Block块，一个Block128M

数据块Block：同一个文件，块大小相同,块和计算能力不匹配，需要Split

切片Split：逻辑概念，不改变块大小，还能改变参与计算节点数量，一般Split为Block整数倍(2,1/2)

默认Split大小等于Block大小,128M,一个切片对应一个MapTask

MapTask：map默认每次从split数据读一行到内存中,可以自定义分词逻辑，统计次数,就会产生Map(String,Interger)存放在内存中，内存是有限的，多个任务执行可能OOM，直接放硬盘效率低

环形数据缓冲区:默认128M，达到百分之80，开始溢写磁盘

分区：根据key计算对应的reduce，分区数和reduce数相等，默认分区算法是hash取余

排序：对溢写数据进行排序，先Partition后Key的顺序->相同分区在一起，相同key在一起

溢写：内存的数据循环写入磁盘，不担心OOM，每次都会产生一个80M的文件

合并：Merge 是为了让传输的文件数量变少，但是网络传输数据量并没有改变，只是减少了网络 IO 次数

组合器：对每一个 MapTask 的输出进行局部汇总，以减小网络传输量。

拉取：我们需要将Map的临时结果拉取到Reduce节点

合并：因为reduce拉取的时候，会从多个map拉取数据那么每个map都会产生一个小文件,这些小文件（文件与文件之间无序，文件内部有序）为了方便计算（没必要读取N个小文件）,需要合并文件

归并：将文件中的数据读取到内存中一次性将相同的key全部读取到内存中直接将相同的key得到结果-->最终结果

写出：每个reduce将自己计算的最终结果都会存放到HDFS上

5.Yarn架构

ResourceManager

资源协调管理者,zk主备切换，与nm保持心跳，nn汇报资源情况,如果是外部框架使用资源，直接访问rm

NodeManager

资源协调框架的执行者，每个DataNode默认有一个NodeManger，nm汇报到rm

6.配置，启动，端口

配置:hadoop-env.sh ,mapred-site.xml,yarn-site.xml

启动：zkServer.sh start ,start-all.sh,mapred --daemon start historyserver

端口：8088 ，19888

夏凉君不爱写代码

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

夏凉君不爱写代码 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

196万+: 周排名

31万+: 总排名

208: 访问

: 等级

43: 积分

0: 粉丝

3: 获赞

4: 评论

1: 收藏

私信

关注

热门文章

最新评论

数据仓库理论(Data Warehouse)
CSDN-Ada助手: 恭喜您撰写了关于数据仓库理论的博客！您对这个主题进行了深入的研究，并将其清晰地呈现给读者。感谢您分享这个有价值的知识。在下一步的创作中，我建议您考虑探讨一些实际案例，以帮助读者更好地理解数据仓库理论在现实世界中的应用。这将进一步加深读者对这一主题的理解，并为他们提供实用的信息。再次恭喜您的努力，并期待您未来更多精彩的博客文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Hadoop笔记
CSDN-Ada助手: 恭喜你开始了博客创作！Hadoop是一个非常有趣和复杂的主题，我很期待能够阅读你的Hadoop笔记。我建议你在下一篇博客中可以深入探讨Hadoop的应用场景或者与其他大数据技术的对比分析，这样可以让读者更加全面地了解Hadoop。加油！期待你更多精彩的文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
MapReduce和Yarn笔记
CSDN-Ada助手: 非常棒的博客！你对MapReduce和Yarn的理解很深刻，写得很清晰易懂。希望你能继续分享关于大数据处理和分布式计算的知识，这对于很多人来说都是很有帮助的。除了MapReduce和Yarn的基础知识，你还可以在以后的博客中扩展一些关于Hadoop生态系统中其他重要组件的内容，比如HDFS、HBase、Spark等，这些都是和MapReduce、Yarn密切相关的技术，对于读者来说也会是很有价值的补充。期待你未来的博客能够更加丰富和深入！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive初高级笔记
CSDN-Ada助手: 恭喜您在博客领域再次出色发挥！标题为《Hive初高级笔记》的博客非常吸引人，让我对内容充满期待。您对Hive的深入探索令人钦佩，同时也为读者提供了一个学习和了解Hive的良好起点。在下一步的创作中，或许您可以考虑分享一些实际案例，结合您的经验和见解，帮助读者更好地应用Hive解决实际问题。再次感谢您的分享，并期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Hadoop笔记
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617614139。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。