【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

最新推荐文章于 2025-09-18 10:25:24 发布

原创

最新推荐文章于 2025-09-18 10:25:24 发布 · 2.8k 阅读

·

36

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #hadoop #hdfs #mapreduce #yarn

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

Hadoop
HDFS
MapReduce
- MapReduce简介
- MapReduce整体流程
Yarn

Hadoop

Hadoop是Apache开源的分布式大数据存储与计算框架，由HDFS、MapReduce、Yarn三部分组成。广义上的Hadoop其实是指Hadoop生态圈，包括的组件就不只是HDFS、MapReduce、Yarn，还包括Spark、Flink、Zookeeper、Sqoop、Hive、HBase等工具，但是我们讨论的不是Hadoop生态圈。

在这里插入图片描述

由于要解决大数据量的存储和计算问题，因此数据不能再存储在关系型数据库，而是存储在分布式文件系统HDFS中；然后通过分布式离线计算框架MapReduce进行计算；而Yarn则是负责资源调度，也就是决定计算任务调度到哪些节点上执行。

在这里插入图片描述

HDFS

HDFS是一个分布式文件系统，用于存储海量的文件数据。其优点是可以存储达PB级别的文件数据，百万级别以上的文件数量；而缺点则是不适合低延时数据访问，并且不支持文件修改，只支持追加。

HDFS架构

在这里插入图片描述

HDFS一共由四部分组成：Client、NameNode、DataNode、SecondaryNameNode。

Client：负责文件上传之前的文件切分，切分好后传输每一个文件数据块到DataNode，上传数据块前询问NameNode该数据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。