HDFS的读写流程（面试重点）

你可以自己看

已于 2023-02-14 16:05:46 修改

阅读量7.6k

点赞数 6

分类专栏：大数据开发文章标签： hdfs 面试 hadoop

于 2022-03-05 19:52:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47260194/article/details/123299758

版权

大数据开发专栏收录该内容

31 篇文章

订阅专栏

本文详细介绍了Hadoop HDFS中文件的上传和下载过程。在上传过程中，客户端首先请求NameNode，经过权限和目录结构检查后，NameNode指示客户端向指定的DataNode上传Block。DataNode之间通过建立传输通道进行数据复制。下载时，客户端从NameNode获取文件所在的DataNode地址，选择最近的DataNode读取数据并传输给客户端。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、写数据流程

1.首先客户端HDFS Client创建一个Distributed FileSystem 向NameNode请求上传文件ss.avi

2.然后NameNode检查目录树是否可以创建文件（检查权限——是否允许上传，检查目录结构——是否存在）。当都通过的时候响应客户端，反馈可以上传文件

3.客户端接收到可以上传文件的允许后，向NameNode请求上传第一个Block，上传到哪几个DataNode

4.NameNode进行计算，选择副本存储节点，第一个选择的是本地节点，第二个选择的是其他机架的一个节点，第三个是其他机架的另一个节点（默认三个副本存储节点）。并把这三个节点返回给客户端（dn1、dn2、dn3）

5.客户端拿到这三个节点后，创建一个流，向离的最近的一个节点（dn1）进行请求建立Block传输通道，而最近的节点（dn1）会向另外的节点（dn2）进行请求建立通道，另外的节点（dn2）会向第三个节点请求传输通道（dn3）

6.三个节点接收到请求建立通道后，逐一进行应答客户端

7.客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet后就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答

8.当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务
器。（重复执行 3-7 步）。

二、读数据流程

1.客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址，并返回地址给客户端

2.挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据

3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位校验）

4.客户端以packet为单位接收，先在本地缓存，然后写入目标文件

5.关闭资源

你可以自己看

博客等级

码龄5年

132
原创

1019
点赞

1157
收藏

764
粉丝

关注

私信

热门文章

分类专栏

python 16篇
Java 5篇
自动Java 2篇
软件测试 19篇
自动测试 5篇
大数据开发 31篇

展开全部收起

最新评论

python中网络爬虫框架
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
Spring Boot详解
心如止水1001: 这不就GPT生成的吗
Java的就业情况以及前景
Apentive: 我好就业你…b
Spring Boot详解
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
Spring Boot 和 Spring Cloud 的区别及选型
王大师王文峰: 还可以

大家在看

两段锁协议与触发器详解及代码案例

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。