HDFS写数据流程

最新推荐文章于 2023-01-30 22:00:02 发布

贺雨蒙

最新推荐文章于 2023-01-30 22:00:02 发布

阅读量167

点赞数 2

分类专栏：大数据导论作业文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62603525/article/details/121042353

版权

大数据导论作业专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细阐述了HDFS（Hadoop Distributed File System）的写数据过程，包括客户端如何通过DistributedFileSystem创建文件，NameNode的角色，数据的分块与确认队列机制，以及数据节点间的管道通信和容错处理。在数据写入完成后，如何通过名称节点完成整个写入操作。

摘要由CSDN通过智能技术生成

HDFS写数据流程

客户端通过调用，DistributedFileSystem（分布式文件系统）对象中的Create()创建一个文件； DFS通过RPC协议在Name Node中建立一个新文件（NM通过多种验证确保客户端是否有创建文件的权限，并且新的文件不存在文件系统中）；

（若创建失败，显示IOException异常；

若创建成功，DFS返回一个FSDataOutputStream（文件系统数据输出流）给客户端用来写数据，此时FSDOS包含一个DFSDOS（数据流对象）【客户端用DFSOS来处理数据节点和名称节点之间的通信】

2、客户端调用FSDOS的Write()函数，向对应的文件写入数据

3、客户端开始写数据时：

DFSDOS将文件分割成包，放入“数据列”，DateStreamer（数据流系统）将这些小的文件放入数据流中，DS请求NM将这些新的文件分配合适的数据节点存放副本；

返回的数据节点形成一个“管道”，这里有几个副本，那么就会这个管道就会有几个数据节点将文件以流的方式传给第一个数据节点，第一个数据节点存储这个包后依次推给第二个数据节点，直到完成“数据流管道”中的最后一个数据节点。

4、“确认队列“：DFSDOS同时也会保存一个包的内部队列，用来等待“管道“中的数据节点返回确认信息；

只有当所有管道中的数据节点都返回写入成功的信息后，才会从确认队列中删除（若是数据写入失败的节点时，HDFS首先会关闭“数据流管道”，为了防止管道中的数据节点的数据丢失，则任何在确定通知队列的文件包都会被添加到“数据队列”的前端。

5、存放于正常的工作数据节点的文件，文件会赋予新的身份，并且与名称节点进行关联（有利于失败的数据节点过段时间从故障中恢复）；

其中的部分数据块会被删除，“数据流道管”会把失败的数据节点删除，文件会被写到另外几个数据节点中；

最后名称节点会被注意到现在的文件副本没有达到配置属性，会在另外的数据节点重新安排创建一个副本，随后的文件会正常执行写入操作

6、当客户端成功完成数据写入的操作后，调用FSDOS的Close()的方法，将所有的数据块写入数据流道管道中的数据节点，并等待确认返回成功，最后通过名称节点完成写入。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
HDFS写数据流程

HDFS写数据流程
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

贺雨蒙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。