HDFS写数据流程

本文详细阐述了HDFS(Hadoop Distributed File System)的写数据过程,包括客户端如何通过DistributedFileSystem创建文件,NameNode的角色,数据的分块与确认队列机制,以及数据节点间的管道通信和容错处理。在数据写入完成后,如何通过名称节点完成整个写入操作。
摘要由CSDN通过智能技术生成

                                           HDFS写数据流程

 

​​​​​​​

  1. 客户端通过调用,DistributedFileSystem(分布式文件系统)对象中的Create()创建一个文件;                                                          DFS通过RPC协议在Name Node中建立一个新文件(NM通过多种验证确保客户端是否有创建文件的权限,并且新的文件不存在文件系统中);

       (若创建失败,显示IOException异常; 

         若创建成功,DFS返回一个FSDataOutputStream(文件系统数据输出流)给客户端用来写数据,此时FSDOS包含一个DFSDOS(数据流对象)【客户端用DFSOS来处理数据节点和名称节点之间的通信】

 2、客户端调用FSDOS的Write()函数,向对应的文件写入数据

 3、客户端开始写数据时:

DFSDOS将文件分割成包,放入“数据列”,DateStreamer(数据流系统)将这些小的文件放入数据流中,DS请求NM将这些新的文件分配合适的数据节点存放副本;

返回的数据节点形成一个“管道”,这里有几个副本,那么就会这个管道就会有几个数据节点将文件以流的方式传给第一个数据节点,第一个数据节点存储这个包后依次推给第二个数据节点,直到完成“数据流管道”中的最后一个数据节点。

4、“确认队列“:DFSDOS同时也会保存一个包的内部队列,用来等待“管   道“中的数据节点返回确认信息;

                  只有当所有管道中的数据节点都返回写入成功的信息后,才会从确认队列中删除(若是数据写入失败的节点时,HDFS首先会关闭“数据流管道”,为了防止管道中的数据节点的数据丢失,则任何在确定通知队列的文件包都会被添加到“数据队列”的前端。

5、存放于正常的工作数据节点的文件,文件会赋予新的身份,并且与名称节点进行关联(有利于失败的数据节点过段时间从故障中恢复);

其中的部分数据块会被删除,“数据流道管”会把失败的数据节点删除,文件会被写到另外几个数据节点中;

最后名称节点会被注意到现在的文件副本没有达到配置属性,会在另外的数据节点重新安排创建一个副本,随后的文件会正常执行写入操作

6、当客户端成功完成数据写入的操作后,调用FSDOS的Close()的方法,将所有的数据块写入数据流道管道中的数据节点,并等待确认返回成功,最后通过名称节点完成写入。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贺雨蒙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值