HDFS写数据流

最新推荐文章于 2024-06-07 12:43:01 发布

佳慧 20212103860

最新推荐文章于 2024-06-07 12:43:01 发布

阅读量160

点赞数

分类专栏：大数据导论作业文章标签： hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63518484/article/details/121062333

版权

大数据导论作业专栏收录该内容

6 篇文章 0 订阅

订阅专栏

HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多，其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式。

这里也说一下，在HDFS中，名称节点（NameNode)负责管理分布式文件系统的命令空间（Name space),保存了两个核心的数据结构Fslamge（元数据镜像）和EditLog（记录了所有针对文件的创立，删除，重命名等操作）。

数据节点（DataNode)是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据调度来进行数据的存储和检索，并且向名称节点（NameNode)定期发送自己所存储的块的列表。

1.客户端通过调用，分布式文件系统对象中的Create()创建一个文件，文件系统会调用RPC调用的名称节点中的文件系统命名空间创建一个新文件。

2.名称节点通过多种验证，确保请求客户端拥有有创建文件的权限，新的文件不存在文件系统中，当所有的验证通过时，名称节点就会创建一个新文件的记录。

3.客户端调用文件系统数据输出流的Write()函数，向对应的文件写入数据。

4.当客户端开始写入数据时，分布式文件系统会将文件分割成包，然后放入一个内容“数据队列”中，数据流系统会将这些小的文件放入数据流中，返回的数据节点形成了一个“管道”，假设这里的副本有3个，那么这个管道中就会有3个数据节点将文件包以流的方式传给队列中的第一个数据节点。第一个数据节点会存储这个包，然后将它推送到第二个数据节点，依次重复操作，直到完成“数据流管道”中的最后一个数据节点。

5.分布式文件系统同时也会保存一个包的内部队列，用来等待“管道”中的数据节点返回确认信息，这个队列被称为“确认队列”。只有当所有管道中的数据节点都返回写入成功的信息后，才会从队列中删除。

6.当客户端成功完成数据写入的操作后，调用文件系统数据输出流的Close（）方法，将所有的数据块写入数据流管道中的数据节点，并等待确认返回成功，最后通过名称节点完成写入。

佳慧 20212103860

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS写数据流

HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多，其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式。这里也说一下，在HDFS中，名称节点（NameNode)负责管理分布式文件系统的命令空间（Name space),保存了两个核心的数据结构Fslamge（元数据镜像）和EditLog（记录了所有针对文件的创立，删除，重命名等操作）。数据节点（DataNode)...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。